Category Archives: Linguistik

Die Datei

Die Datei

Was ich mich ja immer frage: Was hat es mit dieser sogenannten »Datei« auf sich, auf die ja immer wieder die Sprache kommt, sobald irgendwer was Böses gemacht hat, und die Polizei oder der Staat versuchen, das ganze informationstechnisch in den Griff zu bekommen? Zuletzt aktuell wurde der Begriff (mal wieder) durch die Neonazi-Vorkommnisse.

Für mich und mein Sprachverständnis ist eine Datei eine Speichereinheit auf einem Datenträger, üblicherweise mit einem Namen inkl. einer Endung (meist) zur Markierung des Dateityps versehen, und in Ordnern organisiert, und intern (beispielsweise) über Inodes organisiert.

Die Frage war dann: Was für eine Datei also erzeugen sich die Experten dann da? Zutrauen würde ich denen alles. Typisch wäre ein Word-Dokument mit Tabellen drin. Oder meinetwegen auch eine Excel-Tabelle. Auch PowerPoint hat sich in meiner bisherigen Erfahrung (durch Zwang von oben) als erstaunlich flexibel erwiesen, beispielsweise zum Setzen von A0-Postern oder um Türschilder und Wegweiser damit zu erstellen — Zitat: »Ist ja Querformat, dann nehmen wir doch am besten PowerPoint«.

Jedenfalls kann ich mir nicht vorstellen, wie man mit so einem Ding effektiv arbeiten kann, ganz abgesehen davon, wie mehrere örtlich getrennte Einheiten damit arbeiten sollen. Vermutlich fügt jeder neue Informationen im Word-Dokument am Ende an und schickt das Ding als Email-Antwort zurück an alle anderen? Versionsverwaltung des Volkes.

Ich hätte ja eher eine Datenbank vermutet, die man entsprechend abfragen kann, aber doch keine einzelne Datei? Gerade bei den rudimentären Suchfunktionen, die es in MS Office so gibt?

Soweit nun meine Überlegungen — und dann fand ich folgenden Eintrag des Duden als Definition für »Datei«:

nach zweckmäßigen Kriterien geordneter, zur Aufbewahrung geeigneter Bestand an sachlich zusammengehörenden Belegen oder anderen Dokumenten, besonders in der Datenverarbeitung

Das passt natürlich sehr gut auf das, was offensichtlich gemeint ist, wann immer die Rede von einer Datei zur Verbrechensbekämpfung die Rede ist. Aber diese Definition scheint wohl auch für die Dateien, so wie ich sie kenne, zu gelten, jedenfalls in den Augen der Duden-Redaktion.

Da ist doch wohl eindeutig Nachbesserungsbedarf vorhanden. Oder warum sind geordnete »Belege« und »andere Dokumente« konstitutiv dafür, dass ein Bestand als Datei gilt? Es gibt Dutzende von Datei-Arten, in denen rein gar keine Belege und Dokumente enthalten sind, etwa ausführbare Programmdateien oder Konfigurationsdateien. Ich kann auch genausogut Nonsens oder überhaupt gar keinen Inhalt in eine Datei schreiben, und das Ding ist trotzdem eine Datei — nur eben eine leere, oder eine, in der der Inhalt keine Bedeutung hat.

Also, was soll das, Dudenredaktion? Nachbessern, bitte. Macht doch wenigstens zwei Lemmata daraus, wenn diese (in meinen Augen) sehr seltsame Definition der Datei als Dokumentensammlung unbedingt sein muss. Ich jedenfalls habe außer den Medien noch niemanden gehört, der »Datei« mit dieser Bedeutung benutzt hat.

Zitationschaos und das Buckel-S

Zitationschaos und das Buckel-S

Da will ich doch eigentlich nur mal wieder ganz kurz nur zwei kurze Sätze aus Lexikoneinträgen zitieren, und stoße damit schon wieder an die Grenzen der Technik. Und das nur, weil man außerhalb von Deutschland unser schönes Buckel-S nicht kennt (und schon gar nicht seine Großbuchstabenform).

Eigentlich will ich nur diese beiden Artikel zitieren (es handelt sich um den gleichen Artikel, der eine ist aus der ins Englische übersetzten Version des entsprechenden Werks entnommen):

  • Bußmann, Hadumod (2002). Lexikon der Sprachwissenschaft. Stuttgart: Alfred Kröner.
  • Bussmann, Hadumod (1996). Routledge Dictionary of Language and Linguistics. Ed. by Gregory Trauth and Kerstin Kazzazi. London/New York: Routledge.

Sieht soweit gut aus — aber: BibLaTeX erkennt natürlich aufgrund der unterschiedlichen Schreibung des »ss«/»ß« im Nachnamen des Autors nicht, dass es sich um die gleiche Person handelt. Das führt dann dazu, dass zusammenhängende cite-Angaben wie \cite{Bussmann.1996.Lexikon,Bussmann.2002.Routledge} die Einträge nicht automatisch zusammenfassen, und dass im Literaturverzeichnis beim zweiten Eintrag der voll ausgeschriebene Name erscheint statt des Platzhalter-Geviertstrichs.

Das ist unschön!

Weiß jemand, ob man BibLaTeX dazu überreden kann, die beiden Einträge als dem selben Autor zugehörig anzuerkennen? Ich sollte wohl besser nicht die Schreibung von »ss« bzw. »ß« in der Angabe verändern, oder?

Es ist so nervenaufreibend, mit solchen Dingen so viel Zeit zu verlieren…

Today I rant about: Anglocentrism

Today I rant about: Anglocentrism

Please have a look at the following quote (from Sotillo, Susana M.: Corpus Linguistics. In Strazny, Philipp (ed.): Encyclopedia of Linguistics. New York: Fitzroy Dearborn 2005, p. 246):

Dear Ms Sotillo, if I may be so frank to enlighten you: Yes, non-English corpora do exist. In fact, there is also some research going on in the field of linguistics that does not take place in the USA (not even in the Americas), and that even has some languages other than English as its subject. Of course, these do not rate a mention, according to your ingenious classification system consisting of the glorious language triad of AE, BE, and Other-E. — Not even to mention your restriction (1) to text corpora and (2) to only three types of text corpora, silently ignoring, besides others, parallel and learner corpora.

»Corpora also exist for languages other than English«? Seriously, how narrow-minded is such a statement in a scientific publication? The author of an article in an »encyclopedia of linguistics« (thus probably at least a post-graduate) can be expected to produce an article that isn’t as anglocentric and ignorant of the rest of the world as this piece of crap.

Using Scrivener to manage quotes and excerpts for scientific publications

Using Scrivener to manage quotes and excerpts for scientific publications
Using Scrivener to manage quotes and excerpts for scientific publications

I’ve been using Scrivener for quite a while, and some months ago I decided to use it also to write my doctoral dissertation (I’m from the field of computational linguistics). Much has been written about how to use Scrivener for the creation of scientific articles — I’m a LATEX guy, and I already managed to set up a production chain for the compilation of a customized LATEX  document with additional packages and modifications of how to create the bibliography.

But It took me a long time to find a good way to cope with those many, many publications by others: I needed to read and summarize them, and also to extract important tables, figures, and quotes.

I had a look at several tools that help to manage these kinds of data, but I didn’t find one that suited my needs (there were some of them that were quite okay, but they worked in a Windows environment only, but that was not an option for me).

But finally I read a section in Umberto Eco’s How to make a thesis on how to create an efficient index card apparatus. Index cards, that sounded somehow familiar. Then I had a sudden inspiration: Why not use Scrivener itself for the management of summaries and quotes? There were so many features that looked like they could be helpful — the index card view, the flexible hierarchical structure of documents and folders, keywords, labels, and so on and so on. So I decided to give it a try and do some of the literature work with Scrivener.

And this is how i did it:

Read the rest of this entry

Israel Kamafjallajökull

Israel Kamafjallajökull

Da war es schon wieder im Radio. Dieses nervige Lied. Es ist mir immer noch unbegreiflich, wie dieses doch recht seichte Cover-Gedudel von »Over the Rainbow« (mit Ausflügen in die »What a Wonderful World«) in die Charts kommen konnte. Am schlimmsten finde ich aber, dass der Sänger, dessen Namen ich mir ebensowenig merken kann wie den von diesem isländischen Vulkan (mögen sie beide in Frieden ruhen) chaotisch, dafür aber um so hartnäckiger die Strophen neu zusammensetzt und somit erstens ihren Sinn zerstört und zweitens sogar syntaktisch falsche Sätze konstruiert, in denen offensichtlich so wichtige Dinge wie das Verb fehlen, oder die (wie bei »Human« von den Killers) einfach mal munter Singular und Plural vertauschen:

Somewhere over the rainbow
Way up high
There’s a land that I heard of And the dreams that you dreamed of
Once in a lullaby

oder

Somewhere over the rainbow
Skies are blue Way up high
And the dreams that you dare to dream
Really to come true. Why, oh why can’t I?

Warum? Das irritiert fürchterlich beim Zuhören, und man kann einfach nicht verstehen, warum es diese offensichtlichen Fehler in die Aufnahme geschafft haben. Mir kommt es so vor, als hätte Herr Kamakawiwoʻole den Text nicht so ganz draufgehabt — im Sinne von Auswendig-Wissen ebenso wie im Sinne von Verständnis, denn solche Fehler können kaum passieren, wenn man weiß, wovon man singt. Schon echt seltsam, dass der Song es dennoch so weit gebracht hat. Ich frage mich, was Judy Garland gedacht hätte, wenn sie diese Version gehört hätte. Nein nein, manchmal ist eben doch das Original die beste Version:

Der Felix, die Anni und das Virgino

Der Felix, die Anni und das Virgino

In meinen Google Alerts, die ich mal nebenbei für das Projekt »Linguistic Networks« aufgesetzt habe und seitdem dann und wann mal sichte, landen seit einigen Tagen immer wieder Personen-Übersichtsseiten von so fragwürdigen Services wie yasni.de und Konsorten. Diese Dienste sammeln sich datenkrakenartig alles, was sie im Internet finden können und was auch nur ansatzweise nach personenbezogenen Informationen aussieht und erstellen dann besagte Personen-Übersichtsseiten, die dann geballte Linksammlungen darstellen. Wenn diese Systeme richtige Personen gefunden haben, und wenn sie auch den Namen die entsprechenden Identitäten richtig zuordnen können, dann haben diese Seiten eine Macht und einen Informationsgehalt, den ich gar nicht abschätzen kann und will — sei es zum Guten oder zum Bösen. Read the rest of this entry

Scientific Spam

Scientific Spam

Eben bekam ich eine Email, die ich zuerst fast einfach als Spam wegsortiert hätte, bis ich genauer hingeguckt habe. Mir wird dort von einer Mitarbeiterin einer englischen Universität eine Monographie angepriesen, die doch tatsächlich thematisch interessant für mich ist, und erst habe ich überlegt, dass der Spambot recht gut sein muss, wenn er es schafft, mir zumindest relevante Dinge (und keine Viagra oder Solarlampen) zuzuordnen.

Dann aber, am Ende der Mail, dieser Abschnitt (den Namen des Herrn habe ich entfernt):

You have received this email because Professor —, has passed your details on to us.

Bitte was? Ich kenne diesen Herrn wohl vom Namen her, aber nicht so, dass er meine Kontaktdaten haben könnte. Also muss er wohl recht wahllos thematisch nahe universitäre Webseiten abgegrast und contact harvest betrieben haben, um potentielle Käufer für sein Buch zu finden. Also ehrlich, diese Vorgehensweise finde ich recht armselig. Es gibt genug Mailinglisten (allen voran die LinguistList), an die man so etwas schicken kann, und jeder Interessierte wird dann beim Durchsehen der dortigen Buchankündigungen selbst darauf kommen, dass dieses Buch für ihn interessant sein könnte. Warum also so eine Spammerei? Entweder Geltungssucht, oder der Herr möchte einfach nur seinen Umsatz maximieren. Beides gefällt mir nicht.

Nicht verzagen, Umberto fragen!

Nicht verzagen, Umberto fragen!

Dank Ulli habe ich ein sehr, sehr hilfreiches Buch zum Thema »Wissenschaftliche Abschlussarbeit« gefunden, das ich hiermit jedem ans Herz legen möchte:

  • Eco, Umberto (1977): Wie man eine wissenschaftliche Abschlußarbeit schreibt. Doktor-, Diplom– und Magisterarbeit in den Geistes– und Sozialwissenschaften. Wien: facultas.wuv Universitätsverlag, 13. Aufl. 2010.

Auf eine ausführliche Rezension verzichte ich aus drei Gründen: Es gibt schon genug davon, ich bin müde, und es ist zu heiß zum Denken. Daher nur der Tipp, sich das Buch mal anzuschauen, wenn man in einer entsprechenden Situation ist. Es lohnt sich!

    Safety Cones, Politik und mehrdeutige Antworten

    Safety Cones, Politik und mehrdeutige Antworten

    Seit einiger Zeit ist das Top-Thema in Herford, ob die sogenannten Safety Cones, eine moderne Skulptur, auf einer derzeit recht hässlichen Herforder Kreuzung aufgestellt werden sollen. Dazu entbrannten mehr und mehr Diskussionen und Stellungnahmen, so dass es schließlich zu einem Bürgerentscheid kommt, der in einigen Tagen stattfindet. Als ich die genaue Formulierung der Frage, über die abgestimmt wurde, las, dachte ich mir schon, dass da einige Probleme aufkommen werden (nach dem Abstimmungsheft): Read the rest of this entry