Category Archives: Linguistik

The joys of publishing

Konversation mit dem Editor eines Journals, bei dem wir ein Manuskript einreichen wollen und uns nach der genauen Formatierung erkundigen. Nachdem wir endlich irgendwann tatsächlich ein lange versprochenes LaTeX-Template bekommen haben, verlief unsere Korrespondenz dann sinngemäß wie folgt:

EDITOR: Bitte UNBEDINGT das Stylesheet für unser Journal benutzen, und möglichst nichts manuell ändern.

ICH: Okay, aber dieses Stylesheet formatiert die Überschriften sehr seltsam und fügt ungünstige vertikale Abstände hinzu, so dass manche Textteile sich überlagern, während andere viel zu weit auseinander stehen.

EDITOR: Bitte trotzdem UNBEDINGT das Stylesheet benutzen. Das soll wohl so.

ICH: Ok, noch was: Der gewählte Bibliographiestil formatiert manche Angaben auch sehr seltsam, soll das so sein?

EDITOR: Ja, bitte nichts verändern, sondern einfach bibtex aufrufen.

ICH: Okay.

Nach langer Zeit trudeln dann zwei Reviews ein.

REVIEWER 1: There are several typesetting issues in the manuscript, especially with the section headings. These should be fixed. Also, the citations can be improved by… (etc.)

REVIEWER 2: The manuscript uses a confusing and inconsistent way of displaying the headings. […] Numerous citations are too long – adjust [setting XYZ].

Ich frage mich wirklich, ob solche Sachen nur mir passieren.

Tagged , , , ,

Survey on multimodal corpora and annotation tools

This is an invitation to all linguists and colleagues among my readers to participate in an online survey on multimodal interaction data and related annotation tools.

In my dissertation I analyse and evaluate data models and file formats for multimodal annotations. Since evidence in literature for use cases and user experience stories is scarce, I am conducting a survey to obtain data on the kind of tasks researchers would like to perform on their data sets, and to what extent existing tools and solutions can support them – and in which situations they fall short.

So, if you have worked with multimodal transcription or annotation tools (such as ELAN, Praat, ANVIL, EXMARaLDA, and others) in the past, I kindly ask you to answer some questions regarding your user experience and success in using them.

You can find the online survey here:

http://mmcsurvey.sfb673.org/?qid=6

The survey is presented in English, and every recent version of any internet browser should be able to display it correctly.

Thanks in advance for your information and support!

Best regards,

Peter Menke

Tagged , , , ,

Neues aus dem Elfenbeinturm

Auf Fefes Blog bin ich auf einen Beitrag gestoßen, der sehr schön den Irrsinn zusammenfasst, der entsteht, wenn man es mit der Konstruktion gendergerechter Sprache zu weit treibt. Es geht um diesen Text hier, der so unverständliche Formen wie »dixs Studierxs« einführt, was wie folgt erklärt wird:

Wir* haben uns* für die x-Form entschieden, um Alle anzusprechen, ohne Positionierungen auszuschließen. Das x steht für die Durchkreuzung gegenderter Personenvorstellungen.

Offensichtlich hat keiner daran gedacht, dass Texte sich auch zum Vorlesen eignen sollten. Mir ist jedoch völlig unklar, wie man diese künstlichen Formen aussprechen soll. (Ganz abgesehen davon, dass man, wenn man sie ausspricht, nicht mehr zwischen Singularendungen und Pluralendungen unterscheiden kann, beide lauten dann, so wie ich es mir erschließe, /ks/.)

Was dem Ganzen aber die Krone aufsetzt, ist, dass sich der Text auch in starkem Maße für Behinderte einsetzt, indem auch solche inzwischen feststehenden, semantisch ausgeblichenen Konstrukte wie »Begriff« markiert werden, um keine Personen auszugrenzen, denen eine bestimmte Handlung (in diesem Fall greifen) nicht möglich ist. Das ganze wird dann als »Be_griff« notiert. Hier wird völlig ignoriert, dass die meisten dieser Konstrukte inzwischen zu vollkommen eigenständigen Wörtern geworden sind, deren Bedeutung sich eben nicht mehr kompositional erklären lässt. Aber das nur am Rande.

Was ich mich vielmehr frage, ist: Wenn man sich so stark für die Gleichbehandlung und Entdiskriminierung von Behinderten einsetzt: Wie soll dann ein Screenreader, auf den ja viele sehbehinderte Personen angewiesen sind,  solch völlig an den Haaren herbeigezogenen Konstruktionen wie »dixs Studierxs« aussprechen? Das ist doch wieder mal ein eindrucksvolles Beispiel dafür, wie man sich so dermaßen in seinen Ideologien verrennen kann, dass man den Bezug zur Realität völlig aus den Augen verliert. Oh, Verzeihung… Der Phraseologismus »aus den Augen verlieren« ist dann wohl augentechnisch auch fehl am Platz, habe ich Recht?

Tagged , , ,

Liken

Liebe Leute bei Facebook: Wenn ihr schon gruselige Anglizismen produzieren und »liken« als deutsches Verb in der dritten Person benutzen wollt, dann macht’s doch bitte wenigstens mit der richtigen Endung »likt« oder »liket«. Euer Favorit »liked« (im Sinne von »Wer das liked, ist doof«) ist simple past und hat mit der dritten Person an sich nichts zu tun.

Tagged , ,

Die Datei

Was ich mich ja immer frage: Was hat es mit dieser sogenannten »Datei« auf sich, auf die ja immer wieder die Sprache kommt, sobald irgendwer was Böses gemacht hat, und die Polizei oder der Staat versuchen, das ganze informationstechnisch in den Griff zu bekommen? Zuletzt aktuell wurde der Begriff (mal wieder) durch die Neonazi-Vorkommnisse.

Für mich und mein Sprachverständnis ist eine Datei eine Speichereinheit auf einem Datenträger, üblicherweise mit einem Namen inkl. einer Endung (meist) zur Markierung des Dateityps versehen, und in Ordnern organisiert, und intern (beispielsweise) über Inodes organisiert.

Die Frage war dann: Was für eine Datei also erzeugen sich die Experten dann da? Zutrauen würde ich denen alles. Typisch wäre ein Word-Dokument mit Tabellen drin. Oder meinetwegen auch eine Excel-Tabelle. Auch PowerPoint hat sich in meiner bisherigen Erfahrung (durch Zwang von oben) als erstaunlich flexibel erwiesen, beispielsweise zum Setzen von A0-Postern oder um Türschilder und Wegweiser damit zu erstellen — Zitat: »Ist ja Querformat, dann nehmen wir doch am besten PowerPoint«.

Jedenfalls kann ich mir nicht vorstellen, wie man mit so einem Ding effektiv arbeiten kann, ganz abgesehen davon, wie mehrere örtlich getrennte Einheiten damit arbeiten sollen. Vermutlich fügt jeder neue Informationen im Word-Dokument am Ende an und schickt das Ding als Email-Antwort zurück an alle anderen? Versionsverwaltung des Volkes.

Ich hätte ja eher eine Datenbank vermutet, die man entsprechend abfragen kann, aber doch keine einzelne Datei? Gerade bei den rudimentären Suchfunktionen, die es in MS Office so gibt?

Soweit nun meine Überlegungen — und dann fand ich folgenden Eintrag des Duden als Definition für »Datei«:

nach zweckmäßigen Kriterien geordneter, zur Aufbewahrung geeigneter Bestand an sachlich zusammengehörenden Belegen oder anderen Dokumenten, besonders in der Datenverarbeitung

Das passt natürlich sehr gut auf das, was offensichtlich gemeint ist, wann immer die Rede von einer Datei zur Verbrechensbekämpfung die Rede ist. Aber diese Definition scheint wohl auch für die Dateien, so wie ich sie kenne, zu gelten, jedenfalls in den Augen der Duden-Redaktion.

Da ist doch wohl eindeutig Nachbesserungsbedarf vorhanden. Oder warum sind geordnete »Belege« und »andere Dokumente« konstitutiv dafür, dass ein Bestand als Datei gilt? Es gibt Dutzende von Datei-Arten, in denen rein gar keine Belege und Dokumente enthalten sind, etwa ausführbare Programmdateien oder Konfigurationsdateien. Ich kann auch genausogut Nonsens oder überhaupt gar keinen Inhalt in eine Datei schreiben, und das Ding ist trotzdem eine Datei — nur eben eine leere, oder eine, in der der Inhalt keine Bedeutung hat.

Also, was soll das, Dudenredaktion? Nachbessern, bitte. Macht doch wenigstens zwei Lemmata daraus, wenn diese (in meinen Augen) sehr seltsame Definition der Datei als Dokumentensammlung unbedingt sein muss. Ich jedenfalls habe außer den Medien noch niemanden gehört, der »Datei« mit dieser Bedeutung benutzt hat.

Tagged , , , ,

Zitationschaos und das Buckel-S

Da will ich doch eigentlich nur mal wieder ganz kurz nur zwei kurze Sätze aus Lexikoneinträgen zitieren, und stoße damit schon wieder an die Grenzen der Technik. Und das nur, weil man außerhalb von Deutschland unser schönes Buckel-S nicht kennt (und schon gar nicht seine Großbuchstabenform).

Eigentlich will ich nur diese beiden Artikel zitieren (es handelt sich um den gleichen Artikel, der eine ist aus der ins Englische übersetzten Version des entsprechenden Werks entnommen):

  • Bußmann, Hadumod (2002). Lexikon der Sprachwissenschaft. Stuttgart: Alfred Kröner.
  • Bussmann, Hadumod (1996). Routledge Dictionary of Language and Linguistics. Ed. by Gregory Trauth and Kerstin Kazzazi. London/New York: Routledge.

Sieht soweit gut aus — aber: BibLaTeX erkennt natürlich aufgrund der unterschiedlichen Schreibung des »ss«/»ß« im Nachnamen des Autors nicht, dass es sich um die gleiche Person handelt. Das führt dann dazu, dass zusammenhängende cite-Angaben wie \cite{Bussmann.1996.Lexikon,Bussmann.2002.Routledge} die Einträge nicht automatisch zusammenfassen, und dass im Literaturverzeichnis beim zweiten Eintrag der voll ausgeschriebene Name erscheint statt des Platzhalter-Geviertstrichs.

Das ist unschön!

Weiß jemand, ob man BibLaTeX dazu überreden kann, die beiden Einträge als dem selben Autor zugehörig anzuerkennen? Ich sollte wohl besser nicht die Schreibung von »ss« bzw. »ß« in der Angabe verändern, oder?

Es ist so nervenaufreibend, mit solchen Dingen so viel Zeit zu verlieren…

Tagged , , , , ,

Today I rant about: Anglocentrism

Please have a look at the following quote (from Sotillo, Susana M.: Corpus Linguistics. In Strazny, Philipp (ed.): Encyclopedia of Linguistics. New York: Fitzroy Dearborn 2005, p. 246):

Dear Ms Sotillo, if I may be so frank to enlighten you: Yes, non-English corpora do exist. In fact, there is also some research going on in the field of linguistics that does not take place in the USA (not even in the Americas), and that even has some languages other than English as its subject. Of course, these do not rate a mention, according to your ingenious classification system consisting of the glorious language triad of AE, BE, and Other-E. — Not even to mention your restriction (1) to text corpora and (2) to only three types of text corpora, silently ignoring, besides others, parallel and learner corpora.

»Corpora also exist for languages other than English«? Seriously, how narrow-minded is such a statement in a scientific publication? The author of an article in an »encyclopedia of linguistics« (thus probably at least a post-graduate) can be expected to produce an article that isn’t as anglocentric and ignorant of the rest of the world as this piece of crap.

Tagged , ,

Using Scrivener to manage quotes and excerpts for scientific publications

I’ve been using Scrivener for quite a while, and some months ago I decided to use it also to write my doctoral dissertation (I’m from the field of computational linguistics). Much has been written about how to use Scrivener for the creation of scientific articles — I’m a LATEX guy, and I already managed to set up a production chain for the compilation of a customized LATEX  document with additional packages and modifications of how to create the bibliography.

But It took me a long time to find a good way to cope with those many, many publications by others: I needed to read and summarize them, and also to extract important tables, figures, and quotes.

I had a look at several tools that help to manage these kinds of data, but I didn’t find one that suited my needs (there were some of them that were quite okay, but they worked in a Windows environment only, but that was not an option for me).

But finally I read a section in Umberto Eco’s How to make a thesis on how to create an efficient index card apparatus. Index cards, that sounded somehow familiar. Then I had a sudden inspiration: Why not use Scrivener itself for the management of summaries and quotes? There were so many features that looked like they could be helpful — the index card view, the flexible hierarchical structure of documents and folders, keywords, labels, and so on and so on. So I decided to give it a try and do some of the literature work with Scrivener.

And this is how i did it:

Continue reading

Tagged , , , , ,

Israel Kamafjallajökull

Da war es schon wieder im Radio. Dieses nervige Lied. Es ist mir immer noch unbegreiflich, wie dieses doch recht seichte Cover-Gedudel von »Over the Rainbow« (mit Ausflügen in die »What a Wonderful World«) in die Charts kommen konnte. Am schlimmsten finde ich aber, dass der Sänger, dessen Namen ich mir ebensowenig merken kann wie den von diesem isländischen Vulkan (mögen sie beide in Frieden ruhen) chaotisch, dafür aber um so hartnäckiger die Strophen neu zusammensetzt und somit erstens ihren Sinn zerstört und zweitens sogar syntaktisch falsche Sätze konstruiert, in denen offensichtlich so wichtige Dinge wie das Verb fehlen, oder die (wie bei »Human« von den Killers) einfach mal munter Singular und Plural vertauschen:

Somewhere over the rainbow
Way up high
There’s a land that I heard of And the dreams that you dreamed of
Once in a lullaby

oder

Somewhere over the rainbow
Skies are blue Way up high
And the dreams that you dare to dream
Really to come true. Why, oh why can’t I?

Warum? Das irritiert fürchterlich beim Zuhören, und man kann einfach nicht verstehen, warum es diese offensichtlichen Fehler in die Aufnahme geschafft haben. Mir kommt es so vor, als hätte Herr Kamakawiwoʻole den Text nicht so ganz draufgehabt — im Sinne von Auswendig-Wissen ebenso wie im Sinne von Verständnis, denn solche Fehler können kaum passieren, wenn man weiß, wovon man singt. Schon echt seltsam, dass der Song es dennoch so weit gebracht hat. Ich frage mich, was Judy Garland gedacht hätte, wenn sie diese Version gehört hätte. Nein nein, manchmal ist eben doch das Original die beste Version:

Tagged , , ,

Der Felix, die Anni und das Virgino

In meinen Google Alerts, die ich mal nebenbei für das Projekt »Linguistic Networks« aufgesetzt habe und seitdem dann und wann mal sichte, landen seit einigen Tagen immer wieder Personen-Übersichtsseiten von so fragwürdigen Services wie yasni.de und Konsorten. Diese Dienste sammeln sich datenkrakenartig alles, was sie im Internet finden können und was auch nur ansatzweise nach personenbezogenen Informationen aussieht und erstellen dann besagte Personen-Übersichtsseiten, die dann geballte Linksammlungen darstellen. Wenn diese Systeme richtige Personen gefunden haben, und wenn sie auch den Namen die entsprechenden Identitäten richtig zuordnen können, dann haben diese Seiten eine Macht und einen Informationsgehalt, den ich gar nicht abschätzen kann und will — sei es zum Guten oder zum Bösen. Continue reading

Tagged , , , , , , ,
Optimization WordPress Plugins & Solutions by W3 EDGE