DGfS Sektion Computerlinguistik

 
   



Home

Call for Posters

Poster

Stipendium

DGfS-Links



                   

Liste der Poster (alphabetisch, nach Autoren)



Abstracts:


Adrien Barbaresi
Ecole Normale Supérieure de Lyon
Deutsche politische Reden: Korpus und Visualisierung

Dieser Beitrag (Poster und Demo) entsteht im Rahmen meiner Doktorarbeit über empfundene Sprachkomplexität. Ziel ist es, ein frei verfügbares Korpus zu erstellen sowie ein von der Computerlinguistik bisher wenig erforschtes Sprachregister zu studieren.

Eine erste Version des Korpus wurde im Sommer 2011 im XML-Format mit Metadaten veröffentlicht. Sie ist unter folgender permanenter URL verfügbar: http://purl.org/corpus/german-speeches. Das Korpus besteht aus zwei Sammlungen: Bundespräsidialamt und Bundeskanzleramt. Erstere umfasst die Reden von fünf Bundespräsidenten (1984-2011, 1 360 Texte, 2 292 759 Tokens), während letztere aus den Reden von zwei Kanzlern sowie von mehreren Staatsministern besteht (1998-2011, 1 748 Texte, 3 759 954 Tokens). Beide wurden von offiziellen Quellen (nämlich den Webseiten der erwähnten Institutionen) heruntergeladen, wurden als solche übernommen und überarbeitet. Sie können gemäß § 48 UrhG frei erneut veröffentlicht werden, und sind unter der Creative-Commons Lizenz by-sa 3.0 (Namensnennung und Weitergabe unter gleichen Bedingungen) lizenziert. Die Metadaten sind (anhand von regulären Ausdrücken) in folgende Teile gegliedert: Titel, Redner, Datum, Quelle, Exzerpt und Anrede. Eine zweite Version wird anlässlich dieser DGfS-CL-Poster-Session veröffentlicht, sie ist auf den neuesten Stand und wird mit einer Wortartenkennzeichnung und einer Lemmatisierung angereichert.

Um einen ersten Blick auf den Inhalt zu werfen, kann man die mitgeführte Visualisierung in Form von Webseiten (CSS/XHTML Format) benutzen: Die zeitliche Entwicklung bestimmter Schlüsselwörter wird anhand von Balkendiagrammen dargestellt, nämlich pro Jahr und pro Redner. Es ist auch möglich, den Kontext der Wortanwendung zu sehen. Alle automatisch generierten Seiten beinhalten Links zu den Urtexten, in denen das gesuchte Wort markiert wird.

Diese Ressource wird weiter entwickelt werden, durch eine regelmäßige Erweiterung im Laufe der Zeit, durch eine Annäherung an das XML-TEI Format, und schließlich durch die Visualisierung beliebiger, von dem Benutzer gesuchter Ausdrücke. Sie wird Teil eines Korpus elektronischer Texte, das von Gertrud Faaß und Ulrich Heid (Universität Hildesheim) gesammelt wird. Es wird ebenso während der diesjährigen Poster-Session vorgestellt.



Felix Bildhauer, Roland Schäfer
Freie Universität Berlin
COW - COrpora from the Web: Gigatoken Webkorpora und Tools zur Ad-hoc-Webkorpuserstellung

Wir stellen eine neue Sammlung von Webkorpora, die Ergebnisse von deren Evaluierung und unser eigenes Toolkit zur Erstellung solcher Korpora vor. Die von uns erstellten Korpora (bisher Deutsch, Französisch, Spanisch und Schwedisch; weitere europäische Sprachen wie Dänisch sind in Arbeit) umfassen je fünf bis zehn Milliarden Tokens und sind linguistisch aufbereitet (Lemmatisierung; POS-tagging, z.T. mit morphologischer Analyse; teilweise shallow parsing). Die Evaluation berücksichtigt unter anderem die lexikalische Abdeckung und Textsortenverteilungen.

Unser Toolkit dient der Ad-hoc-Erstellung von Korpora in ISO-8859-1(5)-Sprachen. Die kompilierten und effizienten Cross-Platform-Tools füllen die Lücke zwischen Webcrawler und linguistischer Aufbereitung, erledigen also HTML-Entfernung, UTF8-Dekodierung, Boilerplate-Entfernung, Filterung von Dokumenten in unerwünschten Sprachen, Entfernung von Duplikaten in einem Schritt (bzw. zwei Schritten mit echtem w-Shingling zur Erkennung von Beinahe-Duplikaten). Wir können zeigen, dass die Tools in vielfacher Hinsicht (z.B. Duplikaterkennung) bessere Ergebnisse liefern als sie existierende Webkorpora (z.B. Baroni et al. 2009) aufweisen. Eine neue Version der Software wird außerdem den Crawlprozess ebenfalls übernehmen oder einen externen Crawler steuern. Ziel der Crawlerentwicklung wird es sein, möglichst gute Random-Stichproben aus dem Internet zu ermöglichen, was über Suchmaschinenergebnisse nicht besonders gut möglich ist.

Die Präsentation gibt den Konferenzteilnehmern die Gelegenheit, die Korpora über CQP zu testen und ggf. Zugang zu den Daten zu erhalten.

References
Baroni, M. / Bernardini, S. / Ferraresi, A. / Zanchetta, E. (2009). The wacky wide web: A collection of very large linguistically processed web-crawled corpora. Language Resources and Evaluation, 43(3), 209-226.
Broder, A. Z. / Glassman, S. C. / Manasse, M. S. / Zweig, G. (1997). Syntactic Clustering of the Web. Technical report 1997-115 SRC. Palo Alto.
Kilgarriff, A. / Grefenstette, G. (2003). Introduction to the special issue on the web as corpus. Computational Linguistics, 29, 333-347.
Manning, C. D. / Schütze, H. (1999). Foundations of statistical natural language processing. MIT Press, Cambridge, MA, USA.
Manning, C. D. / Raghavan, P. / Schütze, H. (2008). Introduction to Information Retrieval. CUP, Cambridge.
The IMS Open Corpus Workbench (CWB). http://cwb.sourceforge.net/.



Marcel Bollmann, Stefanie Dipper, Florian Petran
Ruhr-Universität Bochum
Das Anselm-Projekt: Tools für die automatische Analyse eines parallelen Korpus des Frühneuhochdeutschen

    Das Poster stellt aktuelle und geplante Arbeiten des Anselm-Projekts vor, das 2011 begonnen hat. Im Projekt geht es um die Entwicklung von Tools für die automatische Analyse des Anselm-Korpus. Das Korpus besteht aus der gesamten deutschsprachigen Überlieferung des Passionstraktats "St. Anselmi Fragen an Maria" (36 Handschriften und 8 Drucke des 14.-16. Jahrhunderts). Die Überlieferungen liegen in verschiedenen Fassungen vor: als Prosa- oder Versfassung, als Lang- oder Kurzfassung. Beispiel (1) zeigt eine Frage von Anselm und den Anfang der dazugehörigen Antwort von Maria, aus einer nürnbergischen Überlieferung (2. Hälfte 15. Jhd.).

  1. SAnctus anshelmus der was von hertzen fro vnd sprach sag mir liebe fraw wie was der anuanck der marter deines kindes vnser frawe sprach Do mein kint mit seinen iungern het ge essen vor seiner marter das iüngst essen vnd do sie von dem tische auf stunden do ging Judas ... Sankt Anselmus, der war von Herzen froh und sprach: Sag mir, liebe Frau, wie war der Anfang der Marter deines Kindes? Unsere Frau sprach: Da mein Kind mit seinen Jüngern hat gegessen vor seiner Marter das jüngste Essen (= das Abendmahl) und da sie von dem Tisch aufstanden, da ging Judas ...

    Im Projekt werden die verschiedenen Fassungen mit automatischen Methoden analysiert und aligniert. Zur Erzeugung der normalisierten Wortform (= der entsprechenden modernen Wortform) werden Ersetzungsregeln genutzt, die aus einer alignierten Luther-Bibel gewonnen wurden. Zu den geplanten Annotationen gehören außerdem Wortart und Morphologie. Die Alignierung soll auf Paragraphen-, Satz- und Wortebene erfolgen. Beispiel (2) zeigt die Konstituenten-alignierte Fassung eines Fragments aus zwei Anselm-Überlieferungen.

  2. 1:[Do] 2:[mein kint] 3:[mit seinen iungern] 4:[het ge essen] 5:[vor seiner marter] 6:[das iüngst essen] ...
    1:[Do] 2:[min kint] 4:[hatt gessen] 6:[das Iung masz] 3:[mit sinen Iungren] 5:[vor siner marter] ...



Margit Breckle, Maike Müller, Melanie Seiss, Heike Zinsmeister
Lietuvos Edukologijos Universitetas (Lithuanian University of Educational Sciences) Vilnius / Universität Konstanz
L1 Transfer versus fixed chunks: A learner corpus-based study on L2 German

The ALeSKo corpus (online) is a multi-level annotated learner corpus that collects argumentative essays by Chinese L2 learners of German (level: ~B2) and comparable texts by German L1 speakers. Zinsmeister & Breckle (2010) investigate the functional realisation of sentence beginnings by taking relevant information-structural functions into account (cf. Speyer 2007). The L2 texts show a significant overuse of sentences that start with an information-structural function.

This overuse can be explained by two different factors. Firstly, the L2 learners may transfer information-structural concepts from their L1. This results in an overuse or underuse of particular functions in specific syntactic positions (cf. e.g. Bohnacker & Rosén 2008 for L2 German). Even though Chinese and German are information-structurally similar they differ in their syntactic realisation. A second explanation is based on the observation that learners overuse fixed chunks (cf. Aguado 2002) while native(-like) writers use these expressions in a compositional way by modifying and paraphrasing them. We hypothesize that the chunks typically affect sentence beginnings.

The poster presents the evaluation of two hypotheses: (i) L2 learners use chunks more often than average in their texts; (ii) L2 learners use chunks more often than average to start a sentence. A manual classification of frequently used n-grams revealed that L2 texts contain many strings copied from the task description. In addition, to accommodate low frequent strings, we applied an automatic algorithm for copy detection.

Our results are: hypothesis (i) is confirmed, L2 learners make extensive use of chunks (especially copied material), 'other' chunks are less prominent; hypothesis (ii) could not be confirmed, L2 learners do not overuse chunks in the prefield. This is, the chunk analysis provides no explanation for the previously observed difference in prefield use.

References
Aguado, K. (2002). Formelhafte Sequenzen und ihre Funktionen für den L2-Erwerb. Zeitschrift für Angewandte Linguistik 37, 27-49.
ALeSKo (online). http://ling.uni-konstanz.de/pages/home/zinsmeister/alesko.html.
Bohnacker, U. / Rosén, C. (2008). The clause-initial position in L2 German declaratives: Transfer of information structure. Studies in Second Language Acquisition 30(4), 511-538.
Speyer, A. (2007). Die Bedeutung der Centering Theory für Fragen der Vorfeldbesetzung im Deutschen. Zeitschrift für Sprachwissenschaft 26, 83-115.
Zinsmeister, H. / Breckle, M. (2010). "Starting a sentence in L2 German - Discourse annotation of a learner corpus." In: M. Pinkal et al. (eds). Semantic Approaches in Natural Language Processing: Proceedings of the Conference on Natural Language Processing 2010, 181-185. Saarbrücken: unversaar.



Damir Ćavar, Juliane Arenz, Justina Bacytė, Bettina Grabert, Fatih Korkmaz, Anja Leiderer, Michael Pollich, Volker Rehberg, Burkhard Rosemann
Eastern Michigan University / Universität Konstanz
Ein Grundgerüst für eine Morphologie und eine Grammatik des Litauischen in LFG

Die formale Implementierung der Morphologie des Litauischen als LEXC-basierter endlicher Automat für die XFST-Softwareumgebung (Beesley und Karttunen 2003), und eine LFG-basierte Implementierung der Grammatik des Litauischen für den XLE-Parser (Bresnan 2001; Butt et al. 1999) waren das Ziel eines Studienprojekts im Rahmen der Veranstaltung "Regelbasierte maschinelle Sprachverarbeitung" am Fachbereich für Sprachwissenschaft an der Universität Konstanz. Im Rahmen dieses Projekts wurde ein Rahmen für eine Morphologie des Litauischen entwickelt. Diese Morphologie wurde in die LFG-Grammatikentwicklung im Rahmen der XLE-Entwicklungsumgebung eingebunden.

Die in LEXC formulierte Morphologie enthält ca. 16000 Morpheme. Darin sind neben den Grundwortarten, d.h. Nomen, Verben, Adjektive und Adverbien, auch Funktionswörter definiert (z.B. Auxiliare, Pronomina, Quantifikatoren, Demonstrativa), wie auch die unterschiedlichen Flexionsparadigmen und einige Derivationsregeln für diese Wortarten. Neben morphosyntaktischen Merkmalen und Lemmata für flektierte lexikalische Formen, gibt die Morphologie auch grundlegende onomastische Merkmale aus, wie auch Valenz- und Subkategorisierungsrahmen. Eine Erweiterung auf semantische Merkmale ist geplant. Die LFG-Grammatik deckt zurzeit grundlegende Phrasentypen ab, z.B. Nominalphrasen, Präpositionalphrasen, und grundlegende Satztypen.

Soweit uns bekannt ist, gibt es keine vergleichbare Implementierung einer formalen Morphologie und Syntax (im Rahmen des LFG-Paradigmas) für Litauisch. Dieses Poster stellt die formalen Ansätze für die Implementierung der Morphologie und Syntax vor und demonstriert die Eigenschaften und Resultate des Parsers.

References
Beesley, Kenneth R. / Karttunen, Lauri (2003). Finite State Morphology. Stanford: CSLI Publications.
Butt, Miriam, Tracy Holloway King, Maria-Eugenia Nino, Frederique Segond (1999). A Grammar Writers Cookbook. Stanford: CSLI Publications.
Bresnan, Joan (2001). Lexical-Functional Syntax. Oxford: Blackwell.
Wiedemann, Oskar (2009). Handbuch der litauischen Sprache: Grammatik, Texte, Wörterbuch. BiblioLife.
Ambrazas, Vytautas (1997). Lithuanian Grammar: Lietuviu kalbos gramatika. Vilnius: Baltos Lankos Publishing House.



Christian Chiarcos, Sebastian Hellmann, Sebastian Nordhoff et al.
Universität Potsdam / Universität Leipzig
Open Data as an Enabler for Development in Computer Linguistics: the Working Group for Open Data in Linguistics

Tim Berners-Lee and the W3C have recently proposed a 5 star rating system for data on the web. The first star is achieved by publishing data on the web (any format) under open licences. From this perspective Open Data Licences (http://www.opendefinition.org/) play a central role in building a foundation for a Linguistic Linked Data Web, which can be exploited for research in Computer Linguistics and Linguistics in general.

Since its formation in 2010, the Open Linguistics Working Group (OWLG) has been steadily growing, and the direction the working group is heading has been clarified. We concentrated on the identification of goals and directions to pursue, and in this poster session, we will give an up-to-date overview of the results of this process.

Among the broad range of problems associated with linguistic resources, we identified four major classes of problems and challenges during our discussions that may be addressed by the OWLG. First, there is a great uncertainty with respect to legal questions of the creation and distribution of linguistic data; second, there are technical problems such as the choice of tools, representation formats and metadata standards for different types of linguistic annotation; third, we have not yet identified a point of reference for existing open linguistic resources; finally, there is the agitation challenge, i.e., how (and whether) we should convince our collaborators to release their data under open licenses.



Simon Clematide, Manfred Klenner, Stefanos Petrakis, Stefan Gindl, Robert Remus, Josef Ruppenhofer, Ulli Waltinger, Michael Wiegand
Universität Zürich / MODUL Universität Wien / Universität Leipzig / Universität Hildesheim / Universität des Saarlandes
Towards A Reference Corpus for German Sentiment Analysis

Recently, sentiment analysis (Pang et al. 2002; Wilson et al. 2005), as the task of analyzing, identifying and extracting opinions, appraisals and emotions from a given input stream has attracted much attention in the (German) CL and AI research community (Clematide et al. 2010; Gindl 2010; Wiegand et al. 2010; Klenner et al. 2009; Waltinger 2011). While there are various English-based benchmark collections (e.g. Pang et al. 2002), corpora and subjectivity dictionaries (e.g. SentiWordNet, Esuli et al. 2006) available, the number of German sentiment analysis resources is rather limited. We present the first results from a European research collaboration that aims at the construction of a reference corpus for sentiment analysis in German. The construction of the reference corpus is based on sentences extracted from the DeWaC web corpus (Baroni & Kilgarriff 2006). The data is manually annotated at three levels of granularity. On the first level, sentiment subjectivity and polarity labels are assigned to whole sentences. On the second level, nominal and prepositional phrases are annotated as neutral, positive, negative, or bipolar. Internal to these phrases, component words are annotated as positive, negative or neutral, or they are marked as valence shifters or intensifiers. On the third level, similarly to the approach taken by the MPQA corpus (Wiebe et al. 2005), individual words and multi-word expressions are annotated as private states, and the relevant sources and targets of opinion are identified. This poster will give an overview of the data representation (e.g. quantitative and qualitative statistics; inter-annotator agreement), the annotation process, and the annotation schemas applied.

References
Baroni, M. / Kilgarriff, A. (2006). "Large linguistically-processed Web corpora for multiple languages." In: Proc. of EACL. Trento, Italy.
Esuli, A. / Sebastiani, F. (2006). "SentiWordNet: A Publicly Available Lexical Resource for Opinion Mining." In: Proc. of LREC-06. Genova, Italy.
Gindl, S. / Weichselbraun, A. / Scharl, A. (2010). "Cross-domain contextualization of sentiment lexicons." In: Proc. of the 19th European Conference on Articial Intelligence.
Klenner, M. / Petrakis, S. / Fahrni, A. (2009). "Robust compositional polarity classification." In: Recent Advances in Natural Language Processing (RANLP 2009). Borovets, Bulgaria.
Pang, B. / Lee, L. / Vaithyanathan, S. (2002). "Thumbs up?: Sentiment Classification Using Machine Learning Techniques." In: Proc. of the Conference on Empirical Methods in Natural Language Processing (EMNLP-2002). Philadelphia, Pennsylvania.
Waltinger, U. (2011). "An Empirical Study on Machine Learning-based Sentiment Classification Using Polarity Clues." In: Filipe, J. / Cordeiro, J. (eds). Web Information Systems and Technologies. Heidelberg: Springer LNBIP 75.
Wiebe, J. / Wilson, T. / Cardie, C. (2005). "Annotating expressions of opinions and emotions in language." In: Language Resources and Evaluation, 39 (2-3).
Wiegand, M. / Klakow, D. (2010). "Convolution kernels for opinion holder extraction." In: Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics.



Kurt Eberle, Kerstin Eckart, Ulrich Heid
Universität Stuttgart / Lingenio GmbH / Universität Stuttgart
Eine Tool-Datenbank-Schnittstelle zur Erstellung und Verwaltung von Text- und Satzanalysen unterschiedlicher Abstraktionsebenen

Für die empirische Überprüfung linguistischer Theorien ist oft die gleichzeitige Verfügbarkeit von Analysen verschiedener Beschreibungsebenen wichtig sowie eine hohe Verlässlichkeit der einzelnen Analyseergebnisse. Vor diesem Hintergrund ist im Teilprojekt B3 des Sonderforschungsbereichs SFB-732 eine Datenbank entwickelt worden, in der für Sätze und Texte beliebige Arten von Analysen miteinander in Beziehung gesetzt werden können (Eckart et al. 2010). Dadurch können einerseits Analysen derselben Analyseebene (Morphologie, Syntax, Semantik, Pragmatik) verglichen werden und andererseits Analysen unterschiedlicher Ebenen als Input für die Berechnung von Analysen weiterer Ebenen genutzt werden. Ersteres hilft dabei festzustellen, wie verlässlich eine bestimmte Analyse ist, Zweiteres erlaubt, komplexere Berechnungen in verschiedene Einzelschritte auseinanderzulegen. Grundlage des prototypisch realisierten Systems ist die Kopplung des B3-Analysetools (Eberle et al. 2008) an die Datenbank. Das B3-Tool verwendet dabei die im Übersetzungssystem translate der Lingenio GmbH vorhandenen Komponenten zur morphologischen, syntaktischen, semantischen und textsemantisch/pragmatischen Analyse, die für die Zwecke der Forschung im SFB-732 angepasst wurden, siehe (1). Analysen jeder Beschreibungsebene können einzeln, mit einem entsprechenden Zeitstempel versehen, in der Datenbank abgelegt werden und werden beim Anstoßen weiterer Analysevorgänge aus der Datenbank ausgelesen.

In der beschriebenen Weise implementiert das Verfahren ein Pipeline-Modell der Analyse. Je nach Operationsaufruf können Ergebnisse in einem Schritt, durch Hintereinanderschalten der einzelnen Komponenten oder aber in mehreren Schritten, mit Festhalten der Zwischenergebnisse, produziert werden. Der Screenshot zeigt einen Ausschnitt der morphologischen Analyse einiger Sätze (hier mit Ausgabe der vorliegenden semantischen Typisierung). Dabei wird neben dem eigentlichen Analysestring ('ana') auch die Analyseebene ('type') sowie das Erstellungsdatum ('create') und das Erstellungsdatum der aktuellsten Analyse ('lastana') der selben Ebene bereitgestellt. Durch den Abgleich der Zeitstempel kann eine Versionierung erfolgen. Wir zeigen, wie das Tool mit der Datenbank kommuniziert, Analyseergebnisse auslesen und tiefere Analysen nach Maßgabe von Input-Parametern und der gewünschten Zielebene erstellen und einlesen kann.

References
Eberle, Kurt / Heid, Ulrich / Kountz, Manuel/ Eckart, Kerstin (2008). "A Tool for Corpus Analysis using partial Disambiguation and Bootstrapping of the Lexicon." In: Storrer, Angelika / Geyken, Alexander / Siebert, Alexander / Würtzner, Kay-Michael (eds). Text Resources and Lexical Knowledge. Berlin: Walter de Gruyter, 145-157.
Eckart, Kerstin / Eberle, Kurt / Heid, Ulrich (2010). An Infrastructure for More Reliable Corpus Analysis. Workshop on Web Services and Processing Pipelines in HLT. LREC 2010. Malta.



Gertrud Faaß, Ulrich Heid
Universität Hildesheim
Deutsche politische Kommunikation der Gegenwart als linguistisch annotiertes Korpus

Im Rahmen von Aktivitäten in den sog. "e-Humanities" ist in den letzten Jahren in der Politikwissenschaft vermehrt Interesse an der detaillierten Analyse von politischem Diskurs aufgekommen. Die Verfügbarkeit entsprechender Texte im Internet und die Nutzung korpuslinguistischer Technologie erlauben es, hierfür Daten bereitzustellen. An der Universität Hildesheim werden derzeit elektronische Texte aus dem Bereich der politischen Kommunikation von Bund und Ländern gesammelt. Vorgesehene Teile dieser Textsammlung sind insbesondere Reden und Debatten (zum Beispiel Plenarprotokolle des Bundestags, Protokolle der Länderparlamente) oder auch Pressemitteilungen (z.B. aus den Newslettern von Institutionen des Landes Niedersachsen). Die Sammlung wird kombiniert mit Daten, die Adrien Barbaresi, Ecole Normale Supérieure de Lyon, zur Verfügung gestellt hat: politische Reden von Regierungsvertretern und Bundespräsidenten. Diese beinhalten - ausser den für alle Dokumente verfügbaren Metadaten wie Herkunft (url) und Datum - zusätzlich auch Kurzinformationen ("excerpt") zu den Reden; die am Anfang von Reden verwendeten Adressierungen sind außerdem speziell gekennzeichnet. Wir planen, in die Metadaten des Korpus nicht nur die Namen der Redner und Autoren, sondern auch deren Parteizugehörigkeit mit aufzunehmen.

Bisher umfasst das Korpus ca. 16 Millionen Tokens. Wir planen, diese Daten für Lehre und Forschung in der Sprachtechnologie sowie in den Sozialwissenschaften zu nutzen. Weiteres Material aus dem veröffentlichten politischen Diskurs soll folgen, auch hier sollen Texttypen, Autoren, Datum, etc. über geeignete Metadaten erschlossen werden. Eine Anbindung an die im Tübinger DFG Projekt NaLiDa in der Entwicklung befindlichen Metadatenschemata auf der Basis von CDMI (Component MetaData Initiative) ist angestrebt.

Es ist vorgesehen, bis Anfang 2012 dieses Korpus und weitere Textsammlungen dieser Art zusammenzustellen, aufzubereiten und mit linguistischen Daten anzureichern (Wortartenkennzeichnung, Lemmatisierung, ggf. syntaktische Analysen, z.B. Dependenzparsing). Die Daten unterliegen keinerlei Urheberrecht, daher ist es vorgesehen, sie frei für die Forschung zur Verfügung zu stellen, die Möglichkeit einer Online-Abfrage ist geplant.

Das Poster wird über die Teil-Korpora und ihre Metadaten sowie über Zugriffsmöglichkeiten informieren, die Demonstration wird anhand konkreter Beispiele für Forschungsfragen zu Lexik, Formulierungswahl und Meinungen aufzeigen, welche Abfragen möglich sind.



Ulrike Freywald, Katharina Mayr, Tiner Özçelik, Ines Rehbein, Sören Schalowski, Heike Wiese
Universität Potsdam
The KiezDeutsch-Korpus (KiDKo)

Kiezdeutsch ('hood German') is a new variety of German which has emerged among adolescent speakers in multiethnic urban areas of Germany with a large immigrant population and which combines features of a youth language with those of a contact language. The multilingual competence of the speakers creates a setting that supports special dynamics of language change and makes Kiezdeutsch interesting for the investigation of new grammatical developments, especially in the interaction between grammar and information structure (e.g., word order in the left sentence periphery) (cf. Wiese et al. 2009, Wiese 2009, Wiese 2011).

The KiDKo has been created in the first phase of project B6 "Das Kiezdeutschkorpus. Analysen an der Peripherie" as part of the SFB (Collaborative Research Centre) 632 "Information Structure" in Potsdam. It contains spontaneous peer-group dialogues of adolescents from multiethnic Berlin-Kreuzberg (around 48 hours of recordings) and a supplementary corpus with adolescent speakers from monoethnic Berlin-Hellersdorf (around 18 hours of recordings). The current version of the corpus contains the audio signals aligned with transcriptions. We transcribed using an adapted version of the transcription inventory GAT basic (Selting 1998), including information on intonation phrases, primary accent, intonation contours, and pauses.

In the current phase of the project, we are adding a level of orthographic normalisation where non-canonical pronunciations, punctuation, and capitalisation are transferred to standard German spelling, as well as layers of annotation for part-of-speech tags, topological information, and information-structural features. These new layers will enable us to conduct corpus searches for and quantitative analyses of complex syntactic phenomena and their connection to information structure.

We aim at making the corpus accessible for researchers as far as the sensitive nature of our data allows. The corpus will provide a unique resource for research on language contact, language variation and urban language use, and enable studies at all levels of linguistic analysis.

References
Selting, Margret et al. (1998). "Gesprächsanalytisches Transkriptionssystem (GAT)." In: Linguistische Berichte 173. 91-122.
Wiese, Heike (2009). "Grammatical innovation in multiethnic urban Europe: new linguistic practices among adolescents." In: Lingua 119. 782-806.
Wiese, Heike (2011). "The role of information structure in linguistic variation: Evidence from a German multiethnolect." In: Gregersen, Frans / Parrott, Jeffrey / Quist, Pia (eds). Language Variation - European Perspectives III. Amsterdam: Benjamins. 83-95.
Wiese, Heike / Freywald, Ulrike / Mayr, Katharina (2009). Kiezdeutsch as a Test Case for the Interaction Between Grammar and Information Structure. Potsdam: Universitätsverlag Potsdam (= ISIS 12).



Jolanta Gelumbeckaitė
Goethe-Universität Frankfurt am Main
Referenzkorpus Altlitauisch (SLIEKKAS/KALT)

Das tief annotierte Referenzkorpus des Altlitauischen (1547-1800) soll die sämtlichen Texte der litauischen Sprache vom Beginn der kontinuierlichen schriftlichen Überlieferung 1547 bis etwa 1800 erfassen. Die digitalisierten Texte werden durchgehend mit strukturellen, positionellen sowie morphosyntaktischen Annotationen (Multi-layer-stand-off) versehen, die eine komplexe mehrstufige Abfrage des Korpus ermöglicht.

Eine Sonderheit der altlitauischen Textüberlieferung ist der enge Bezug zum Lateinischen, Deutschen und Polnischen. Die meisten Texte sind mehr oder minder eng auf die Vorlagetexte bezogene Übersetzungen und Überarbeitungen. Deswegen werden im Korpus auch die Quellentexte miterfasst und auf gleicher Weise wie die altlitauischen strukturell, positionell und linguistisch annotiert. Die altlitauischen und die originalen Textfassungen werden mit einander aligniert.

Mit dem altlitauischen Korpus soll vor allem der sprachhistorischen Forschung, aber zugleich der literatur- und kulturhistorischen Forschung zum (Alt)Litauischen eine bislang nicht vorhandene Ressource zur Verfügung gestellt werden. Insbesondere soll das Referenzkorpus Altlitauisch die Verwirklichung der zwei größten Desiderata instand setzen, nämlich die Erstellung des historischen Wörterbuches des Litauischen sowie die Erarbeitung der Grammatik des Altlitauischen.

Das Poster stellt die Mehrebenenarchitektur der Annotation der altlitauischen Texte und die Alignierung mit den digitalisierten Faksimiles der Autographe sowie mit den Quellentexten dar.



Boris Haselbach, Wolfgang Seeker, Kerstin Eckart
Universität Stuttgart
nach Particle Verbs in Semantic Theory and Corpus Data

    German particle verbs are in a syntactic and semantic gray area which is mirrored by the variety of approaches to particle verb constructions (see Dehé et al. 2002 for an overview). One major challenge is the organization of arguments by the particle, especially if the argument structure of the particle verb deviates from the one of the underlying verb. In (1) the verb particle nach creates an argument slot for a dative DP, whereas in (2) it does not.

  1. Der Hund rannte dem Hasen nach. "The dog chased the hare."
  2. Die Banane reifte nach. "The banana continued ripening (after being picked)."

    There is also a huge class of particle verbs with nach that allow several argument patterns, which might trigger different interpretations, such as in (3).

  3. a. Der Schüler tanzte der Lehrerin nach.
    1st interpretation: "The student copied the teacher's dancing."
    2nd interpretation: "The student followed the teacher dancing."
    b. Der Schüler tanzte der Lehrerin den Tango nach.
    "The student copied the teacher's dancing of the tango."
    c. Der Schüler tanzte den Tango nach. "The student copied the tango."
    d. *Der Schüler tanzte nach.

    Haselbach (to appear) predicts that a dative is licensed by nach if it accesses event properties of the underlying VP, whereas it doesn't if it accesses state properties. Parameters such as a dative argument providing a participant in a presupposed event (3a/b) or an accusative argument contributing culmination in a result state (3b/c) can trigger different interpretations of nach, whereas (3d) without dative and accusative is, in this case, ungrammatical.

    We extracted ca. 280,000 sentences from DeWaC (Baroni & Kilgarriff 2006) for ca. 1,800 putative nach verbs. These sentences were parsed in parallel with Bohnet's (2010) statistical parser and with the rule-based parser FSPar (Schiehlen 2003), and indicators such as dative and accusative objects were identified. By storing and combining manual and automatic analyses in the relational database B3DB (Eckart et al. 2010), Haselbach's hypotheses can be validated against large amounts of corpus data: e.g. we predicted for 110 lemmas that they occur without a dative. 20 thereof were found at least once with a dative: 59 of 2,649 sentence tokens.

References
Baroni, M. / Kilgarriff, A. (2006). "Large linguistically-processed Web corpora for multiple languages": In: Proceedings of EACL'06. Trento, Italy, 87-90.
Bohnet, B. (2010). "Top Accuracy and Fast Dependency Parsing is not a Contradiction": In: The 23rd International Conference on Computational Linguistics (COLING 2010). Beijing, China.
Dehé, N. / Jackendoff, R. / McIntyre, A. / Urban, S. (2002, eds). Verb-Particle Explorations, vol. 1 of Interface Explorations. Berlin: Mouton de Gruyter.
Eckart, K. / Eberle, K. / Heid, U. (2010). "An Infrastructure for More Reliable Corpus Analysis", In: Proceedings of the Workshop on Web Services and Processing Pipelines in HLT (LREC 2010). Valletta, Malta.
Haselbach, B. (to appear). "Deconstructing the German verb particle nach at the syntax semantics interface." In: GG@G (Generative Grammar in Geneva) 7, 2011.
Schiehlen, M. (2003). "A Cascaded Finite-State Parser for German." In: Proceedings of EACL'03. Budapest, Hungary, 163-166.



Sebastian Hellmann, Jens Lehmann, Sören Auer, Martin Brümmer
Universität Leipzig
NLP Interchange Format (NIF) - A common data format for natural language processing (NLP)

The NLP Interchange Format (NIF) is an RDF/OWL-based format that allows to combine and chain several Natural Language Processing tools in a flexible, light-weight way. The core of NIF consists of a vocabulary which can represent Strings as RDF resources. A special URI design is used to pinpoint annotations to a part of a document. These URIs can then be used to attach arbitrary (overlapping, multi-layer) annotations to the respective character sequence. Based on these URIs, annotations can be interchanged between different NLP tools. NIF consists of several components:

  • URI recipes to anchor annotation in documents
  • Ontologies to describe the relations between these URIs
  • Best practices for choosing annotations for each domain
  • Documentations on how to integrate NLP tools and adapt them to NIF
  • Descriptions of how to create NIF Web Services
  • A reference implementation (NLP2RDF) that can be freely exploited

Although several large NLP tool integration frameworks such as UIMA and Gate exist, integration of tools is still tedious for two reasons: 1. For each tool and each framework an adapter has to be created (n*m, horizontal integration) 2. The systems only integrate the software; the produced annotations are not standardized and can potentially break the pipeline. NIF integrates NLP tools via a common data format (Common pattern in Enterprise Application Integration), that standardizes the way annotations are created as well as what annotations are required to achieve interoperability.

A web site (http://nlp2rdf.org) was created to serve as a reference point for the new format. The format is developed in the FP7 LOD2 EU project (2010-2014); and implementations for several NLP tools (UIMA, Gate ANNIE, MontyLingua, DBpedia Spotlight, OpenNLP, Stanford CoreNLP) are freely available. The poster/demo will show the current progress of the standardization.



Christina Hoppermann, Thorsten Trippel, Claus Zinn
Eberhard Karls Universität Tübingen
Prozesse zur Beschreibung und Archivierung linguistischer Forschungsdaten

Zur guten wissenschaftlichen Praxis zählt in der Linguistik, ebenso wie in anderen Disziplinen, eine detaillierte Erstellung und Analyse von Forschungsdaten. Diese sollen ferner angemessen beschrieben und archiviert werden. Insbesondere die Archivierung wird zunehmend von Forschungsförderungsorganisationen über einen festgelegten Zeitraum, wie die von der Deutschen Forschungsgemeinschaft geforderten 10 Jahre (s. Deutsche Forschungsgemeinschaft, 1998), vorgeschrieben. Diese Vorgaben stellen jedoch Herausforderungen an die Datenersteller, die über ihre fachwissenschaftliche Arbeit hinausgehen. Um diesen Mehraufwand minimieren zu können, stellt das Zentrum für Nachhaltigkeit Linguistischer Daten (NaLiDa, s. http://www.sfs.uni-tuebingen.de/nalida) sowohl Verfahrensweisen als auch Anleitungen und Referenzen für die benötigte Infrastruktur zur Beschreibung und Archivierung linguistischer Forschungsdaten zur Verfügung.

Der entwickelte Workflow besteht aus drei Hauptbereichen: der Ressourcenerstellung/-analyse, der Metadatenerstellung zur Beschreibung von Forschungsdaten und der Archivierung im Repositorium. Auf der Basis des verwendeten Metadatenschemas CMDI (Component MetaData Infrastructure; s. Broeder et al., 2010; s. http://www.clarin.eu/cmdi) stellt das Projekt Nutzern Vorlagen zur Erstellung von Metadaten unter Berücksichtigung unterschiedlicher Ressourcentypen (s. Barkey et al., 2011a) bereit. Die angefertigten Metadaten werden in einem Katalog gespeichert (s. http://www.sfs.uni-tuebingen.de/nalida/katalog) und als Grundlage für eine Suchmöglichkeit verwendet, die mittels eines Faceted Browsers (s. Barkey et al., 2011b) das Einsehen der Beschreibungen ermöglicht. Zusammen mit den Forschungsprimärdaten werden die Metadaten in einem Repositorium archiviert. Repositorien dienen in Kombination mit Sicherungen in zentralen Infrastruktureinrichtungen (z.B. Rechenzentren) der nachhaltigen Datensicherung unter Einhaltung von Zugangsberechtigungen. Die im Projekt angelegte Infrastruktur fungiert als Referenzimplementierung zur übertragbaren Anwendung auf andere Forschungsprojekte.

Das Poster illustriert die entwickelten Verfahren zur Beschreibung und Archivierung linguistischer Forschungsdaten und stellt mit dem Repositorium als Schwerpunkt die einzelnen Komponenten der Infrastruktur dar. Zusätzlich wird eine Demonstration am Laptop angeboten, bei der die Möglichkeit besteht, unter Anleitung einen Einblick in die verwendete Infrastruktur und die angewandten Prozesse zu gewinnen.

References
Barkey, R. / Hinrichs, E. / Hoppermann, C. / Trippel T. / Zinn, C. (2011a). "Komponenten-basierte Metadatenschemata und Facetten-basierte Suche: Ein flexibler und universeller Ansatz." In: Griesbaum, J., T. Mandl und C. Womser-Hacker (Hrsg.), Information und Wissen: global, sozial und frei? Proceedings des 12. Internationalen Symposiums für Informationswissenschaft (ISI 2011), Hildesheim, 9. bis 11. März 2011. S. 62-73. Schriften zur Informationswissenschaft (Bd. 58). Boizenburg: VWH.
Barkey, R. / Hinrichs, E./ Hoppermann, C. / Trippel, T. / Zinn, C. (2011b). "Trailblazing through Forests of Resources in Linguistics." In: Proceedings of Digital Humanities 2011, Stanford University, Stanford, CA, USA.
Broeder, D. / Kemps-Snijders, M. / Van Uytvanck, D. / Windhouwer, M. / Withers, P. / Wittenburg, P. / Zinn, C. (2010). "A Data Category Registry- and Component-based Metadata Framework". Proceedings of the 7th conference on International Language Resources and Evaluation.
Deutsche Forschungsgemeinschaft (1998). Sicherung guter wissenschaftlicher Praxis. Denkschrift, Bonn. http://www.dfg.de/aktuelles_presse/reden_stellungnahmen/download/empfehlung_wiss_praxis_0198.pdf.



Laura Kallmeyer, Rainer Osswald
Heinrich-Heine-Universität Düsseldorf
Syntax-Driven Semantic Frame Composition in Lexicalized Tree Adjoining Grammars

Semantic frames are an established way to model detailed aspects of lexical meaning. However, frames have been less thoroughly investigated with respect to semantic composition and its interaction with syntactic operations. We propose a framework that integrates Lexicalized Tree Adjoining Grammars (LTAG; Joshi & Schabes 1997) with frame semantics. LTAG is a promising framework for frame semantic composition for a number of reasons: Firstly, the elementary LTAG trees represent entire subcategorization frames. This "extended domain of locality" facilitates the linking of the syntactic and semantic components. Secondly, the specification of elementary trees by means of metagrammatical constraints (Crabbé & Duchier 2005) allows a strong factorization of the syntactic and semantic information provided by a given construction. This factorization is able to capture the specific meaning contributions of fragments of the construction. Thirdly, the LTAG framework is suitable for computational processing.

We use the English dative alternation (e.g. Krifka 2004, Beavers 2011) as an example to show how constructions and semantic frames can be decomposed and composed within the metagrammar and how frame composition is triggered by substitution and adjunction in LTAG. The framework allows us to model in detail the interaction of the lexical semantics of the verb and the semantics of the constructional realization. This case study illustrates how syntactic unification in the metagrammar and in LTAG can drive the semantic unification of frames. Moreover, it shows that LTAG's extended domain of locality provides enough flexibility to perform syntax-driven semantic frame composition in a local way.

References
Crabbé, B. / Duchier; D. (2005). "Metagrammar redux." In: Christiansen, H. et al., Constraint Solving and Language Processing, 32-47. LNCS 3438. Springer.
Joshi, A. K. / Schabes, Y. (1997). "Tree-Adjoning Grammars." In: Rozenberg, G. / Salomaa, A., Handbook of Formal Languages, Vol. 3, 69-123. Springer.
Krifka, M. (2004). "Semantic and pragmatic conditions for the dative alternation." In: Korean Journal of English Language & Linguistics, 4, 1-32.
Beavers, J. (2011). "An aspectual analysis of ditransitive verbs of caused possession in English." In: Journal of Semantics, 28, 1-54.



Valia Kordoni, Yi Zhang, Iliana Simova
Deutsches Forschungszentrum für Künstliche Intelligenz / Universität des Saarlandes
Discriminants-based Treebanking of the WSJ sections of the Penn Treebank

In this poster, we present an on-going project whose aim is to produce rich syntactic and semantic annotations for the Wall Street Journal (WSJ) sections of the Penn Treebank (PTB; Marcus et al. (1993)). In doing so, we are not only focusing on the various stages of the semi-automated annotation process we have adopted, but we are also showing that rich linguistic annotations, which can apart from syntax also incorporate semantics, may ensure that treebanks are guaranteed to be truly sharable, re-usable and multi-functional linguistic resources. The task is being carried out with the help of the English Resource Grammar (ERG; Flickinger (2002)), which is a hand-written grammar for English in the spirit of the framework of Head-driven Phrase Structure Grammar (Pollard and Sag (1994)). To aid the treebank development we use automatic parsing outputs as guidance. Despite this aid, though, treebank annotation remains a labour-intensive and time-consuming task. Thus, we also show in this presentation that a simple statistical ranking model can significantly improve treebanking efficiency by prompting human annotators, well-trained in disambiguation tasks for treebanking but not necessarily grammar experts, to the most relevant linguistic disambiguation decisions. Experiments have been carried out to evaluate the impact of such techniques on annotation efficiency and quality. The detailed analysis of outputs from the ranking model shows strong correlation to the human annotator behaviour. When integrated into the treebanking environment, the model brings a significant annotation speed-up with improved inter-annotator agreement.

References
Callmeier, Ulrich (2001). Efficient parsing with large-scale unification grammars. Masters thesis, Universität des Saarlandes, Saarbrücken, Germany.
Flickinger, Dan (2002). "On building a more efficient grammar by exploiting types." In: Oepen, Stephan / Flickinger, Dan / Tsujii, Jun'ichi / Uszkoreit, Hans (eds), Collaborative Language Engineering, pages 1-17. CSLI Publications.
Marcus, Mitchell P. / Santorini, Beatrice / Marcinkiewicz, Mary Ann (1993). "Building a large annotated corpus of English: The Penn Treebank." In: Computational Linguistics, 19(2), 313-330.
Oepen, Stephan / Toutanova, Kristina / Shieber, Stuart / Manning, Christopher / Flickinger, Dan / Brants, Thorsten (2002). "The LinGO Redwoods Treebank: motivation and preliminary applications." In: Proceedings of COLING 2002: The 17th International Conference on Computational Linguistics: Project Notes, Taipei, Taiwan.



Yulia Pilkevich, Heike Zinsmeister
Universität Konstanz
Feature Exploration for the prediction of the German Vorfeld

    The German Vorfeld ('prefield') is not grammatically determined. Corpus studies show that about 50 % of the declarative main clauses do not start with the subject. The question of choosing an appropriate sentence beginning is important for automatic generation, e.g. in text summarization.

    We present experiments on the classification of main constituents into prefield versus non-prefield. The focus of the investigation is to explore what kind of features support the prefield-hood of a constituent. To this end, we extracted declarative sentences from the TüBa-D/Z treebank (online), cf. Example (1). The main constituents of each sentence were modeled by a set of syntactic, semantic, and discourse-related features extracted from the treebank and other resources, cf. Table (2).

  1. Die Verteidiger macht die Aussage Emrichs sichtlich nervös.
    'Emrich's testimony is visibly unsettling the defenders.'
    (TüBa-D/Z.v5, sentence 2462)
  2. Features of the constituent Die Verteidiger ('the defenders') in (1):

    LEXheadPOShLENGTHconstituentFUNCTIONcSEMANTICcANAPH.RELcCLASSc
    Verteidigernountwo wordsacc. objectpersoncoreferentialprefield

    We trained a decision tree classifier (Weka online) on the annotated constituents. Unlike black-box methods (e.g. support vector machines), the decisions of the algorithm are visible and the tree-like representations help to interpret the results.

    In a pilot study we used a subcorpus of 4300 constituents from 1190 sentences. The system performance (78 % per-item accuracy in a ten-fold cross-validation) is significantly better than the baselines of classifying all subjects as prefield or simply classifying all constituents as non-prefield. Our per-sentence accuracy is lower than results reported in the literature - however, it outperforms earlier studies on the TüBa-D/Z (cf. Filippova & Strube 2007, Cheung & Penn 2009).

    In the poster, we will discuss the impact of individual features in detail.

References
Cheung, J. / Penn, G. (2009). "Entity-based local coherence modelling using topological fields." In: Proceedings of the 48th ACL, 186-195. Filippova F. / Strube, M. (2007). "Generating constituent order in German clauses." In: Proceedings of the 45th ACL, 320-327.
TüBa-D/Z (online). http://www.sfs.uni-tuebingen.de/tuebadz.shtml. [accessed 11-17-2011]
Weka (online). http://www.cs.waikato.ac.nz/ml/weka. [accessed 11-17-2011]



Melanie Seiss
Universität Konstanz
A morphological guesser for a morphologically rich language

    This paper presents a morphological guesser for the very complex verbal structure in Murrinh-Patha, a polysynthetic language spoken in the Northern Territory of Australia (e.g. Blythe 2009). In the Murrinh-Patha verbal template, most slots can be occupied by morphemes of a small restricted class only. The morphological guesser uses this fact to guess the productive morphemes in the other slot. This ensures a better coverage of the morphological analyzer while keeping the manual work of implementing limited.

    The Murrinh-Patha verbal template consists of 9 different slots and complex interdependencies between these template slots exist (Nordlinger 2010). An example with 6 different morphemes is given in (1). It comprises a direct object marker in the verb, an incorporated body part rdarri 'back', an incorporated adverb deyida 'again' and a future tense marker at the end. The verbal meaning is made up of two morphemes, the so-called classifier stem ma and the lexical stem purl, which together also determine the subcategorization frame.

  1. ma-nhi-rdarri-purl-deyida-nu
    1SGS.HANDS.Fut-2sgDO-back-wash-again-Fut
    'I will wash your back again.'    (Walsh 1996: 233)

    Most of the morphemes come from a restricted class, e.g. there are only 4 different tense markers and approximately 60 different incorporated body parts. In contrast, the class of lexical stems is much larger. The morphological guesser uses this fact to guess the entries for the lexical stems. It is built in XFST (Beesley and Karttunen 2003) and included into an already existing XFST implementation of Murrinh-Patha morphology which itself is part of an XLE implementation (Seiss 2011). The guesser increases the coverage of the parser considerably and can also be used as a back-up strategy in applications such as in an electronic dictionary.

References
Beesley, Kenneth R. / Karttunen, Lauri (2003). Finite State Morphology. Stanford: CSLI Publications.
Blythe, Joe (2009). Doing Referring in Murriny Patha conversation. Sydney, University of Sydney, PhD thesis.
Nordlinger, Rachel (2010). "Verbal Morphology in Murrinh-Patha: Evidence for Templates." In: Morphology 20(2), 321-341.
Seiss, Melanie (2011). "Implementing the morphology-syntax interface: Challenges from Murrinh-Patha verbs." To appear in: Online Proceedings of the LFG Conference 2011, University of Hongkong. CSLI Publications.
Walsh, Michael (1996). "Vouns and Nerbs: A category squish in Murrinh-Patha (Northern Australia)." In: McGregor, W. (ed.), Studies in Kimberley languages in Honour of Howard Coate. Munich: Lincom Europa, 227-252.



Sylvia Springorum
Universität Stuttgart
Studies concerning the automatic classification of particle verbs with an

German verb particles are highly ambiguous. Studies have shown that they are compositional and can be systematically derived; see for example (Lechler / Roßdeutscher). On the poster I will present a corpus-based (SDeWac) automatic classification distinguishing between four different readings of German verbs with the particle an. The main questions which I will address are: How can a theoretical background help in automatic classification tasks, and what can we learn in exchange from the classification results?

The four particle verb readings are represented by the following sentences:

(1a) The topological reading: Maria kettet den Hund an. [Maria chains the dog.]
An describes a contact relation between the dog and the implicit background.

(2) The directional reading: Maria lächelt ihre Mutter an. [Maria smiles at her mother.]
The particle specifies the direction of the smiling. The direction aims from Maria at her mother.

(3) The event initiation reading: Der Schiedsrichter pfeift das Spiel an. [The referee starts the game by whistling.]

(4) The partitive reading: Der Dachdecker sägt das Brett an. [The roofer partially saws the plank.]

I will show that every reading needs a detailed elaboration concerning the choice of the suitable features for their disambiguation. Some readings can be distinguished by prepositional phrases from the others like, for example, the topological verbs which differ from the other verbs by the possibility of an occurrence of a PP with the topological reading of the preposition an. Such a PP with an has the function to make the implicit background explicit like in:

(1b) Maria kettet den Hund am Fahrradständer an. [Maria chains the dog at the bicycle rack.]

The event initiation reading on the contrary comes along more frequently than other readings together with PPs with zu. However, it won't be possible to disambiguate directional an-verbs with prepositions but the direct object is a good indicator here. Due to their huge variability, direct objects by itself do not provide enough information. They have to be partitioned in semantically motivated classes. This was done using the hyperonymy relation from GermaNet. Herewith it was possible to extract objects which are characterized as higher lifeforms and are therefore suitable for verbs of the directional class. Objects with no awareness are not very productive there, smiling at a chair for instance is odd.

All classification tasks were carried out using the WEKA-Tool with the J48 decision tree algorithm. Besides presenting the statistical results, I will also show a visualization containing the decision tree with the relevant features for all classes. Additionally, I will discuss the wrongly classified verbs with explanations on what didn't work out and what could help to avoid these problems.



Amalia Todirascu, Sebastian Padó, Jennifer Krisch, Max Kisselew, Ulrich Heid
Université de Strasbourg / Universität Heidelberg / Universität Stuttgart
Corpora and tools for syntax-based text type classification

We report on an ongoing project involving the universities of Stuttgart, Heidelberg and Strasbourg. It is concerned with linguistic patterns and computational methods that allow us to classify domain-specific texts in German and French according to their text type or genre. Examples are scientific articles vs. popular science texts within domains like medicine or computing, or different types of administrative texts from the European Commission.

The first step in our investigation was the collection of corpora. Even though a wealth of texts is available online, we found very few of these to be directly usable. We created two specific tools, one to collect and convert HTML documents, the other to extract text from PDF documents. HTML documents are often created dynamically from databases; pages from the same site therefore encode meta-information like title, author, or issue date often in a uniform way.

Our XML converter takes advantage of this fact: On the basis of a user specification, it converts HTML archives directly into metadata-annotated corpora. In contrast, metadata are all but impossible to extract from PDF files, which present the additional challenge that they can contain text set in multiple columns which are not represented in the document structure. Our extractor uses line length-based heuristics to reconstruct the linear order of the text.

With the help of these tools, we have created French and German corpora for two domains (medicine and computer science) crossed with two genres (directed at scientists/professionals vs. directed at the general population). For example, in medicine we chose the journals Der Arzneimittelbrief and Deutsches Ärzteblatt as scientific publications and the two web sites Diabetes-Ratgeber and Senioren-Ratgeber as popular publications. All corpora have a size of at least 500.000 words, the computer science corpora even between 2,5 and 4,5 million words.

At the present time, we have performed an initial semi-automatic analysis, which has yielded a set of potential structural text type indicators. E.g., popular science articles have many more interrogatives and exclamatives than scientific ones; similarily, the frequency of 1st and 2nd person pronouns and verb forms is much higher. Conversely, German scientific articles contain considerably more compounds with two or more hyphens, more parentheticals, more indications of measurements and percentages, and more complex object noun phrases than their popular science counterparts. French scientific articles are characterized by complex objects (noun phrases modified by several PPs) and by frequent occurrences of passive form. French popular science contains more definition patterns (X is a Y, X est défini comme Y).

Our next planned step is the automatic prediction of text genre using supervised learning strategies on the basis of structural features. We are particularly interested to see (a) to what extent features generalize across domains (we hope that structural features generalize much better than the lexical ones that are usually employed) and (b) to what extent they might even generalize across languages between German and French. Pilot experiments for French are encouraging, with object NP complexity being one of the main features used by the classifier.

The poster and demonstration will present the extraction tools, the corpora and their annotation (metadata, dependency parsing), as well as results from experiments in automatic classification.



Christina Unger, Philipp Cimiano
Universität Bielefeld
Pythia: Compositional meaning construction for question answering

The growing Semantic Web provides a large amount of ontology-based semantic markup that question answering systems can exploit in order to interpret and answer natural language questions. We present the ontology-based question answering system Pythia (Unger & Cimiano 2011a), that transforms natural language input into a formal query by means of a deep linguistic analysis. It relies on a lexicon consisting of two parts: an ontology-specific and an ontology-independent part. The ontology-specific part is generated automatically from a specification of the lexicon-ontology interface that explicates possible linguistic realizations of the entities, classes and relations in the ontology, thereby ensuring a precise and correct mapping of natural language terms to corresponding ontology concepts. The ontology-independent part comprises functional expressions such as auxiliary verbs, determiners and wh-words. Based on such a lexicon, natural language input is subject to parsing using Lexicalized Tree Adjoining Grammar and a subsequent compositional meaning construction yielding Discourse Representation Structures as final meaning representations, which can then be translated into a formal query language, e.g. FLogic or SPARQL. Such a deep linguistic analysis allows Pythia to construct queries even for complex questions, e.g. involving quantification, negation and superlatives, and also facilitates a principled treatment of ambiguities (Unger & Cimiano 2011b). We will present Pythia's architecture together with its strengths and weaknesses, report on evaluation results on a subpart of the Semantic Web, and provide an online demo.

References
Unger, Christina & Cimiano, Philipp (2011a). "Pythia: Compositional meaning construction for ontology-based question answering on the Semantic Web." In: Proceedings of the 16th International Conference on Applications of Natural Language to Information Systems (NLDB), 153-160.
Unger, Christina & Cimiano, Philipp (2011b). "Representing and resolving ambiguities in ontology-based question answering." In: Proceedings of the Workshop on Textual Entailment (TextInfer).



Marion Weller, Anita Gojun, Ulrich Heid, Béatrice Daille, Emmanuel Morin
Universität Stuttgart / Université de Nantes
Compiling terminological data using comparable corpora: from term extraction to dictionaries

    For scientific domains, terminological resources like dictionaries are often not available or not up-to-date. Additionally, term variation (Daille 2005) is often not documented. As a result, translators working in technical domains usually spend much time building terminological resources.

    The project TTC1 aims at compiling domain-specific lexical resources which are to be integrated into CAT tools and SMT systems. Since parallel data is often not available, comparable corpora are used: they are available for a large range of domains in many languages.

    The TTC tool suite consists of the following steps:

  1. corpus collection using a focused crawler (de Groc 2011)
  2. pattern-based term extraction of terminologically relevant noun phrases from tagged and lemmatized text (Schmid 1994),
  3. identification of term variants: (DE) Korrosionsschutz ↔ Schutz gegen Korrosion (corrosion protection ↔ protection against corrosion)
  4. term alignment: for a given term of the source language, equivalents in the target language are searched and aligned. Term lists of both the source and target language, as well as a general language dictionary are taken as an input to this step.

    In our poster presentation, we focus on term alignment, presenting two approaches: (1) lexical strategies and (2) the use of context vectors.

  1. Terms do not necessarily have an equivalent of the same syntactic structure in other languages, particularly German compounds. By applying term variation patterns, compounds can be reformulated, resulting in term variants of different syntactic structures (Morin & Daille 2009). This allows to individually look up the components of a compound in the dictionary and identify matching target language terms: Stromspeicherung → Speicherung von Strom → storage of power / storage of electricity.
  2. Terms and their translations tend to appear in comparable lexical contexts. For each source language term, context vectors are computed and translated into the target language. The translated vectors are then compared with target language context vectors (using cosine measure): terms with similar context vectors are likely to be translations. Since both approaches depend on the coverage of the dictionary, we consider the lexical strategies as an input for the context vector method.

1 The research leading to these results has received funding from the European Community's Seventh Framework Programme (FP7/2007-2013) under Grant Agreement n. 248005.

References
Daille, B. (2005). "Variants and application-oriented terminology engineering." In: Terminology, volume 1.
de Groc, C. (2011). "Babouk: Focused web crawling for corpus compilation and automatic terminology extraction." In: Proceedings of the IEEE/WIC/ACM. Lyon, France.
Morin, E. / Daille, B. (2009). "Compositionality and lexical alignment of multi-word terms." In: Language Resources and Evaluation, volume 44.
Schmid, H. (1994). "Probabilistic part-of-speech tagging using decision trees." In: Proceedings of the international conference on new methods in language processing. Manchester, UK.



Ramon Ziai, Niels Ott, Detmar Meurers
Universität Tübingen
Evaluating Answers to Reading Comprehension Questions in Context

Reading comprehension activities from foreign language teaching are an authentic task including a rich language-based context and the challenges of processing learner language. Taking the content-assessment approach by Bailey & Meurers (2008) for English as a starting point, we developed a Content Assessment System that automatically evaluates student answers to reading comprehension questions in German with respect to meaning (Meurers, Ziai, Ott & Kopp 2011).

The empirical basis of our research is the Corpus of Reading Comprehension Exercises in German (CREG) which is currently being collected in collaboration with two large German teaching programs in the US, at Kansas University (Prof. Nina Vyatkina) and The Ohio State University (Prof. Kathryn Corl). It consists of reading texts, questions about these texts and corresponding student and target answers. The student answers are rated by two independent annotators with respect to expressed content.

Based on a snapshot of data from the corpus, we show that our system for Comparing Meaning in Context for German (CoMiC-DE) performs on a competitive level with regard to the state of the art in short answer scoring. We discuss where linguistically informed strategies for comparing meaning are required, which on the one hand includes the nature of the representations being compared and on the other hand benefits from an explicit modeling of context and information structure.

References
Bailey, S. / Meurers, D. (2008). "Diagnosing meaning errors in short answers to reading comprehension questions." In: J. Tetreault, J. Burstein & R. D. Felice (eds), Proceedings of the 3rd Workshop on Innovative Use of NLP for Building Educational Applications (BEA-3) at ACL'08. Columbus, Ohio, 107-115.
Meurers, D. / Ziai, R. / Ott, N. / Kopp, J. (2011). "Evaluating Answers to Reading Comprehension Questions in Context: Results for German and the Role of Information Structure." In: Proceedings of the TextInfer 2011 Workshop on Textual Entailment. Edinburgh, Scotland, UK: Association for Computational Linguistics, 1-9.



Jan Timo Zimmermann, Ulrich Heid
Universität Hildesheim
Usability Tests für das Design eines monolingualen online-Kollokationswörterbuchs

Wir haben Usability-Tests an hierfür entwickelten Prototypen von online-Kollokationswörterbüchern durchgeführt und im Hinblick auf Designempfehlungen für Wörterbuch-GUIs ausgewertet.

Kollokationen, also lexikalisch und/oder pragmatisch bedingte typische Zweiwortkombinationen (vgl. Bartsch 2004:76), stellen deskriptive und präsentationelle Herausforderungen an online-Wörterbücher dar. Kollokationsbeispiele aus unseren Prototypen sind: go for a drive, a short drive, hard line, a line runs from...to..., etc., also Verb+Nomen und Adjektiv+Nomen.

Die Beispielartikel unserer drei Wörterbuchprototypen sind inhaltlich identisch (je eine Version für Textproduktion vs. Textrezeption, cf. Tarp 2008), folgen aber unterschiedlichen Ansätzen zur Datenauswahl, -Anordnung und Interface-Gestaltung:

  • WB-1: Suchmaschinen-Metapher: eine einzige Anfrage, nur eine Auswahl (Produktion vs. Rezeption), alle Angaben auf einmal als Ausgabe;
  • WB-2: Profilbasierte Suche: wenig Auswahlparameter, übersichtliche Ausgabe der Angaben, nach Angabetyp;
  • WB-3: Individualisierbares Wörterbuch: wie WB-2, aber andere Auswahlparameter.

Getestet wurde mit 13 Versuchspersonen, alle Studierende von Übersetzungsstudiengängen Englisch, im zweiten und dritten Studienjahr BA. Ein pre-test-Fragebogen zielte auf die Vertrautheit mit elektronischen Wörterbüchern und deren Einsatz. Die Labortests enthielten Aufgaben zu Textverstehen und Textproduktion, sowie zur Herübersetzung EN->DE und sollten jeweils mit einem der Prototypen erledigt werden. Ein post-test-Fragebogen erhob Präferenzen der Testpersonen und zugehörige Begründungen. Die Labortests wurden mit Morae protokolliert.

Die Ergebnisse zeigen Präferenzen für die Typen WB-2 und WB-3. Die Erfolgsrate bei der Arbeit mit WB-2/3 liegt über 80 %, die mit WB-1 unter 60 %. Keines der Wörterbücher bringt einen entscheidenden Zeitvorteil (Bearbeitungszeiten pro Aufgabe bei 130-155 sec.), aber mehr Teilnehmer finden WB-2/3 klarer strukturiert als WB-1, und die Behauptung "ich finde die Ergebnisse, die ich suche" wird für WB-2/3 erheblich öfter als zutreffend klassifiziert als für WB-1. Vielleicht sind also Internet-Suchmaschinen (eine Anfrage, viele Ergebnisse, manuelle Auswahl) für spezifische Fragestellungen (Kollokationen) und für fortgeschrittene Benutzer im Wörterbuchbereich doch kein geeignetes Modell?

Das Poster stellt die Details der Usability-Tests und der Auswertung dar; die Wörterbuch-Modelle werden demonstriert.

References
Bartsch, Sabine (2004): Structural and functional properties of collocations in English, A corpus study of lexical and pragmatic constraints on lexical co-occurrence. Tübingen: Narr.
Tarp, Sven (2008): Lexicography in the borderland between knowledge and non-knowledge. Tübingen: Niemeyer, Lexicographica. Series Maior.
Morae URL: http://www.techsmith.de/morae.asp