DGfS Sektion Computerlinguistik |
|
Liste der Poster (alphabetisch, nach Autoren)
Abstracts:Adrien Barbaresi Ecole Normale Supérieure de Lyon Deutsche politische Reden: Korpus und Visualisierung Dieser Beitrag (Poster und Demo) entsteht im Rahmen meiner Doktorarbeit über empfundene Sprachkomplexität. Ziel ist es, ein frei verfügbares Korpus zu erstellen sowie ein von der Computerlinguistik bisher wenig erforschtes Sprachregister zu studieren. Eine erste Version des Korpus wurde im Sommer 2011 im XML-Format mit Metadaten veröffentlicht. Sie ist unter folgender permanenter URL verfügbar: http://purl.org/corpus/german-speeches. Das Korpus besteht aus zwei Sammlungen: Bundespräsidialamt und Bundeskanzleramt. Erstere umfasst die Reden von fünf Bundespräsidenten (1984-2011, 1 360 Texte, 2 292 759 Tokens), während letztere aus den Reden von zwei Kanzlern sowie von mehreren Staatsministern besteht (1998-2011, 1 748 Texte, 3 759 954 Tokens). Beide wurden von offiziellen Quellen (nämlich den Webseiten der erwähnten Institutionen) heruntergeladen, wurden als solche übernommen und überarbeitet. Sie können gemäß § 48 UrhG frei erneut veröffentlicht werden, und sind unter der Creative-Commons Lizenz by-sa 3.0 (Namensnennung und Weitergabe unter gleichen Bedingungen) lizenziert. Die Metadaten sind (anhand von regulären Ausdrücken) in folgende Teile gegliedert: Titel, Redner, Datum, Quelle, Exzerpt und Anrede. Eine zweite Version wird anlässlich dieser DGfS-CL-Poster-Session veröffentlicht, sie ist auf den neuesten Stand und wird mit einer Wortartenkennzeichnung und einer Lemmatisierung angereichert. Um einen ersten Blick auf den Inhalt zu werfen, kann man die mitgeführte Visualisierung in Form von Webseiten (CSS/XHTML Format) benutzen: Die zeitliche Entwicklung bestimmter Schlüsselwörter wird anhand von Balkendiagrammen dargestellt, nämlich pro Jahr und pro Redner. Es ist auch möglich, den Kontext der Wortanwendung zu sehen. Alle automatisch generierten Seiten beinhalten Links zu den Urtexten, in denen das gesuchte Wort markiert wird. Diese Ressource wird weiter entwickelt werden, durch eine regelmäßige Erweiterung im Laufe der Zeit, durch eine Annäherung an das XML-TEI Format, und schließlich durch die Visualisierung beliebiger, von dem Benutzer gesuchter Ausdrücke. Sie wird Teil eines Korpus elektronischer Texte, das von Gertrud Faaß und Ulrich Heid (Universität Hildesheim) gesammelt wird. Es wird ebenso während der diesjährigen Poster-Session vorgestellt.
Felix Bildhauer, Roland Schäfer Freie Universität Berlin COW - COrpora from the Web: Gigatoken Webkorpora und Tools zur Ad-hoc-Webkorpuserstellung Wir stellen eine neue Sammlung von Webkorpora, die Ergebnisse von deren Evaluierung und unser eigenes Toolkit zur Erstellung solcher Korpora vor. Die von uns erstellten Korpora (bisher Deutsch, Französisch, Spanisch und Schwedisch; weitere europäische Sprachen wie Dänisch sind in Arbeit) umfassen je fünf bis zehn Milliarden Tokens und sind linguistisch aufbereitet (Lemmatisierung; POS-tagging, z.T. mit morphologischer Analyse; teilweise shallow parsing). Die Evaluation berücksichtigt unter anderem die lexikalische Abdeckung und Textsortenverteilungen. Unser Toolkit dient der Ad-hoc-Erstellung von Korpora in ISO-8859-1(5)-Sprachen. Die kompilierten und effizienten Cross-Platform-Tools füllen die Lücke zwischen Webcrawler und linguistischer Aufbereitung, erledigen also HTML-Entfernung, UTF8-Dekodierung, Boilerplate-Entfernung, Filterung von Dokumenten in unerwünschten Sprachen, Entfernung von Duplikaten in einem Schritt (bzw. zwei Schritten mit echtem w-Shingling zur Erkennung von Beinahe-Duplikaten). Wir können zeigen, dass die Tools in vielfacher Hinsicht (z.B. Duplikaterkennung) bessere Ergebnisse liefern als sie existierende Webkorpora (z.B. Baroni et al. 2009) aufweisen. Eine neue Version der Software wird außerdem den Crawlprozess ebenfalls übernehmen oder einen externen Crawler steuern. Ziel der Crawlerentwicklung wird es sein, möglichst gute Random-Stichproben aus dem Internet zu ermöglichen, was über Suchmaschinenergebnisse nicht besonders gut möglich ist. Die Präsentation gibt den Konferenzteilnehmern die Gelegenheit, die Korpora über CQP zu testen und ggf. Zugang zu den Daten zu erhalten.
References
Marcel Bollmann, Stefanie Dipper, Florian Petran Ruhr-Universität Bochum Das Anselm-Projekt: Tools für die automatische Analyse eines parallelen Korpus des Frühneuhochdeutschen
Das Poster stellt aktuelle und geplante Arbeiten des Anselm-Projekts vor, das 2011 begonnen hat. Im Projekt geht es um die Entwicklung von Tools für die automatische Analyse des Anselm-Korpus. Das Korpus besteht aus der gesamten deutschsprachigen Überlieferung des Passionstraktats "St. Anselmi Fragen an Maria" (36 Handschriften und 8 Drucke des 14.-16. Jahrhunderts). Die Überlieferungen liegen in verschiedenen Fassungen vor: als Prosa- oder Versfassung, als Lang- oder Kurzfassung. Beispiel (1) zeigt eine Frage von Anselm und den Anfang der dazugehörigen Antwort von Maria, aus einer nürnbergischen Überlieferung (2. Hälfte 15. Jhd.).
Margit Breckle, Maike Müller, Melanie Seiss, Heike Zinsmeister Lietuvos Edukologijos Universitetas (Lithuanian University of Educational Sciences) Vilnius / Universität Konstanz L1 Transfer versus fixed chunks: A learner corpus-based study on L2 German The ALeSKo corpus (online) is a multi-level annotated learner corpus that collects argumentative essays by Chinese L2 learners of German (level: ~B2) and comparable texts by German L1 speakers. Zinsmeister & Breckle (2010) investigate the functional realisation of sentence beginnings by taking relevant information-structural functions into account (cf. Speyer 2007). The L2 texts show a significant overuse of sentences that start with an information-structural function. This overuse can be explained by two different factors. Firstly, the L2 learners may transfer information-structural concepts from their L1. This results in an overuse or underuse of particular functions in specific syntactic positions (cf. e.g. Bohnacker & Rosén 2008 for L2 German). Even though Chinese and German are information-structurally similar they differ in their syntactic realisation. A second explanation is based on the observation that learners overuse fixed chunks (cf. Aguado 2002) while native(-like) writers use these expressions in a compositional way by modifying and paraphrasing them. We hypothesize that the chunks typically affect sentence beginnings. The poster presents the evaluation of two hypotheses: (i) L2 learners use chunks more often than average in their texts; (ii) L2 learners use chunks more often than average to start a sentence. A manual classification of frequently used n-grams revealed that L2 texts contain many strings copied from the task description. In addition, to accommodate low frequent strings, we applied an automatic algorithm for copy detection. Our results are: hypothesis (i) is confirmed, L2 learners make extensive use of chunks (especially copied material), 'other' chunks are less prominent; hypothesis (ii) could not be confirmed, L2 learners do not overuse chunks in the prefield. This is, the chunk analysis provides no explanation for the previously observed difference in prefield use.
References
Damir Ćavar, Juliane Arenz, Justina Bacytė, Bettina Grabert, Fatih Korkmaz, Anja Leiderer, Michael Pollich, Volker Rehberg, Burkhard Rosemann Eastern Michigan University / Universität Konstanz Ein Grundgerüst für eine Morphologie und eine Grammatik des Litauischen in LFG Die formale Implementierung der Morphologie des Litauischen als LEXC-basierter endlicher Automat für die XFST-Softwareumgebung (Beesley und Karttunen 2003), und eine LFG-basierte Implementierung der Grammatik des Litauischen für den XLE-Parser (Bresnan 2001; Butt et al. 1999) waren das Ziel eines Studienprojekts im Rahmen der Veranstaltung "Regelbasierte maschinelle Sprachverarbeitung" am Fachbereich für Sprachwissenschaft an der Universität Konstanz. Im Rahmen dieses Projekts wurde ein Rahmen für eine Morphologie des Litauischen entwickelt. Diese Morphologie wurde in die LFG-Grammatikentwicklung im Rahmen der XLE-Entwicklungsumgebung eingebunden. Die in LEXC formulierte Morphologie enthält ca. 16000 Morpheme. Darin sind neben den Grundwortarten, d.h. Nomen, Verben, Adjektive und Adverbien, auch Funktionswörter definiert (z.B. Auxiliare, Pronomina, Quantifikatoren, Demonstrativa), wie auch die unterschiedlichen Flexionsparadigmen und einige Derivationsregeln für diese Wortarten. Neben morphosyntaktischen Merkmalen und Lemmata für flektierte lexikalische Formen, gibt die Morphologie auch grundlegende onomastische Merkmale aus, wie auch Valenz- und Subkategorisierungsrahmen. Eine Erweiterung auf semantische Merkmale ist geplant. Die LFG-Grammatik deckt zurzeit grundlegende Phrasentypen ab, z.B. Nominalphrasen, Präpositionalphrasen, und grundlegende Satztypen. Soweit uns bekannt ist, gibt es keine vergleichbare Implementierung einer formalen Morphologie und Syntax (im Rahmen des LFG-Paradigmas) für Litauisch. Dieses Poster stellt die formalen Ansätze für die Implementierung der Morphologie und Syntax vor und demonstriert die Eigenschaften und Resultate des Parsers.
References
Christian Chiarcos, Sebastian Hellmann, Sebastian Nordhoff et al. Universität Potsdam / Universität Leipzig Open Data as an Enabler for Development in Computer Linguistics: the Working Group for Open Data in Linguistics Tim Berners-Lee and the W3C have recently proposed a 5 star rating system for data on the web. The first star is achieved by publishing data on the web (any format) under open licences. From this perspective Open Data Licences (http://www.opendefinition.org/) play a central role in building a foundation for a Linguistic Linked Data Web, which can be exploited for research in Computer Linguistics and Linguistics in general. Since its formation in 2010, the Open Linguistics Working Group (OWLG) has been steadily growing, and the direction the working group is heading has been clarified. We concentrated on the identification of goals and directions to pursue, and in this poster session, we will give an up-to-date overview of the results of this process. Among the broad range of problems associated with linguistic resources, we identified four major classes of problems and challenges during our discussions that may be addressed by the OWLG. First, there is a great uncertainty with respect to legal questions of the creation and distribution of linguistic data; second, there are technical problems such as the choice of tools, representation formats and metadata standards for different types of linguistic annotation; third, we have not yet identified a point of reference for existing open linguistic resources; finally, there is the agitation challenge, i.e., how (and whether) we should convince our collaborators to release their data under open licenses.
Simon Clematide, Manfred Klenner, Stefanos Petrakis, Stefan Gindl, Robert Remus, Josef Ruppenhofer, Ulli Waltinger, Michael Wiegand Universität Zürich / MODUL Universität Wien / Universität Leipzig / Universität Hildesheim / Universität des Saarlandes Towards A Reference Corpus for German Sentiment Analysis Recently, sentiment analysis (Pang et al. 2002; Wilson et al. 2005), as the task of analyzing, identifying and extracting opinions, appraisals and emotions from a given input stream has attracted much attention in the (German) CL and AI research community (Clematide et al. 2010; Gindl 2010; Wiegand et al. 2010; Klenner et al. 2009; Waltinger 2011). While there are various English-based benchmark collections (e.g. Pang et al. 2002), corpora and subjectivity dictionaries (e.g. SentiWordNet, Esuli et al. 2006) available, the number of German sentiment analysis resources is rather limited. We present the first results from a European research collaboration that aims at the construction of a reference corpus for sentiment analysis in German. The construction of the reference corpus is based on sentences extracted from the DeWaC web corpus (Baroni & Kilgarriff 2006). The data is manually annotated at three levels of granularity. On the first level, sentiment subjectivity and polarity labels are assigned to whole sentences. On the second level, nominal and prepositional phrases are annotated as neutral, positive, negative, or bipolar. Internal to these phrases, component words are annotated as positive, negative or neutral, or they are marked as valence shifters or intensifiers. On the third level, similarly to the approach taken by the MPQA corpus (Wiebe et al. 2005), individual words and multi-word expressions are annotated as private states, and the relevant sources and targets of opinion are identified. This poster will give an overview of the data representation (e.g. quantitative and qualitative statistics; inter-annotator agreement), the annotation process, and the annotation schemas applied.
References
Kurt Eberle, Kerstin Eckart, Ulrich Heid Universität Stuttgart / Lingenio GmbH / Universität Stuttgart Eine Tool-Datenbank-Schnittstelle zur Erstellung und Verwaltung von Text- und Satzanalysen unterschiedlicher Abstraktionsebenen Für die empirische Überprüfung linguistischer Theorien ist oft die gleichzeitige Verfügbarkeit von Analysen verschiedener Beschreibungsebenen wichtig sowie eine hohe Verlässlichkeit der einzelnen Analyseergebnisse. Vor diesem Hintergrund ist im Teilprojekt B3 des Sonderforschungsbereichs SFB-732 eine Datenbank entwickelt worden, in der für Sätze und Texte beliebige Arten von Analysen miteinander in Beziehung gesetzt werden können (Eckart et al. 2010). Dadurch können einerseits Analysen derselben Analyseebene (Morphologie, Syntax, Semantik, Pragmatik) verglichen werden und andererseits Analysen unterschiedlicher Ebenen als Input für die Berechnung von Analysen weiterer Ebenen genutzt werden. Ersteres hilft dabei festzustellen, wie verlässlich eine bestimmte Analyse ist, Zweiteres erlaubt, komplexere Berechnungen in verschiedene Einzelschritte auseinanderzulegen. Grundlage des prototypisch realisierten Systems ist die Kopplung des B3-Analysetools (Eberle et al. 2008) an die Datenbank. Das B3-Tool verwendet dabei die im Übersetzungssystem translate der Lingenio GmbH vorhandenen Komponenten zur morphologischen, syntaktischen, semantischen und textsemantisch/pragmatischen Analyse, die für die Zwecke der Forschung im SFB-732 angepasst wurden, siehe (1). Analysen jeder Beschreibungsebene können einzeln, mit einem entsprechenden Zeitstempel versehen, in der Datenbank abgelegt werden und werden beim Anstoßen weiterer Analysevorgänge aus der Datenbank ausgelesen. In der beschriebenen Weise implementiert das Verfahren ein Pipeline-Modell der Analyse. Je nach Operationsaufruf können Ergebnisse in einem Schritt, durch Hintereinanderschalten der einzelnen Komponenten oder aber in mehreren Schritten, mit Festhalten der Zwischenergebnisse, produziert werden. Der Screenshot zeigt einen Ausschnitt der morphologischen Analyse einiger Sätze (hier mit Ausgabe der vorliegenden semantischen Typisierung). Dabei wird neben dem eigentlichen Analysestring ('ana') auch die Analyseebene ('type') sowie das Erstellungsdatum ('create') und das Erstellungsdatum der aktuellsten Analyse ('lastana') der selben Ebene bereitgestellt. Durch den Abgleich der Zeitstempel kann eine Versionierung erfolgen. Wir zeigen, wie das Tool mit der Datenbank kommuniziert, Analyseergebnisse auslesen und tiefere Analysen nach Maßgabe von Input-Parametern und der gewünschten Zielebene erstellen und einlesen kann.
References
Gertrud Faaß, Ulrich Heid Universität Hildesheim Deutsche politische Kommunikation der Gegenwart als linguistisch annotiertes Korpus Im Rahmen von Aktivitäten in den sog. "e-Humanities" ist in den letzten Jahren in der Politikwissenschaft vermehrt Interesse an der detaillierten Analyse von politischem Diskurs aufgekommen. Die Verfügbarkeit entsprechender Texte im Internet und die Nutzung korpuslinguistischer Technologie erlauben es, hierfür Daten bereitzustellen. An der Universität Hildesheim werden derzeit elektronische Texte aus dem Bereich der politischen Kommunikation von Bund und Ländern gesammelt. Vorgesehene Teile dieser Textsammlung sind insbesondere Reden und Debatten (zum Beispiel Plenarprotokolle des Bundestags, Protokolle der Länderparlamente) oder auch Pressemitteilungen (z.B. aus den Newslettern von Institutionen des Landes Niedersachsen). Die Sammlung wird kombiniert mit Daten, die Adrien Barbaresi, Ecole Normale Supérieure de Lyon, zur Verfügung gestellt hat: politische Reden von Regierungsvertretern und Bundespräsidenten. Diese beinhalten - ausser den für alle Dokumente verfügbaren Metadaten wie Herkunft (url) und Datum - zusätzlich auch Kurzinformationen ("excerpt") zu den Reden; die am Anfang von Reden verwendeten Adressierungen sind außerdem speziell gekennzeichnet. Wir planen, in die Metadaten des Korpus nicht nur die Namen der Redner und Autoren, sondern auch deren Parteizugehörigkeit mit aufzunehmen. Bisher umfasst das Korpus ca. 16 Millionen Tokens. Wir planen, diese Daten für Lehre und Forschung in der Sprachtechnologie sowie in den Sozialwissenschaften zu nutzen. Weiteres Material aus dem veröffentlichten politischen Diskurs soll folgen, auch hier sollen Texttypen, Autoren, Datum, etc. über geeignete Metadaten erschlossen werden. Eine Anbindung an die im Tübinger DFG Projekt NaLiDa in der Entwicklung befindlichen Metadatenschemata auf der Basis von CDMI (Component MetaData Initiative) ist angestrebt. Es ist vorgesehen, bis Anfang 2012 dieses Korpus und weitere Textsammlungen dieser Art zusammenzustellen, aufzubereiten und mit linguistischen Daten anzureichern (Wortartenkennzeichnung, Lemmatisierung, ggf. syntaktische Analysen, z.B. Dependenzparsing). Die Daten unterliegen keinerlei Urheberrecht, daher ist es vorgesehen, sie frei für die Forschung zur Verfügung zu stellen, die Möglichkeit einer Online-Abfrage ist geplant. Das Poster wird über die Teil-Korpora und ihre Metadaten sowie über Zugriffsmöglichkeiten informieren, die Demonstration wird anhand konkreter Beispiele für Forschungsfragen zu Lexik, Formulierungswahl und Meinungen aufzeigen, welche Abfragen möglich sind.
Ulrike Freywald, Katharina Mayr, Tiner Özçelik, Ines Rehbein, Sören Schalowski, Heike Wiese Universität Potsdam The KiezDeutsch-Korpus (KiDKo) Kiezdeutsch ('hood German') is a new variety of German which has emerged among adolescent speakers in multiethnic urban areas of Germany with a large immigrant population and which combines features of a youth language with those of a contact language. The multilingual competence of the speakers creates a setting that supports special dynamics of language change and makes Kiezdeutsch interesting for the investigation of new grammatical developments, especially in the interaction between grammar and information structure (e.g., word order in the left sentence periphery) (cf. Wiese et al. 2009, Wiese 2009, Wiese 2011). The KiDKo has been created in the first phase of project B6 "Das Kiezdeutschkorpus. Analysen an der Peripherie" as part of the SFB (Collaborative Research Centre) 632 "Information Structure" in Potsdam. It contains spontaneous peer-group dialogues of adolescents from multiethnic Berlin-Kreuzberg (around 48 hours of recordings) and a supplementary corpus with adolescent speakers from monoethnic Berlin-Hellersdorf (around 18 hours of recordings). The current version of the corpus contains the audio signals aligned with transcriptions. We transcribed using an adapted version of the transcription inventory GAT basic (Selting 1998), including information on intonation phrases, primary accent, intonation contours, and pauses. In the current phase of the project, we are adding a level of orthographic normalisation where non-canonical pronunciations, punctuation, and capitalisation are transferred to standard German spelling, as well as layers of annotation for part-of-speech tags, topological information, and information-structural features. These new layers will enable us to conduct corpus searches for and quantitative analyses of complex syntactic phenomena and their connection to information structure. We aim at making the corpus accessible for researchers as far as the sensitive nature of our data allows. The corpus will provide a unique resource for research on language contact, language variation and urban language use, and enable studies at all levels of linguistic analysis.
References
Jolanta Gelumbeckaitė Goethe-Universität Frankfurt am Main Referenzkorpus Altlitauisch (SLIEKKAS/KALT) Das tief annotierte Referenzkorpus des Altlitauischen (1547-1800) soll die sämtlichen Texte der litauischen Sprache vom Beginn der kontinuierlichen schriftlichen Überlieferung 1547 bis etwa 1800 erfassen. Die digitalisierten Texte werden durchgehend mit strukturellen, positionellen sowie morphosyntaktischen Annotationen (Multi-layer-stand-off) versehen, die eine komplexe mehrstufige Abfrage des Korpus ermöglicht. Eine Sonderheit der altlitauischen Textüberlieferung ist der enge Bezug zum Lateinischen, Deutschen und Polnischen. Die meisten Texte sind mehr oder minder eng auf die Vorlagetexte bezogene Übersetzungen und Überarbeitungen. Deswegen werden im Korpus auch die Quellentexte miterfasst und auf gleicher Weise wie die altlitauischen strukturell, positionell und linguistisch annotiert. Die altlitauischen und die originalen Textfassungen werden mit einander aligniert. Mit dem altlitauischen Korpus soll vor allem der sprachhistorischen Forschung, aber zugleich der literatur- und kulturhistorischen Forschung zum (Alt)Litauischen eine bislang nicht vorhandene Ressource zur Verfügung gestellt werden. Insbesondere soll das Referenzkorpus Altlitauisch die Verwirklichung der zwei größten Desiderata instand setzen, nämlich die Erstellung des historischen Wörterbuches des Litauischen sowie die Erarbeitung der Grammatik des Altlitauischen. Das Poster stellt die Mehrebenenarchitektur der Annotation der altlitauischen Texte und die Alignierung mit den digitalisierten Faksimiles der Autographe sowie mit den Quellentexten dar.
Boris Haselbach, Wolfgang Seeker, Kerstin Eckart Universität Stuttgart nach Particle Verbs in Semantic Theory and Corpus Data
German particle verbs are in a syntactic and semantic gray area which is mirrored by the variety of approaches to particle verb constructions (see Dehé et al. 2002 for an overview). One major challenge is the organization of arguments by the particle, especially if the argument structure of the particle verb deviates from the one of the underlying verb. In (1) the verb particle nach creates an argument slot for a dative DP, whereas in (2) it does not.
References
Sebastian Hellmann, Jens Lehmann, Sören Auer, Martin Brümmer Universität Leipzig NLP Interchange Format (NIF) - A common data format for natural language processing (NLP) The NLP Interchange Format (NIF) is an RDF/OWL-based format that allows to combine and chain several Natural Language Processing tools in a flexible, light-weight way. The core of NIF consists of a vocabulary which can represent Strings as RDF resources. A special URI design is used to pinpoint annotations to a part of a document. These URIs can then be used to attach arbitrary (overlapping, multi-layer) annotations to the respective character sequence. Based on these URIs, annotations can be interchanged between different NLP tools. NIF consists of several components:
Although several large NLP tool integration frameworks such as UIMA and Gate exist, integration of tools is still tedious for two reasons: 1. For each tool and each framework an adapter has to be created (n*m, horizontal integration) 2. The systems only integrate the software; the produced annotations are not standardized and can potentially break the pipeline. NIF integrates NLP tools via a common data format (Common pattern in Enterprise Application Integration), that standardizes the way annotations are created as well as what annotations are required to achieve interoperability. A web site (http://nlp2rdf.org) was created to serve as a reference point for the new format. The format is developed in the FP7 LOD2 EU project (2010-2014); and implementations for several NLP tools (UIMA, Gate ANNIE, MontyLingua, DBpedia Spotlight, OpenNLP, Stanford CoreNLP) are freely available. The poster/demo will show the current progress of the standardization.
Christina Hoppermann, Thorsten Trippel, Claus Zinn Eberhard Karls Universität Tübingen Prozesse zur Beschreibung und Archivierung linguistischer Forschungsdaten Zur guten wissenschaftlichen Praxis zählt in der Linguistik, ebenso wie in anderen Disziplinen, eine detaillierte Erstellung und Analyse von Forschungsdaten. Diese sollen ferner angemessen beschrieben und archiviert werden. Insbesondere die Archivierung wird zunehmend von Forschungsförderungsorganisationen über einen festgelegten Zeitraum, wie die von der Deutschen Forschungsgemeinschaft geforderten 10 Jahre (s. Deutsche Forschungsgemeinschaft, 1998), vorgeschrieben. Diese Vorgaben stellen jedoch Herausforderungen an die Datenersteller, die über ihre fachwissenschaftliche Arbeit hinausgehen. Um diesen Mehraufwand minimieren zu können, stellt das Zentrum für Nachhaltigkeit Linguistischer Daten (NaLiDa, s. http://www.sfs.uni-tuebingen.de/nalida) sowohl Verfahrensweisen als auch Anleitungen und Referenzen für die benötigte Infrastruktur zur Beschreibung und Archivierung linguistischer Forschungsdaten zur Verfügung. Der entwickelte Workflow besteht aus drei Hauptbereichen: der Ressourcenerstellung/-analyse, der Metadatenerstellung zur Beschreibung von Forschungsdaten und der Archivierung im Repositorium. Auf der Basis des verwendeten Metadatenschemas CMDI (Component MetaData Infrastructure; s. Broeder et al., 2010; s. http://www.clarin.eu/cmdi) stellt das Projekt Nutzern Vorlagen zur Erstellung von Metadaten unter Berücksichtigung unterschiedlicher Ressourcentypen (s. Barkey et al., 2011a) bereit. Die angefertigten Metadaten werden in einem Katalog gespeichert (s. http://www.sfs.uni-tuebingen.de/nalida/katalog) und als Grundlage für eine Suchmöglichkeit verwendet, die mittels eines Faceted Browsers (s. Barkey et al., 2011b) das Einsehen der Beschreibungen ermöglicht. Zusammen mit den Forschungsprimärdaten werden die Metadaten in einem Repositorium archiviert. Repositorien dienen in Kombination mit Sicherungen in zentralen Infrastruktureinrichtungen (z.B. Rechenzentren) der nachhaltigen Datensicherung unter Einhaltung von Zugangsberechtigungen. Die im Projekt angelegte Infrastruktur fungiert als Referenzimplementierung zur übertragbaren Anwendung auf andere Forschungsprojekte. Das Poster illustriert die entwickelten Verfahren zur Beschreibung und Archivierung linguistischer Forschungsdaten und stellt mit dem Repositorium als Schwerpunkt die einzelnen Komponenten der Infrastruktur dar. Zusätzlich wird eine Demonstration am Laptop angeboten, bei der die Möglichkeit besteht, unter Anleitung einen Einblick in die verwendete Infrastruktur und die angewandten Prozesse zu gewinnen.
References
Laura Kallmeyer, Rainer Osswald Heinrich-Heine-Universität Düsseldorf Syntax-Driven Semantic Frame Composition in Lexicalized Tree Adjoining Grammars Semantic frames are an established way to model detailed aspects of lexical meaning. However, frames have been less thoroughly investigated with respect to semantic composition and its interaction with syntactic operations. We propose a framework that integrates Lexicalized Tree Adjoining Grammars (LTAG; Joshi & Schabes 1997) with frame semantics. LTAG is a promising framework for frame semantic composition for a number of reasons: Firstly, the elementary LTAG trees represent entire subcategorization frames. This "extended domain of locality" facilitates the linking of the syntactic and semantic components. Secondly, the specification of elementary trees by means of metagrammatical constraints (Crabbé & Duchier 2005) allows a strong factorization of the syntactic and semantic information provided by a given construction. This factorization is able to capture the specific meaning contributions of fragments of the construction. Thirdly, the LTAG framework is suitable for computational processing. We use the English dative alternation (e.g. Krifka 2004, Beavers 2011) as an example to show how constructions and semantic frames can be decomposed and composed within the metagrammar and how frame composition is triggered by substitution and adjunction in LTAG. The framework allows us to model in detail the interaction of the lexical semantics of the verb and the semantics of the constructional realization. This case study illustrates how syntactic unification in the metagrammar and in LTAG can drive the semantic unification of frames. Moreover, it shows that LTAG's extended domain of locality provides enough flexibility to perform syntax-driven semantic frame composition in a local way.
References
Valia Kordoni, Yi Zhang, Iliana Simova Deutsches Forschungszentrum für Künstliche Intelligenz / Universität des Saarlandes Discriminants-based Treebanking of the WSJ sections of the Penn Treebank In this poster, we present an on-going project whose aim is to produce rich syntactic and semantic annotations for the Wall Street Journal (WSJ) sections of the Penn Treebank (PTB; Marcus et al. (1993)). In doing so, we are not only focusing on the various stages of the semi-automated annotation process we have adopted, but we are also showing that rich linguistic annotations, which can apart from syntax also incorporate semantics, may ensure that treebanks are guaranteed to be truly sharable, re-usable and multi-functional linguistic resources. The task is being carried out with the help of the English Resource Grammar (ERG; Flickinger (2002)), which is a hand-written grammar for English in the spirit of the framework of Head-driven Phrase Structure Grammar (Pollard and Sag (1994)). To aid the treebank development we use automatic parsing outputs as guidance. Despite this aid, though, treebank annotation remains a labour-intensive and time-consuming task. Thus, we also show in this presentation that a simple statistical ranking model can significantly improve treebanking efficiency by prompting human annotators, well-trained in disambiguation tasks for treebanking but not necessarily grammar experts, to the most relevant linguistic disambiguation decisions. Experiments have been carried out to evaluate the impact of such techniques on annotation efficiency and quality. The detailed analysis of outputs from the ranking model shows strong correlation to the human annotator behaviour. When integrated into the treebanking environment, the model brings a significant annotation speed-up with improved inter-annotator agreement.
References
Yulia Pilkevich, Heike Zinsmeister Universität Konstanz Feature Exploration for the prediction of the German Vorfeld
The German Vorfeld ('prefield') is not grammatically determined. Corpus studies show that about 50 % of the declarative main clauses do not start with the subject. The question of choosing an appropriate sentence beginning is important for automatic generation, e.g. in text summarization. We present experiments on the classification of main constituents into prefield versus non-prefield. The focus of the investigation is to explore what kind of features support the prefield-hood of a constituent. To this end, we extracted declarative sentences from the TüBa-D/Z treebank (online), cf. Example (1). The main constituents of each sentence were modeled by a set of syntactic, semantic, and discourse-related features extracted from the treebank and other resources, cf. Table (2).
References
Melanie Seiss Universität Konstanz A morphological guesser for a morphologically rich language
This paper presents a morphological guesser for the very complex verbal structure in Murrinh-Patha, a polysynthetic language spoken in the Northern Territory of Australia (e.g. Blythe 2009). In the Murrinh-Patha verbal template, most slots can be occupied by morphemes of a small restricted class only. The morphological guesser uses this fact to guess the productive morphemes in the other slot. This ensures a better coverage of the morphological analyzer while keeping the manual work of implementing limited. The Murrinh-Patha verbal template consists of 9 different slots and complex interdependencies between these template slots exist (Nordlinger 2010). An example with 6 different morphemes is given in (1). It comprises a direct object marker in the verb, an incorporated body part rdarri 'back', an incorporated adverb deyida 'again' and a future tense marker at the end. The verbal meaning is made up of two morphemes, the so-called classifier stem ma and the lexical stem purl, which together also determine the subcategorization frame.
References
Sylvia Springorum Universität Stuttgart Studies concerning the automatic classification of particle verbs with an German verb particles are highly ambiguous. Studies have shown that they are compositional and can be systematically derived; see for example (Lechler / Roßdeutscher). On the poster I will present a corpus-based (SDeWac) automatic classification distinguishing between four different readings of German verbs with the particle an. The main questions which I will address are: How can a theoretical background help in automatic classification tasks, and what can we learn in exchange from the classification results? The four particle verb readings are represented by the following sentences: (1a) The topological reading: Maria kettet den Hund an. [Maria chains the dog.] (2) The directional reading: Maria lächelt ihre Mutter an. [Maria smiles at her mother.] (3) The event initiation reading: Der Schiedsrichter pfeift das Spiel an. [The referee starts the game by whistling.] (4) The partitive reading: Der Dachdecker sägt das Brett an. [The roofer partially saws the plank.] I will show that every reading needs a detailed elaboration concerning the choice of the suitable features for their disambiguation. Some readings can be distinguished by prepositional phrases from the others like, for example, the topological verbs which differ from the other verbs by the possibility of an occurrence of a PP with the topological reading of the preposition an. Such a PP with an has the function to make the implicit background explicit like in: (1b) Maria kettet den Hund am Fahrradständer an. [Maria chains the dog at the bicycle rack.] The event initiation reading on the contrary comes along more frequently than other readings together with PPs with zu. However, it won't be possible to disambiguate directional an-verbs with prepositions but the direct object is a good indicator here. Due to their huge variability, direct objects by itself do not provide enough information. They have to be partitioned in semantically motivated classes. This was done using the hyperonymy relation from GermaNet. Herewith it was possible to extract objects which are characterized as higher lifeforms and are therefore suitable for verbs of the directional class. Objects with no awareness are not very productive there, smiling at a chair for instance is odd. All classification tasks were carried out using the WEKA-Tool with the J48 decision tree algorithm.
Besides presenting the statistical results, I will also show a visualization containing the decision tree with the relevant features for all classes. Additionally, I will discuss the wrongly classified verbs with explanations on what didn't work out and what could help to avoid these problems.
Amalia Todirascu, Sebastian Padó, Jennifer Krisch, Max Kisselew, Ulrich Heid Université de Strasbourg / Universität Heidelberg / Universität Stuttgart Corpora and tools for syntax-based text type classification We report on an ongoing project involving the universities of Stuttgart, Heidelberg and Strasbourg. It is concerned with linguistic patterns and computational methods that allow us to classify domain-specific texts in German and French according to their text type or genre. Examples are scientific articles vs. popular science texts within domains like medicine or computing, or different types of administrative texts from the European Commission. The first step in our investigation was the collection of corpora. Even though a wealth of texts is available online, we found very few of these to be directly usable. We created two specific tools, one to collect and convert HTML documents, the other to extract text from PDF documents. HTML documents are often created dynamically from databases; pages from the same site therefore encode meta-information like title, author, or issue date often in a uniform way. Our XML converter takes advantage of this fact: On the basis of a user specification, it converts HTML archives directly into metadata-annotated corpora. In contrast, metadata are all but impossible to extract from PDF files, which present the additional challenge that they can contain text set in multiple columns which are not represented in the document structure. Our extractor uses line length-based heuristics to reconstruct the linear order of the text. With the help of these tools, we have created French and German corpora for two domains (medicine and computer science) crossed with two genres (directed at scientists/professionals vs. directed at the general population). For example, in medicine we chose the journals Der Arzneimittelbrief and Deutsches Ärzteblatt as scientific publications and the two web sites Diabetes-Ratgeber and Senioren-Ratgeber as popular publications. All corpora have a size of at least 500.000 words, the computer science corpora even between 2,5 and 4,5 million words. At the present time, we have performed an initial semi-automatic analysis, which has yielded a set of potential structural text type indicators. E.g., popular science articles have many more interrogatives and exclamatives than scientific ones; similarily, the frequency of 1st and 2nd person pronouns and verb forms is much higher. Conversely, German scientific articles contain considerably more compounds with two or more hyphens, more parentheticals, more indications of measurements and percentages, and more complex object noun phrases than their popular science counterparts. French scientific articles are characterized by complex objects (noun phrases modified by several PPs) and by frequent occurrences of passive form. French popular science contains more definition patterns (X is a Y, X est défini comme Y). Our next planned step is the automatic prediction of text genre using supervised learning strategies on the basis of structural features. We are particularly interested to see (a) to what extent features generalize across domains (we hope that structural features generalize much better than the lexical ones that are usually employed) and (b) to what extent they might even generalize across languages between German and French. Pilot experiments for French are encouraging, with object NP complexity being one of the main features used by the classifier. The poster and demonstration will present the extraction tools, the corpora and their annotation (metadata, dependency parsing), as well as results from experiments in automatic classification.
Christina Unger, Philipp Cimiano Universität Bielefeld Pythia: Compositional meaning construction for question answering The growing Semantic Web provides a large amount of ontology-based semantic markup that question answering systems can exploit in order to interpret and answer natural language questions. We present the ontology-based question answering system Pythia (Unger & Cimiano 2011a), that transforms natural language input into a formal query by means of a deep linguistic analysis. It relies on a lexicon consisting of two parts: an ontology-specific and an ontology-independent part. The ontology-specific part is generated automatically from a specification of the lexicon-ontology interface that explicates possible linguistic realizations of the entities, classes and relations in the ontology, thereby ensuring a precise and correct mapping of natural language terms to corresponding ontology concepts. The ontology-independent part comprises functional expressions such as auxiliary verbs, determiners and wh-words. Based on such a lexicon, natural language input is subject to parsing using Lexicalized Tree Adjoining Grammar and a subsequent compositional meaning construction yielding Discourse Representation Structures as final meaning representations, which can then be translated into a formal query language, e.g. FLogic or SPARQL. Such a deep linguistic analysis allows Pythia to construct queries even for complex questions, e.g. involving quantification, negation and superlatives, and also facilitates a principled treatment of ambiguities (Unger & Cimiano 2011b). We will present Pythia's architecture together with its strengths and weaknesses, report on evaluation results on a subpart of the Semantic Web, and provide an online demo.
References
Marion Weller, Anita Gojun, Ulrich Heid, Béatrice Daille, Emmanuel Morin Universität Stuttgart / Université de Nantes Compiling terminological data using comparable corpora: from term extraction to dictionaries
For scientific domains, terminological resources like dictionaries are often not available or not up-to-date. Additionally, term variation (Daille 2005) is often not documented. As a result, translators working in technical domains usually spend much time building terminological resources. The project TTC1 aims at compiling domain-specific lexical resources which are to be integrated into CAT tools and SMT systems. Since parallel data is often not available, comparable corpora are used: they are available for a large range of domains in many languages. The TTC tool suite consists of the following steps:
In our poster presentation, we focus on term alignment, presenting two approaches: (1) lexical strategies and (2) the use of context vectors. 1 The research leading to these results has received funding from the European Community's Seventh Framework Programme (FP7/2007-2013) under Grant Agreement n. 248005.
References
Ramon Ziai, Niels Ott, Detmar Meurers Universität Tübingen Evaluating Answers to Reading Comprehension Questions in Context Reading comprehension activities from foreign language teaching are an authentic task including a rich language-based context and the challenges of processing learner language. Taking the content-assessment approach by Bailey & Meurers (2008) for English as a starting point, we developed a Content Assessment System that automatically evaluates student answers to reading comprehension questions in German with respect to meaning (Meurers, Ziai, Ott & Kopp 2011). The empirical basis of our research is the Corpus of Reading Comprehension Exercises in German (CREG) which is currently being collected in collaboration with two large German teaching programs in the US, at Kansas University (Prof. Nina Vyatkina) and The Ohio State University (Prof. Kathryn Corl). It consists of reading texts, questions about these texts and corresponding student and target answers. The student answers are rated by two independent annotators with respect to expressed content. Based on a snapshot of data from the corpus, we show that our system for Comparing Meaning in Context for German (CoMiC-DE) performs on a competitive level with regard to the state of the art in short answer scoring. We discuss where linguistically informed strategies for comparing meaning are required, which on the one hand includes the nature of the representations being compared and on the other hand benefits from an explicit modeling of context and information structure.
References
Jan Timo Zimmermann, Ulrich Heid Universität Hildesheim Usability Tests für das Design eines monolingualen online-Kollokationswörterbuchs Wir haben Usability-Tests an hierfür entwickelten Prototypen von online-Kollokationswörterbüchern durchgeführt und im Hinblick auf Designempfehlungen für Wörterbuch-GUIs ausgewertet. Kollokationen, also lexikalisch und/oder pragmatisch bedingte typische Zweiwortkombinationen (vgl. Bartsch 2004:76), stellen deskriptive und präsentationelle Herausforderungen an online-Wörterbücher dar. Kollokationsbeispiele aus unseren Prototypen sind: go for a drive, a short drive, hard line, a line runs from...to..., etc., also Verb+Nomen und Adjektiv+Nomen. Die Beispielartikel unserer drei Wörterbuchprototypen sind inhaltlich identisch (je eine Version für Textproduktion vs. Textrezeption, cf. Tarp 2008), folgen aber unterschiedlichen Ansätzen zur Datenauswahl, -Anordnung und Interface-Gestaltung:
Getestet wurde mit 13 Versuchspersonen, alle Studierende von Übersetzungsstudiengängen Englisch, im zweiten und dritten Studienjahr BA. Ein pre-test-Fragebogen zielte auf die Vertrautheit mit elektronischen Wörterbüchern und deren Einsatz. Die Labortests enthielten Aufgaben zu Textverstehen und Textproduktion, sowie zur Herübersetzung EN->DE und sollten jeweils mit einem der Prototypen erledigt werden. Ein post-test-Fragebogen erhob Präferenzen der Testpersonen und zugehörige Begründungen. Die Labortests wurden mit Morae protokolliert. Die Ergebnisse zeigen Präferenzen für die Typen WB-2 und WB-3. Die Erfolgsrate bei der Arbeit mit WB-2/3 liegt über 80 %, die mit WB-1 unter 60 %. Keines der Wörterbücher bringt einen entscheidenden Zeitvorteil (Bearbeitungszeiten pro Aufgabe bei 130-155 sec.), aber mehr Teilnehmer finden WB-2/3 klarer strukturiert als WB-1, und die Behauptung "ich finde die Ergebnisse, die ich suche" wird für WB-2/3 erheblich öfter als zutreffend klassifiziert als für WB-1. Vielleicht sind also Internet-Suchmaschinen (eine Anfrage, viele Ergebnisse, manuelle Auswahl) für spezifische Fragestellungen (Kollokationen) und für fortgeschrittene Benutzer im Wörterbuchbereich doch kein geeignetes Modell? Das Poster stellt die Details der Usability-Tests und der Auswertung dar; die Wörterbuch-Modelle werden demonstriert.
References
|