Start Texte Suche Lexikon Alignierung Verweise Publikationen Visu Englische Version Litauische Version Deutsche Version

Alignierung

Ein Probealignment des Textes Pavasario linksmybės mit der frühen deutschen Übersetzung Nesselmanns (1869) wurde gemäß der Richtlinien vorgenommen. Daraus ergeben sich einige Auswertungs- und Darstellungsmöglichkeiten, die teilweise und exemplarisch umgesetzt wurden. Dabei handelt es sich um ein Alignierungswörterbuch, welches nach litauischen Lemmata und deren Wortformen geordnet, deren jeweilige Übersetzungen auflistet. Das Format ist dabei sehr einfach und verlinkt auf andere Teile der Seite, wie z.B. das Lexikon. Für eine deutsches Äquivalent wäre eine manuell kontrollierte Lemmatisierung, Wortklassenzuweisung und morphologische Analyse nötig gewesen. Selbige könnte dann auch Basis von Analysen der Übersetzung wie z.B. einer kontrastiven Wortklassenanalyse o.äm. sein. Fragen wie Welche Wortklassen wurden hauptsächlich durch andere abgebildet? Wie oft und in welchen Kontexten wurde zum Mittel der Wortklassentransition gegriffen? usw. könnten so beantwortbar werden. Obgleich wir den deutschen Text mit modernen Tools automatisch vorverarbeitet haben, sind Genre, Entstehungszeit und Texttyp ein Grund dafür, dass diese ohne eine genaue manuelle Verifizierung der Ergebnisse unseres Erachtens nicht aussagekräftig präsentiert werden sollten, zumal sie auch nur auf einem kleinen Teil des Korpus operieren. Wir haben MarMot, den RNNTagger, sowie den TreeTagger für eine Approximation der Out-of-vocabulary words verwendet. Es befanden sich 415 dem TreeTagger unbekannte Token (von ca. 6300) im Text, was nicht erschreckend viel ist, jedoch einen gewissen Arbeitsaufwand, besonders mit Blick auf das Gesamtkorpus, erahnen lässt. Auf der Seite des Alignierungswörterbuches haben wir 2 Arten Visualisierung verlinkt, die eine als Matrix mit farblich markierten Feldern und die andere als parallele Vertikaldarstellung der 2 Sprachversionen, wobei die alignierten Token durch Linien, die das Zentrum kreuzen, verbunden werden. Beide Typen Visualisierung sind in der Maschinellen Übersetzungsforschung bekannt und praktiziert.

Statistisches: Alle Zahlen im Folgenden sind ggf. leicht gerundet. Bei der Alignierung wurden 4300 litauische Token von 6400 deutschen übersetzt, was vielleicht schon auf Explizitation oder die Anstrengung die Metrik durch eine weitläufigere Wortwahl ästhetisch ansprechend zu halten hindeutet. 1400 litauischen Lemmata standen 2000 deutsche gegenüber (nach RNN Tagger, nicht verifiziert). Hier spielt die grammatikalisch Divergenz beider Sprachen sicher auch eine gewisse Rolle, abgesehen von der möglichen Fehlerrate. Bei den Wortformen stehen 2000 litauischen 2700 deutsche gegenüber. Das Verhältnis Wortformen/Lemma zwischen dem Litauischen und Deutschen ist damit 3:3 und also fast identisch. Mehrwortausdrücke benutzt das Litauische 63, wobei davon 56 Phraseme sind (lt. Richtlinien mit 'y' aligniert). Das Deutsche hingegen benutzt bei der Übersetzung 1535 Mehrwortausdrücke, was auf eine höhere Anzahl von Umschreibungen (also schon ein wenig Explizitation) deuten könnte, die auch vorhanden sind, aber in der Masse vor allem dem Umstand geschuldet sein wird, dass Artikel mit ihrem Nomen gemeinsam aligniert werden und ebenso Präpositionen u.a., also ein Artefakt der Annotation bzw. eine Folge der grammatikalischen Divergenz beider Sprachen oder von deren arbiträrer Orthographie. 47 Mal wurden Übersetzungen vorgenommen, bei denen Token einer litauischen Verszeile auf mehrere deutsche Verszeilen verteilt waren, meist ein divergentes Enjambement. 750 deutsche Token waren lt. Annotation (auch diese übrigens nur vorläufig, da man im Laufe der Zeit erst eine Routine entwickeln kann) unaligniert, d.h. im Deutschen 'dazuerfunden', wobei 261 wiederum Kommata waren. Andererseits blieben 384 litauische Token unübersetzt, hier allerdings auch 110 Kommata. Die Zeichensetzung scheint sich von der Konvention und dem Stil der beiden Autoren her also ein wenig zu unterscheiden. Interessanter ist aber, dass auch hier die Anzahl deutscher Token höher ist, was gut zur obigen These passt, dass die Übersetzung eben ein bischen Kompensationsarbeit betreibt, um metrische Ästhetik und mindestens sinngetreue Übersetzung zu erreichen. Eine völlig wortgetreue Übersetzung, die auch noch metrisch ist, ist vermultlich unmöglich. Schliesslich ist die größte Anzahl Alignierungen doch vom Typ 1:1 (1 litauisches entspricht einem deutschen Token), was nicht zuletzt auch die frequenzstarken Funktionswörter miteinschliessen wird, 2700 Alignierungsvorgänge fallen auf diese Kategorie. 1500 hingegen sind solche, in denen ein litauisches Token mehreren deutschen entspricht. Bei der geringen Anzahl Phraseme erklärt dies tatsächlich die hohe Anzahl deutscher Mehrwortausdrücke (hier nicht im Sinne von Sprichwörtern, sondern technisch im Sinne von Tokenfolgen aus mehr als einem Token verstanden). Nur 4 Instanzen kommen vor, in denen ein litauisches Phrasem in Gänze als ein Wort ins Deutsche übertragen wurde und tatsächlich sind auch die Instanzen wenige, wo mehrere litauische Token durch mehrere deutsche übertragen wurden, nämlich ganze 3. Das liegt u.a. natürlich auch an der Übersetzungsrichtung und der auf sie ausgerichteten Alignierung, die eben beim litauischen so fein wie möglich nach Übersetzungsäquivalenten sucht, nicht aber im Deutschen, da dies auch wenig sinnvoll wäre.

Wer dem CorDon Projekt gerne helfen und selber einige der Texte alignieren möchte, findet die Richtlinien hier und die unalignierten Texte hier.


;