Die Annotation
Alle Texte des Corpus sind lexikalisch und morphosyntaktisch annotiert. Die lexikalische Annotation besteht aus den folgenden Schichten:
- Transliteration – Transliteration der Wortform ins moderne litauische Alphabet (Ebene „\sf“ in Toolbox)
- modernisierte Form – Neulitauische Entsprechung der Form („\nf“),
- Lemma – Grundform („\lm“),
- akzentuiertes Lemma – („\lma“),
- Sprache – („\lg“),
- Glosse des Lemmas (lt.) – Litauische Glossierung der Wortbedeutung im Kontext („\glL“).
Die grammatische Annotation besteht aus den folgenden Schichten:
- Wortart Lemma – Wortart des Lemmas als Hauptwortart (Ebene „\psL“ in Toolbox),
- Wortart Form – Wortart der konkreten Form im Text anhand ihrer Funktion („\psF“),
- Morphologie – Lemma – Dem Lemma inhärente Kategorien, z.B. Flexionsklasse, Genus („\pdL“),
- Morphologie – Form – Spezifizierung der inhärenten Kategorien anhand der konkreten Form im Text („\pdF“),
- Flektion – Veränderliche flexionsmorphologische Charakteristika der konkreten Form im Text („\pdlF“). Gibt Endungen der Form an, wenn sie dialektale oder ortographische Besonderheiten zeigen.
Die einzelnen Annotationsebenen können über die Kopfleiste der Leseansicht und Suche ein- und ausgeblendet werden. Das für die morphosyntaktische und lexikalische Annotation verwendete Tagset ist hier aufgeschlüsselt.