CorDon - Apie leksikoną

Startas Tekstai Paieška Leksikonas Lygiagretinimas Nuorodos Sklaida Vizu

Anglų kalba

Lietuvių kalba

|

Vokiečių kalba

|

Leksikonas

Leksikone pagal antraštinį žodį (lemą) suregistruoti Donelaičio tekstų žodžiai. Leksikonas sudarytas konkordancijos principu.

Pirmiausia pateikiama informacija apie lemą (tamsiai pilkame fone) – jos kalbos dalį (gramatinę klasę), kirčiuotę, inherentines lemos kategorijas (pavyzdžiui, kaitybos klasę ir giminėmis nekaitomų klasių giminę) ir pasitaikančias lemos reikšmes konkrečiame kontekste (lemos glosą). Pavyzdžiui, lema taip (kuri gali būti prieveiksmis, dalelytė arba jungtukas), Donelaičio tekstuose vartojama reikšmėmis 'taip', 'taip pat', 'tiek', 'taigi, todėl', 'labai, daug', 'taip (kaip)'. Be to, prie kiekvienos lemos pateikiama nuoroda į LKŽ bei 10 kaimyninių lemų Donelaičio kontekste (žodžių vektoriuje).

Toliau po informacijos apie lemą pateikiamos tekstuose pasitaikančios konkrečios formos taip, kaip jos yra pagrindiniame anotuojamame tekste. Pavyzdžiui, lema „taip“ pasitaiko trejopai: „taip“, „taìp“ ir „tâip“. Prie kiekvienos formos nurodomas skaičius, kiek kartų ji pavartota, ir eilučių, kuriose ta forma pavartota, identifikacijos numeriai (ID): teksto dalies santrumpa_šaltinio lapas ar puslapis_eilutės numeris šaltinio lape ar puslapyje(tęstinis teksto dalies eilutės numeris). Spustelėjus ID, atsidaro Skaityklė su anotacija. Be to, leksikone pateikiama formos transliteracija, forma dabartine rašyba, formos kalbos dalis, formos morfologija bei fleksija ir 10 kaimyninių formų Donelaičio kontekste (žodžių vektoriuje).

Informacija apie lemas ir formas sugeneruota iš tekstų anotacijos. Papildoma informacija apie lemų ir formų vektorinius intervalus ir 10 kaimyninių lemų bei formų sugeneruota įrankiu word2vec Tool (Mikolov 2013) . Kaimyniniai vienetai paprastai turi paradigminių, sintagminių ir/ar metrinių panašumų su pagrindiniu žodžiu.

Visų korpuso tekstų santrumpų (siglų) sąrašą rasite čia .

Grafinis raktinių žodžių pateikimas pagal pirmą raidę - P yra daugiausia

Apie Donelaitį

Apie tekstus

Apie anotaciją

Apie skaityklę

Apie paiešką

Apie leksikoną

Apie lygiagretinimą

Šiame tinklalapyje skelbiami duomenys parengti, apdoroti ir suskaitmeninti Fritz Thyssen fondo finansuojamo projekto Altlitauisch Digital: Corpus des Kristijonas Donelaitis (1714–1780) metu. Dalis duomenų, ypač anotacijos, perimti iš projekto SLIEKKAS.

Jeigu remiatės šio tinklalapio medžiaga, prašome tai daryti su šaltinio nuoroda:

CorDon 2020 – Jolanta Gelumbeckaitė, Armin Hoenen (board), Mortimer Drach (annotator), Philipp Büch (programmer), Altlitauisch Digital: Corpus des Kristijonas Donelaitis (1714–1780). Fritz Thyssen
Retrieved from https://titus.fkidg1.uni-frankfurt.de/cordon/start.html


		finansavo

;