Startas Tekstai Paieška Leksikonas Lygiagretinimas Nuorodos Sklaida Vizu

Lygiagretinimas

Bandomasis Pavasario linksmybių teksto lygiagretinimas su Georgo H. F. Nesselmanno vertimu į vokiečių kalbą (1869) atliktas laikantis lygiagretinimo taisyklių. Rezultatai pateikiami kaip lygiagretinimo žodynas, kuriame lietuviškos lemos susietos su jų atitikmenimis vokiškame vertime. Lygiagretinimo žodynas savo ruožtu susietas ir su leksikonu. Vokiško teksto lingvistinė anotacija nebuvo šio projekto tikslas, todėl dabar dar negalima atlikti gretinamosios morfologinės analizės (pvz., ieškant atsakymo į klausimą, kokias kalbos dalis vokiškame vertime atitinka Donelaičio daiktavardžiai). Nors vokiškas tekstas buvo apdorotas moderniomis automatinėmis tekstų rengyklėmis, paties teksto specifika (žanras, tipas, sukūrimo laikas) lemia tai, kad rezultatai dar turi būti patikrinti rankiniu būdu. „Out-of-vocabulary“ žodžių aproksimacijai naudojome MarMot, RNNTagger, TreeTagger. TreeTagger rado 415 nežinomų vokiškų leksemų (iš maždaug 6300 leksemų, kurias nustatė TreeTagger). Turint omeny, kad ieškota tik Pavasaro linksmybių tekste, šis skaičius nėra didelis, tačiau jis padeda susidaryti vaizdą, kiek būtų automatiškai neatpažintų leksemų visame Donelaičio tekstyne. Lygiagretinimo žodyno puslapyje (iškart po abėcėle) galima pasirinkti du rezultatų vizualizavimo būdus (į užklausos langelį tereikia įvesti norimą Pavasario linksmybių eilutės numerį): vieną kaip matricą su spalvotais laukeliais, o antrą kaip paralelias teksto vertikales su atitikmenis jungiančiomis linijomis. Abu vizualizavimo būdai žinomi ir naudojami mašininio vertimo moksle.

Pavasario linksmybių statistika. Toliau pateikiami skaičiai yra suapvalinti. Leksemų santykis: 4300 lietuviško teksto leksemų išversta 6400 vokiškų leksemų; gali būti, kad tokį skirtumą lėmė siekis vokiškame vertime išlaikyti metriką (hegzametrą). Lemų santykis: pirminiai RNNTagger skaičiavimai (galimà paklaida) parodė, kad 1400 lietuviškų lemų buvo išversta 2000 vokiškų lemų; iš dalies tai lemia gramatiniai abiejų kalbų skirtumai. Žodžių formų santykis: 2000 lietuviškų žodžių formų atitinka 2700 žodžių formų vokiškame vertime. Santykis žodžio forma / lema tarp lietuviško ir vokiško teksto yra 3:3, taigi beveik identiškas. Lietuviškame tekste yra 63 daugiažodės leksemos (žodžių junginiai, pagal lygiagretinimo taisykles žymėti „y“), iš kurių 56 frazemos. Vokiškame vertime yra 1535 daugiažodės leksemos. Žinoma, toks skirtumas gali reikšti, kad vokiškame vertime yra daugiau aiškinamųjų aprašymų. Tačiau jį lėmė ir tai, kad vokiečių kalboje vartojami artikeliai, kurie lygiagretinant buvo žymimi kaip junginiai su daiktavardžiais.

47 atvejais viena lietuviško teksto leksema atitinka kelias vokiško teksto leksemas, išsidėsčiusias skirtingose eilutėse (enjambement). 750 vokiško teksto vienetų (iš jų 261 kablelis) neturi atitikmens lietuviškame originale (gali būti, kad tai lėmė dar neįsisavinta lygiagretinimo procedūra). 384 lietuviško teksto vienetai (iš jų 110 kablelių) neturi atitikmenų vokiškame vertime. Taigi ir šiuo atveju vokiško teksto vienetų yra daugiau negu lietuviško. Vis dėlto didžioji dauguma atvejų yra 1:1 atitikmenys (vienas lietuviško teksto vienetas atitinkta vieną vokiško vertimo vienetą), pvz., 2700 lygiagretinimo atvejų apima funkcinius žodžius. 1500 atvejų lietuviško teksto funkciniai žodžiai atitinka daugiau negu vieną žodį vokiškame vertime. Tai gali paaiškinti tokį didelį daugiažodžių leksemų skaičių vokiškame tekste (turimi omeny ne frazeologizmai, o žodžių junginiai, kuriuos sudaro daugiau negu viena leksema).

Tik 4 atvejais lietuviškas frazeologizmas į vokiečių kalbą išverstas vienu žodžiu. Tik 3 atvejais lietuviška daugiažodė leksema atitinka vokišką daugiažodę leksemą. Bent iš dalies tai priklauso nuo vertimo ir lygiagretinimo krypties: buvo ieškoma kuo tikslesnių atitikmenų lietuviškam originalui.

Jeigu norėtumėte prisidėti prie CorDon projekto ir pačios/patys lygiagretinti Donelaičio tekstus su vokiškais vertimais, lygiagretinimo taisykles rasite čia, o dar nesulygiagretintus tekstus čia.


;