Leksikone pagal antraštinį žodį (lemą) suregistruoti Donelaičio tekstų žodžiai. Leksikonas sudarytas konkordancijos principu.
Pirmiausia pateikiama informacija apie lemą (tamsiai pilkame fone) – jos kalbos dalį (gramatinę klasę), kirčiuotę, inherentines lemos kategorijas (pavyzdžiui, kaitybos klasę ir giminėmis nekaitomų klasių giminę) ir pasitaikančias lemos reikšmes konkrečiame kontekste (lemos glosą). Pavyzdžiui, lema taip (kuri gali būti prieveiksmis, dalelytė arba jungtukas), Donelaičio tekstuose vartojama reikšmėmis 'taip', 'taip pat', 'tiek', 'taigi, todėl', 'labai, daug', 'taip (kaip)'. Be to, prie kiekvienos lemos pateikiama nuoroda į LKŽ bei 10 kaimyninių lemų Donelaičio kontekste (žodžių vektoriuje).
Toliau po informacijos apie lemą pateikiamos tekstuose pasitaikančios konkrečios formos taip, kaip jos yra pagrindiniame anotuojamame tekste. Pavyzdžiui, lema „taip“ pasitaiko trejopai: „taip“, „taìp“ ir „tâip“. Prie kiekvienos formos nurodomas skaičius, kiek kartų ji pavartota, ir eilučių, kuriose ta forma pavartota, identifikacijos numeriai (ID): teksto dalies santrumpa_šaltinio lapas ar puslapis_eilutės numeris šaltinio lape ar puslapyje(tęstinis teksto dalies eilutės numeris). Spustelėjus ID, atsidaro Skaityklė su anotacija. Be to, leksikone pateikiama formos transliteracija, forma dabartine rašyba, formos kalbos dalis, formos morfologija bei fleksija ir 10 kaimyninių formų Donelaičio kontekste (žodžių vektoriuje).
Informacija apie lemas ir formas sugeneruota iš tekstų anotacijos. Papildoma informacija apie lemų ir formų vektorinius intervalus ir 10 kaimyninių lemų bei formų sugeneruota įrankiu word2vec Tool (Mikolov 2013) . Kaimyniniai vienetai paprastai turi paradigminių, sintagminių ir/ar metrinių panašumų su pagrindiniu žodžiu.
Visų korpuso tekstų santrumpų (siglų) sąrašą rasite čia .