Apie MorfoLema
MorfoLema demonstruoja kompiuterinę technologiją, kurios pagalba galima automatiškai atpažinti gramatines lietuviškų žodžių formas, jas nusakyti gramatinių kategorijų ir požymių reikšmėmis ir pagal užduodamas gramatines reikšmes padaryti naujas žodžių formas, t.y. kaityti (linksniuoti, asmenuoti) žodžius.
Šią technologiją galima įdiegti į kompiuterines sistemas, kuriose reikalingas lietuviškų žodžių formų automatiškas gramatinis atpažinimas ir/ar generavimas. Tokių sistemų taikomasis spektras yra platus: tai kompiuterinio vertimo sistemos, dialoginės sistemos, įgalinančios bendravimą su kompiuteriais natūralia kalba, kalbų mokymo sistemos, garsinės kalbos kompiuterinio atpažinimo ir generavimo sistemos ir pan.
2. Kaip "žaidžiama" su MorfoLema
Programa paima iš ekrano vartotojo įvedamas žodžių formas ir atspausdina ekrane tų formų automatiškos gramatinės analizės rezultatus, po to pagal vartotojo ekrane nurodomus kaitybinius gramatinius kriterijus iš tų žodžių formų padaro naujas. žodžių formų analizės metu iškilusios homonimiškumo problemos sprendžiamos, siūlant vartotojui pasirinkti vieną iš išvardijamų homoniminių variantų.
Lietuviškų žodžių formų automatinei gramatinei analizei ir sintezei programa naudoja modifikuotą "Two-level morphology" metodą (Kimmo Koskenniemi. Two-level morphology: a general computational model for word-form recognition and production. Publication No. 11. Helsinki: University of Helsinki Department of General Linguistics, 1983).
Šiuo metu MorfoLema leksinę bazę sudaro apie 130 tūkstančių žodžių šaknų.
Žodžių šaknų sąrašas sukurtas 1972 m. laidos Dabartinės lietuvių kalbos žodyno ir 1985 m. laidos Tarptautinių žodžių žodyno pagrindu, iš šių žodynų vienas leksemas išmetus, kitomis papildžius, iš gauto sąrašo leksemų išskyrus šaknis ir suklasifikavus jas pagal morfologinius tipus.
Kiekvienai šakniai yra priskirta po tam tikrą rodyklę, nusakančią įėjimo į skaitmeninius lietuvių kalbos morfologijos modelius taškus.
Programa atpažįsta (t.y. gali apibūdinti gramatiškai ir / ar sugeneruoti) kelis milijardus skirtingų lietuviškų žodžių formų. čia skirtingomis laikomos ir ortografiškai vienodos, bet turinčios skirtingą gramatinę reikšmę formos - pvz., žodžio forma mes gali reikšti ir įvardį (aš daugiskaitą), ir veiksmažodį (žodžio mesti būsimąjį laiką). Tikslesni programos galimybių rodikliai (atpažįstamų/sintezuojamų formų kiekis, formų analizės/sintezės greitis) bus nurodyti vėliau, sukūrus atitinkamą programinę įrangą ir atlikus tyrimus.
5. Skaitmeninių morfologijos modelių ypatumai
"Žaidžiant" su programa, gali tekti susidurti su neįprastomis tradicinės gramatikos požiūriu kai kurių morfologinių reiškinių aspektų traktuotėmis, sąlygojamomis skaitmeninių morfologijos modelių ypatumų.
Išvestinių veiksmažodžių su -telti, -terti, -telėti, -terėti atpažinimo ir kaitymo ypatumai
Į kompiuterinę žinių apie lietuvių kalbos leksiką bazę, kurią naudoja programa, įrašytos suklasifikuotos pagal morfologinius tipus žodžių šaknys. Dauguma veiksmažodinių ir ištiktukų šaknų suklasifikuotos taip, kad iš jų padaromi leksiniai vienetai gali turėti vedinius su priesagomis -tel-, -telė-. Skaitmeniniai morfologijos modeliai sudaryti taip, kad kompiuteris gramatiškai atpažintų kuo daugiau teoriškai įmanomų žodžių formų; juose nėra informacijos apie tai, kurios kaitybinės ar darybinės žodžių formos dažnesnės, kurios retesnės. Todėl šiuose modeliuose laikoma, kad jei su šaknimi galimi dariniai su -telti, tai galimi ir visi teoriškai įmanomi panašūs variantai: -telti (-ia, -ėjo), -telti (-i, -ėjo), -telėti (-ėja, -ėjo), -terti (-ia, -ėjo), -terti (-i, -ėjo), -terėti (-ėja, -ėjo). 1 lentelėje pavaizduotas tokios darybos sistemos taikymo fragmentas (bendratis, esamojo ir būtojo laikų vienaskaita) šakniai bėg-.
1 lentelė. Išvestinių veiksmažodžių su -tel-, -telė-, -ter-, -terė- kaitybos sistemos, priimtos skaitmeniniame morfologijos modelyje, fragmentas (bendratis, esamojo ir būtojo laikų vienaskaita): pavyzdys su žodžio bėgti šaknimi
|
Asmenavimo paradigmos (pagrindinės formos) | ||||||
|
su -tel- |
su -telė- |
su -ter- |
su -terė- | |||
| -tel- + -ti -tel- + -ia -tel- + -ėjo |
-tel- + -ti -tel- + -i -tel- + -ėjo |
-telė- + -ti -telė- + -ja -telė- + -jo |
-ter- + -ti -ter- + -ia -ter- + -ėjo |
-ter- + -ti -ter- + -I -ter- + -ėjo |
-terė- + -ti -terė- + -ja -terė- + -jo | |
|
| ||||||
|
|
|
|
| |||
|
| ||||||
|
|
|
|
|
| ||
|
|
|
|
|
| ||
|
|
|
|
|
|
|
|
|
| ||||||
|
|
|
| ||||
|
|
|
| ||||
|
|
|
| ||||
Programa, apdorodama darinius su -tel, -ter, -telė, -terė, operuoja visais galimais jų variantais. Todėl, pavyzdžiui, formuluojant sintezuojamos tiesioginės nuosakos formos laiką, programa siūlys pasirinkti ne vieną iš keturių laikų (es., būt.k., būt.d., būs.), o vieną iš 16-kos: 6-is variantus esamojo laiko (žiūr. 1 lent. es. laiko paskutinę eil.), 2 variantus būt. kartinio (žiūr. 1 lent. paskutinę eil.), 4 - būt. dažninio ir 4 - būsimojo.
Dėl tos pačios priežasties, t.y. dėl čia aptartų skaitmeninių morfologijos modelių ypatumų, nepriklausomai nuo to, kokį formantą (-tel-, -telė-, -ter-, ar -terė-) turėjo apdorojama žodžio forma, visoms tokioms žodžių formoms automatiškai nustatomos antraštinės formos turės pavidalą -telti (-telia, -telėjo).
Tariamosios nuosakos formų atpažinimo ypatumai
Tiek sangrąžinių, tiek nesangrąžinių tariamosios nuosakos veiksmažodžių vienodai dažnai vartojami tiek trumpesnieji formų variantai, tiek ilgesnieji. 2 lentelėje veiksmažodžio sukti (suktis) pavyzdžiu pavaizduota, kurios formos turi po du variantus.
2 lentelė. Sudvigubintos tariamosios nuosakos formos skaitmeninėje morfologijoje
|
|
| ||||
|
|
|
|
| ||
|
|
|
|
|
| |
|
|
|
|
|
|
|
|
|
|
|
|
| |
Dėl tokio formų sudvigubinimo apibūdinant, pavyzdžiui, sintezuojamos tariamosios nuosakos daugiskaitos asmenį, programa siūlys pasirinkti ne vieną iš trijų asmenų (I, II, III), o vieną iš 5-ių (I, I, II, II, III).
Skaitvardžių kaitymo ypatumai.
Skaitmeninio morfologijos modelio ypatumai lemia, kad skaitvardinėms formoms nustatoma antraštinė forma visada turės kiekinės formos pavidalą. Pavyzdžiui, analizuojant formą keturioliktame, antraštinė forma bus keturiolika (ne keturioliktas); analizuojant pirmojo, antraštinė forma bus vienas (ne pirmasis ir ne pirmas).
Liepiamosios nuosakos formų su prefiksu te atpažinimo ypatumai
Tokių formų programos skaitmeninis morfologijos modelis neatpažįsta kaip liepiamosios nuosakos. Pvz., formai tegyvuoja bus nustatyta tik esamojo laiko reikšmė iš tegyvuoti.
Fleksiškai nekaitomų vardažodžių gramatinių formų atpažinimo ypatumai
Fleksiškai nekaitomi iš kitų kalbų atėję būdvardžiai ir daiktavardžiai kompiuterinės morfologijos yra traktuojami kaip "normalūs" vardažodžiai. Todėl laikoma, kad jie gali įgyti įvairias skaičiaus, linksnio (būdvardžiai dar ir giminės) reikšmes, tik tas reikšmes atspindinčios ortografinės žodžio formų išraiškos visos yra vienodos. Todėl, pvz., analizuojant daiktavardžio formą taksi, bus pateikta keturiolika hipotetinių gramatinių reikšmių (septyni vienaskaitos linksniai nuo V iki š ir septyni daugiskaitos); o, pvz., būdvardžio bordo formai dar daugiau - 28 reikšmės (7 linksniai vyr. gim. vienaskaitos, 7-yni vyr. gim. daugiskaitos ir atitinkamai 14 moteriškosios giminės gramatinių reikšmių).
Kiti gramatinių formų atpažinimo ir padarymo ribotumai
Šiuo metu programa atpažįsta ir sintezuoja tik pilnas, nenutrumpėjusias galūnes turinčias formas: analizuojant pievoje, problemų nekils, o formos pievoj programa neatpažins.
Klausimai ir komentarai - prašom kreiptis į Vytautą Zinkevičių.