Priedas A

A.1. Įvadas    

A.2. Papildomi reikalavimai sintezėje naudojamam kirčiavimo algoritmui

A.3. Kaip kirčiuojama kitose kalbose          

A.4. Atskirų kalbos dalių kirčiavimas remiantis zodynu     

A.4.1. Daiktavardzių ir būdvardžių kirčiavimas remiantis zodynu

A.4.1.1. Skaidymas į dalis      

A.4.1.2. Kaitymas       

A.4.1.3. Kamieno tipai

A.4.1.4. Kirčiuotės      

A.4.1.5. Informacija apie kamienus     

A.4.1.6. “D” ir “t” asimiliacija daiktavardzių ir būdvardžių kamienų galuose       

A.4.1.7. Informacija apie galūnes        

A.4.1.8. Kitų gramatinių formų bei kalbos dalių kirčiavimas       

A.4.1.9. Bendras daiktavardzių ir būdvardžių kirčiavimo algoritmas       

A.4.2. Veiksmazodzių kirčiavimas remiantis žodynu  

A.4.2.1. Asmenuotės   

A.4.2.2. Kirčiavimo taisyklės

A.4.2.3. Kamiengalių asimiliacijos taisyklės    

A.4.2.4. Priešdėliai     

A.4.2.5. Galūnės

A.4.2.6. Kamienai

A.4.2.7. Bendras veiksmazodzių kirčiavimo algoritmas 

A.4.3. Nekaitomų žodių kirčiavimas

A.5. Eksperimentų rezultatai ir tolimesnių darbų kryptys

Literatūra 

PRIEDAS A (REMIANTIS P. KASPARAIČIO PATEIKTA MEDŽIAGA)

Lietuvių kalbos automatinis kirčiavimas remiantis žodynu

A.1. Įvadas

Viena iš naujų kompiuterinės technikos taikymo sričių yra lietuvių kalbos sintezė pagal tekstą, t.y. kyla noras išmokyti kompiuterį balsu perskaityti jam pateiktą lietuvišką tekstą. Kalbos sintezę galima išskaidyti į keletą etapų: automatinis teksto kirčiavimas, teksto transkribavimas, kalbos signalo formavimas ir išvedimas į garsiakalbį. Šiame darbe bus nagrinėjama automatinio lietuvių kalbos teksto kirčiavimo kompiuteriu problema, t.y. kaip kompiuteriui nustatyti, kuri žodžio raidė kirčiuota ir kokiu kirčio ženklu.

Daugelyje lietuvių kalbos gramatikų yra pateiktos kirčiavimo taisyklės, tačiau čia operuojama sąvokomis, kurias visiškai neaišku, kaip reikėtų pateikti kompiuteriui, kad jis pagal jas galėtų patikrinti, ar žodis tenkina taisyklę, ar ne. Pvz., “Dabartinės lietuvių kalbos gramatikoje” (V. Ambrazas, K. Garšva, A. Girdenis … [et al.] (1996)) yra atskirai pateiktos daiktavardžių kirčiavimo taisyklės, tačiau daiktavardis (60 psl.) apibrėžiamas kaip ”savarankiška kalbos dalis kurią sudaro žodžiai, žymintys daiktų, reiškinių, veiksmų ir ypatybių pavadinimus ir turintys savarankiškas giminės, skaičiaus ir linksnio kategorijas”. Vargu ar bent vieną iš čia pavartotų sąvokų galima būtų lengvai formalizuotai pateikti kompiuteriui, kad kompiuteris galėtų patikrinti, ar duotas žodis yra daiktavardis. Taigi, kaip kompiuteriui atskirti, kad tarp žodžių peras, geras, neras vienas yra daiktavardis, kitas – būdvardis, o trečias – veiksmažodis.

Bene akivaizdžiausias būdas, kurį galėtų panaudoti kompiuteris žodžiams kirčiuoti, tai saugoti tam tikrą žodžių sąrašą ir, norint sukirčiuoti žodį, rasti jį žodyne ir iš žodyno paimti kartu su žodžiu saugomą kirčiavimui reikalingą informaciją. Taigi, žodyne turėtų būti saugoma: 1) žodis (žodžio tekstinis pavidalas), 2) kirčio vieta (kirčiuotas skiemuo ar kirčiuota raidė), 3) kirčio tipas ar priegaidė.

Pastaba. Šiame darbe visur patogiau traktuoti, kad yra trijų tipų kirčiai (trumpas, ilgas tvirtapradis ir ilgas tvirtapradis), o ne dviem etapais iš pradžių skaidyti į trumpus ir ilgus, o po to ilguosius į tvirtapradžius ir tvirtagalius.

Kai kuriems žodžiams minėtas metodas visai tinka, pvz., žodžiams “foje”, “Bordo”, “kodėl”, t.y. žodžiams, kurie nekaitomi ir iš jų nedaromi nauji žodžiai. Tačiau dauguma žodžių kaip tik yra kaitomi ir naudojami naujiems žodžiams sudaryti. Taigi, saugant žodyne pilnas žodžių formas gali iškilti tokios problemos: 1) žodynas užims pernelyg daug vietos kompiuterio atmintyje, 2) paieška dideliame žodyne užtruks pernelyg ilgai, 3) žodyno sudarymas pareikalaus pernelyg daug žmogaus darbo laiko, 4) gali atsirasti nauji žodžiai, kurių visų negalima numatyti iš anksto.

Pabandykime apytiksliai įvertinti žodyno apimtį. DLKŽ [ 2 ] pateikta apie 50000 žodžių lizdų, TŽŽ [ 3 ] 21159 žodžiai, taigi, iš viso apie 70000. Dar būtų galima pridėti pavardžių žodyną, vietovardžių žodyną. Pats ilgiausias lietuvių kalbos žodis “nebeprisikiškiakopūsteliaudavome” turi 31 raidę. Taigi, jei žodžiai būtų nekaitomi, tai žodyne turėtų būti apie 70000 žodžių, ir žodynas užimtų iki 2,17 MB. Tokio dydžio žodynas tilptų į šiuolaikinio kompiuterio atmintį ir jį būtų galima sudaryti per realų laiką.

Tačiau panagrinėkime, pvz., žodį “nešti”. Šio žodžio visi pagrindiniai kamienai sutampa (apie pagrindinius kamienus žr.skyrelį “Asmenuotės”) ir yra “neš”. Prie šio kamieno gali būti pridedamos: tiesioginės nuosakos esamojo laiko 15 galūnių, būtojo kartinio laiko 15 galūnių, būtojo dažninio laiko 15 galūnių, būsimojo laiko 14 galūnių, liepiamosios nuosakos 10 galūnių, tariamosios nuosakos 20 galūnių, esamojo laiko veikiamojo dalyvio 60 galūnių, būtojo kartinio laiko veikiamojo dalyvio 60 galūnių, būtojo dažninio laiko veikiamojo dalyvio 32 galūnės, būsimojo laiko veikiamojo dalyvio 62 galūnės, esamojo laiko neveikiamojo dalyvio 58 galūnės, būtojo laiko neveikiamojo dalyvio 58 galūnės, būsimojo laiko neveikiamojo dalyvio 58 galūnės, reikiamybės dalyvio 57 galūnės, padalyvio 8 galūnės, pusdalyvio 8 galūnės, būdinio 2 galūnės, bendraties 2 galūnės, prieveiksmio 4 galūnės. Iš viso 558. Be to prie šios šaknies galima pridėti 14 priešdėlių, kurie kartu su dalelytėmis “ne”, “nebe”, “tebe” sudaro 61 kombinaciją. Be to, prie 488 variantų su nesangrąžinėmis galūnėmis galima pridėti dar 53 jau minėtų priešdėlių ir dalelytės “si” kombinacijas. Iš viso 558*61+488*53=63902. Taigi, iš vienos šaknies, pridedant galūnes ir priešdėlius, galima padaryti daugybę žodžių, jau nekalbant apie tai, kad dar galima pridėti priesagas, pvz., “nešioti”, “nešinėti”, ir taip žodžių skaičių dar 3 kartus padidinti. Akivaizdu, kad tokio kiekio žodžių nėra prasmės saugoti, o tokios apimties žodyno suvedimas į kompiuterį užimtų pernelyg daug laiko. Kompiuterinės programos, sugeneruojančios visų sukirčiuotų žodžio formų žodyną, sukūrimas yra tokio pat sudėtingumo uždavinys, kaip automatinis kirčiavimas sintezavimo metu.

Keletas žodžių apie visų galimų žodžio formų numatymą. Egzistuoja tam tikros grupės žodžių, turinčių vienodus priešdėlius, galūnes ar panašiai, ir visi šiai grupei priklausantys žodžiai kirčiuojami vienodai (arba su negausiomis išimtimis). Gali atsirasti nauji grupei priklausantys žodžiai. Pvz., daugelis mokslo šakų pavadinimų baigiasi galūne “logija”. Gali atsirasti naujos mokslo šakos, kurių pavadinimai taip pat priklausys šiai grupei.

Taigi, neverta saugoti kompiuterio atmintyje pilnų visų žodžio formų, tačiau saugoti žodžio dalis, pvz., priešdėlius, šaknis, galūnes, kartu su žodžių sudarymui ir kirčiavimui reikalinga informacija. Toliau bus kalbama, kokia tai turėtų būti informacija ir kaip ją reikėtų saugoti. Bet pirmiausia apie papildomus reikalavimus kalbos sintezei naudojamam kirčiavimo algoritmui.

A.2. Papildomi reikalavimai sintezėje naudojamam kirčiavimo algoritmui

Šiame darbe apsiribojama tik atskirų žodžių kirčiavimu, t.y. nebus naudojamasi jokia gretimuose žodžiuose esančia informacija. Pvz., žodžių junginiuose “žmonių galvos” ir “žmonės galvos” pagal žodžio “žmonės” galūnę galima atpažinti, kad pirmuoju atveju turime veiksmažodžio “galvoti” būsimąjį laiką, o antruoju – daiktavardžio “galva” daugiskaitos vardininką ir šie žodžiai kirčiuojami skirtingai. Deja lig šiol nėra atlikta pakankamai išsamių tyrimų, kaip sakinio struktūrą galima būtų panaudoti automatiniam kirčiavimui.

1 reikalavimas. Kirčiavimo algoritme turi būti numatyta galimybė, atsiradus papildomai informacijai apie žodžio kirčiavimą priklausomai nuo konteksto, tokią informaciją nesunkiai įjungti.

2 reikalavimas. Jei žodžio negalima sukirčiuoti vienareikšmiškai ir jei keleto kirčiavimo variantų tikimybės maždaug vienodos (pvz., “kalvo~s” ir “kal~vos”), geriau palikti žodį nekirčiuotą, nei sukirčiuoti neteisingai. Sintezuotą kalbą klausantis žmogus kartais net nepastebi, kad kai kurie žodžiai buvo nekirčiuoti ir pats mintyse susikirčiuoja, tačiau visada užkliūva neteisingai kirčiuojami žodžiai. Kirčiuoti verta tik tuo atveju, jei vienas kirčiavimo variantas statistiškai sutinkamas žymiai dažniau nei kitas, pvz., vienaskaitos vietininkas “name`” naudojamas dažniau nei šauksmininkas “na~me”.

Kai kuriais atvejais kirčiuojant skiemenį, kurio pagrindą sudaro balsis ar dvibalsiai “ie”, “uo”, tvirtagale ir tvirtaprade priegaide kirčiuojami žodžiai skamba labai panašiai. Pvz., “li‘epų” ir “Lie~pų” (pavardė “Liepus”). Tokiu atveju taip pat galima pasirinkti vieną iš kirčiavimo variantų.

3 reikalavimas. Kirčiavimo algoritmas turėtų apimti kiek įmanoma visus lietuvių kalboje vartojamus žodžius, įskaitant vietovardžius, pavardes, tarptautinius žodžius, net jei pastarieji pasižymi kokiomis nors lietuvių kalbai nebūdingomis savybėmis.

4 reikalavimas. Jei kokio nors žodžio kirčiavimas nėra nusistovėjęs, t.y. jį galima kirčiuoti keliais būdais, pvz., “deguo~nis” ir “deguoni`s” (Ambrazas, V., K. Garšva, A. Girdenis … [et al.] (1996) 80 psl.), tai tokiam žodžiui kirčiuoti pasirenkamas tik vienas būdas ir visada kirčiuojama tik šiuo būdu. Pasirenkamas tas variantas, kuris geriau tinka prie bendros taisyklės. Visai nebūtina numatyti galimybės kirčiuoti keliais būdais.

Siekiant patenkinti pirmą ir antrą reikalavimus, kirčiavimą išskaidžiau į du etapus:

1. Bandoma atpažinti, su kokių žodžių kiomis gramatinėmis formomis sutampa nagrinėjamas žodis. Pvz., žodis “galvos” gali būti: a) daiktavardžio “galva” vienaskaitos kilmininkas, b) daiktavardžio “galva” daugiskaitos vardininkas, c) veiksmažodžio “galvoti” būsimasis laikas. Kiekviena atpažinta gramatinė forma sukirčiuojama. Šiame etape joks sprendimas apie galutinį žodžio kirčiavimą nepriimamas.

2. Gautame sąraše tikrinama, ar visos gramatinės formos kirčiuojamos vienodai. (Pvz., daiktavardis “pi‘eva” turi vienodus ir vienodai kirčiuojamus tiek vienaskaitos vardininką, tiek įnagininką, tiek šauksmininką.) Jei taip, žodis kirčiuojamas, jei ne, šioje vietoje galima būtų pasinaudoti sintaksine informacija gramatinei žodžio formai atrinkti, tačiau jei tokios informacijos nėra, atmetamos statistiškai retai vartojamos formos, pvz., daiktavardžių šauksmininko linksniai. Čia galima būtų pasinaudoti ir kitokiais kriterijais, pvz., tam tikrų priegaidžių statistiniu dažniu tam tikruose skiemenyse, tam tikrų skiemenų kirčiavimo dažniu ir pan. Jei lieka tik vienodą kirčiavimą turinčios formos – kirčiuojame, jei ne – tikriname, gal jos kirčiuojamos panašiai. Jei ir šis atvejis netinka – žodis paliekamas nekirčiuotas.

Kirčiavimo išskaidymas į du etapus patogus dar ir tuo, kad kiekvienam žodžiui iš anksto sunku numatyti visas gramatines formas, pvz., sutampa daugelio moteriškos giminės daiktavardžių vienaskaitos kilmininko ir daugiskaitos vardininko linksniai, tačiau žodžiui “galva” jie dar sutampa ir su veiksmažodžio “galvoti” būsimuoju laiku. Be to tai leidžia skirtingoms kalbos dalims taikyti visai skirtingus kirčiavimo algoritmus, t.y. nagrinėjamą žodį bandyti sukirčiuoti kaip daiktavardį, būdvardį, veiksmažodį ar kitą kalbos dalį, o po to iš visų gautų rezultatų išrinkti vieną.

A.3. Kaip kirčiuojama kitose kalbose

Dauguma kalbų turi fiksuotą kirtį (Girdenis, A. (1995)), t.y. kirčio vietą galima nusakyti griežtomis taisyklėmis. Dažniausiai tai būna visai paprasti teiginiai, nurodą kirčio nutolimą nuo žodžio pradžios ar pabaigos. Pagal nuotolį skiriami trys fiksuoto kirčio modeliai:

1.      pastoviai kirčiuojamas pirmasis žodžio skiemuo. Šią sistemą turi latvių, čekų, slovakų, islandų, estų, suomių, vengrų kalbos;

2.      astoviai kirčiuojamas paskutinis skiemuo. Šios rūšies kirčiavimas būdingas daugumai tiurkų kalbų, taip pat persų (ir tadžikų) kalbai. Panašiai kirčiuojama ir prancūzų kalboje, tik kirtį gauna ne žodžiai, o tam tikros reikšminės jų grupės;

3.      pastoviai kirčiuojamas priešpaskutinis skiemuo. Priešpaskutinio skiemens kirtį turi, pavyzdžiui, lenkų kalba.

Galimi ir sudėtingesni fiksuoto kirčio modeliai, kai kirčio vieta priklauso ne tik nuo žodžio ribų, bet ir nuo balsių bei skiemenų kiekybės. Pavyzdžiui, mongolų kalboje kirtį gauna pirmas ilgas žodžio skiemuo, o kai visi žodžio skiemenys trumpi, pirmas skiemuo.

Fiksuotą kirtį turinčiose kalbose automatinis kirčiavimas nesukelia ypatingų problemų. Lietuvių kalba, kaip ir rusų, bulgarų, serbų-chorvatų, italų, ispanų, anglų, turi laisvą kirtį. Kai kuriose laisvą kirtį turinčiose kalbose daugelis vienodas galūnes turinčių žodžių kirčiuojami vienodai, pavyzdžiui, taip yra italų kalboje (Nebbia, L., (1990)), todėl kirčiavimui galima taikyti statistinius metodus. Kalbose, kuriose teksto transkribavimas yra sudėtingas, pavyzdžiui anglų ar vokiečių kalbose, paprastai kirčiavimas ir transkribavimas atliekami kartu naudojant vieną kirčiuotų ir transkribuotų žodžių ar žodžių dalių žodyną (Paulus, E. (1998)).

Lietuvių kalboje kirčiuoto teksto transkribavimas yra palyginti nesudėtingas uždavinys (Kasparaitis. P., (1999)), todėl geriau atskirti kirčiavimą nuo transkribavimo. Šiame darbe pateiktas vienas iš galimų modelių, kaip naudojantis žodynu, kaitymo bei kirčiavimo taisyklėmis automatiškai kirčiuoti lietuvišką tekstą.

A.4. Atskirų kalbos dalių kirčiavimas remiantis žodynu

Kaip buvo minėta anksčiau, bandymas sudaryti kompiuteryje visų lietuvių kalbos žodžių visų gramatinių formų žodyną kartu su kirčiavimui reikalinga informacija, yra neįgyvendinamas uždavinys. Šiame skyriuje pateiktas vienas iš būdų, kaip sukurti pagrindinių žodžio dalių duomenų bazę ir kaip remiantis šia informacija atpažinti įvairias žodžio gramatines formas ir jas kirčiuoti.

Įvairių žodžio gramatinių formų sudarymą pavadinkime kaitymu. Pagal kaitymo būdą visus lietuvių kalbos žodžius patogu suskirstyti į tokias tris grupes: 1) linksniuojamus (daiktavardžiai, būdvardžiai, kai kurie įvardžiai bei skaitvardžiai), 2) asmenuojamus (veiksmažodžiai, be to šiai grupei prikirtos ir neasmenuojamos veiksmažodžių formos, pvz., dalyviai) ir 3) nekaitomus. Toliau atskirai panagrinėkime kiekvieną iš šių grupių.

A.4.1. Daiktavardžių ir būdvardžių kirčiavimas remiantis žodynu

A.4.1.1. Skaidymas į dalis

Visus daiktavardžius ir būdvardžius galima skaidyti į dvi sudedamąsias dalis: kamieną ir galūnę. Daiktavardžio ar būdvardžio kaitymu laikysiu jo formų sudarymą prie kamieno pridedant galūnę. Šiame skyrelyje žodžių daryba naudojantis priešdėliais ir priesagomis nebus nagrinėjama. Priešdėliai ir darybos priesagos bus laikomi kamieno dalimi. Taigi, būdvardžiai su priešdėliais (pvz., “geras” ir “negeras”), daiktavardžiai su mažybinėmis priesagomis (pvz., “namas” ir “namelis”) šiame skyriuje bus laikomi skirtingus kamienus turinčiais žodžiais.

Daiktavardžius ir būdvardžius skaidyti į kamieną ir galūnę patogu dar ir todėl, kad tuomet kirčiavimą galima atlikti dviem etapais:

1.      nustatyti kirčio vietą žodyje, kuri gali įgyti dvi reikšmes: kirtis kamiene ir kirtis galūnėje,

2.      jei kirtis kamiene, nustatyti kirčio vietą kamiene, jei kirtis galūnėje, nustatyti kirčio vietą galūnėje.

A.4.1.2. Kaitymas

Daiktavardžių ir būdvardžių skaičiaus kategoriją sudaro vienaskaita ir daugiskaita. Kol kas nagrinėsim tik moteriškos ir vyriškos gimines būdvardžius (dar yra bevardė giminė), nes tik jie yra kaitomi. Ne visi daiktavardžiai kaitomi skaičiais, tačiau šiame skyriuje laikysime, kad visi daiktavardžiai ir būdvardžiai turi vienaskaitą ir daugiskaitą, nes dauguma daiktavardžių ir visi vyriškos bei moteriškos giminės būdvardžiai yra kaitomi skaičiais. Be to taip gaunamas paprastesnis modelis.

Bendrinėje lietuvių kalboje yra 6 linksniai. Tradiciškai prie jų dar priskiriamas septintasis šauksmininko linksnis, tačiau daugiskaitos šauksmininkas sutampa su daugiskaitos vardininku. Šiame darbe skaičius ir linksnius patogiau nagrinėti kartu, o ne atskirai, todėl gaunami 13 skaičių-linksnių variantų, kuriuos sutrumpintai žymėsime taip: vv, vk, vn, vg, vį, vt, vš, dv, dk, dn, dg, dį ir dt.

Be skaičių ir linksnių, būdvardžiai dar kaitomi giminėmis. Be to būdvardžiai (išskyrus vieno tipo būdvardžius) turi aukštesnįjį, aukštėlesnįjį ir aukščiausiąjį laipsnius. Visų laipsnių būdvardžiai dar gali turėti įvardžiuotines formas ir visos minėtos gramatinės formos kaitomos skaičiais ir linksniais. Taigi, patogu traktuoti, kad prie būdvardžio kamieno galima pridėti 16 tipų galūnes: pradedant vyriškos giminės nelyginamojo laipsnio neįvardžiuotinėmis ir baigiant moteriškos giminės aukščiausiojo laipsnio įvardžiuotinėmis. Prie kai kurių daiktavardžių kamienų taip pat gali būti pridedamos tiek vyriškos, tiek moteriškos galūnės, pvz., “šern-as – šern-ė”, “ligon-is – ligon-ė”, “mokytoj-as – mokytoj-a”, “inžinier-ius – inžinier-ė”. Kadangi yra gana daug vyriškos ir moteriškos giminės galūnių kombinacijų (būdvardžiams vieną vyriškos giminės galūnę atitinka tik viena moteriškos giminės galūnė), o be to dauguma daiktavardžių turi tik vieną giminę, tai patogiau traktuoti, kad yra du skirtingi kamienai, o ne vienas kamienas, prie kurio galima pridėti du galūnių rinkinius – vyriškos giminės ir moteriškos giminės.

A.4.1.3. Kamieno tipai

Prie daiktavardžio ar būdvardžio kamieno gali būti pridedamos galūnės iš tam tikro galūnių rinkinio. Rinkinyje paprastai yra po vieną galūnę kiekvienam linksniui, tačiau gali būti ir kelios galūnės (pvz., vt “vėj-uje” ir “vėj-yje”), o gali ir nebūti nei vienos (pvz., dauguma būdvardžių neturi šauksmininko linksnio). Šias galūnes vadinsime linksnio galūnėmis. Taigi, kiekvieną galūnių rinkinį sudaro 13 linksnio galūnių grupių. Gramatikose paprastai laikoma, kad galūnių rinkinį apibrėžia kamieno linksniuotė (yra 5 daiktavardžių linksniuotės ir 4 būdvardžių linksniuotės) arba tiksliau linksniavimo paradigma (yra 12 daiktavardžių linksniavimo paradigmų, 5 vyriškos ir 4 moteriškos giminės būdvardžių linksniavimo paradigmos). Šiame darbe naudosiu kiek kitokį kamienų grupavimą ir šias grupes vadinsiu kamienų tipais. Pergrupavimas reikalingas, nes kai kurie rašybos prasme identiški galūnių rinkiniai priskirti skirtingoms paradigmoms (pvz., žodžiai “rank-a” ir “sauj-a”), o kai kurie turintys skirtingas ir galūnes tai pačiai paradigmai (pvz., “peil-is” ir “arkl-ys”. Pagrindinis kriterijus, kuriuo vadovautasi sudarant kamienų tipus yra toks: vienam tipui negali priklausyti žodžiai, jei tam tikrame linksnyje jie gali įgyti tik skirtingas galūnes. Iš viso išskirta 19 daiktavardžių ir 48 būdvardžių kamienų tipai. Būdvardžių aukštesniojo, aukštėlesniojo ir aukščiausiojo laipsnio sudarymui naudojamos priesagos laikomos galūnės dalimi. Modelio paprastumo dėlei nekreipiama dėmesio į tai, kad kai kurios būdvardžių galūnių grupės sutampa. A.1 lentelėje pavaizduotas tipų sudarymas pagal kai kurių linksnių galūnes.

 

A.1 lentelė. Kamienų tipai

Kamieno tipas

Linksniai, galūnės, pavyzdžiai

 

Daiktavardžiai

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

vv “–as” po kieto priebalsio (“namas”), vt “–e” (“name”);

vv “–as” po “j” (“vėjas”), vt “–uje” arba “–yje” (“vėjuje” arba “vėjyje”);

vv “–ias” (“kelias”), vt “–yje” (“kelyje”);

vv “–is” (“brolis”), vk “–io” (“brolio”);

vv “–is” (“kūjis”), vk “–o” (“kūjo”);

vv “–ys” (“arklys”), vk “–io” (“arklio”);

vv “–ys” (“žvejys”), vk “–o” (“žvejo”);

vv “–a” po bet kokio priebalsio (“ranka”, “sauja”), vk “–os” (“rankos”, “saujos”);

vv “–ia” (“vyšnia”), vk “–ios” (“vyšnios”);

vv “–i” (“marti”, “pati”), vk “–ios” (“marčios”, “pačios”);

vv “–ė” (“bitė”), vk “–ės” (“bitės”) , dk “–ių” (“bičių”);

vv “–ė” (“skerssijė”), vk “–ės” (“skerssijės”), dk “–ų” (“skerssijų”);

vv “–is” (“krosnis”), vk “–ies” (“krosnies”), vn “–iai” (“krosniai”);

vv “–is” (“žvėris”), vk “–ies” (“žvėries”), vn “–iui” (“žvėriui”);

vv “–us” po kieto priebalsio (“sūnus”), dn “–ums” (“sūnums”);

vv “–us” po “j” (“pavojus”), dn “–ams” (“pavojams”);

vv “–ius” (“sodžius”), dn “–iams” (“sodžiams”);

vv “–uo” (“akmuo”), vk “–ens” (“akmens”);

vv “–uo”, “–ė” (“sesuo”, “duktė”), vk “–ers” (“sesers”, “dukters”);

 

Būdvardžiai

20 – 23

24 – 27

28 – 31

32 – 35

36 – 39

40 – 41

42 – 43

44 – 47

48 – 51

52 – 55

56 – 59

60 – 63

64 - 67

vv “–as”, “–a” (“geras”, “gera”, “gerasis”, “geroji”);

vv “–as”, “–a” (“abuojas”, “abuoja”, “abuojasis”, “abuojoji”);

vv “–ias”, “–ia” (“žalias”, “žalia”, “žaliasis”, “žalioji”);

vv “–is”, “–ė” (“didelis”, “didelė”, “didysis”, “didžioji”), dv “–i” (“dideli”);

vv “–ys”, “–ė” (“kairys”, “kairė”, “kairysis”, “kairioji”);

vv “–is”, “–ė” (“medinis”, “medinė”), dv “–iai” (“mediniai”);

vv “–is”, “–ė” (“ilgakojis”, “ilgakojė”), dv “–ai” (“ilgakojai”);

vv “–us”, “–i” (“gražus”, “graži”, “gražusis”, “gražioji”);

vv “–us”, “–i” (“gajus”, “gaji”, “gajusis”, “grajoji”);

vv “–esnis”, “–esnė” (“geresnis”, “geresnė”, “geresnysis”, “geresnioji”);

vv “–ėlesnis”, “–ėlesnė” (“gerėlesnis”, “gerėlesnė”, “gerėlesnysis”, “gerėlesnioji”);

vv “–iausias”, “–iausia” (“geriausias”, “geriausia”, “geriausiasis”, “geriausioji”);

vv “–ausias”, “–ausia” (“gajausias”, “gajausia”, “gajausiasis”, “gajausioji”).

A.4.1.4. Kirčiuotės

Bendrinėje lietuvių kalboje daiktavardžiai ir būdvardžiai skirstomi į 4 kirčiuotes. Kirčiuotės nustatomos pagal tai, kurioje žodžio dalyje – kamiene ar galūnėje – kirčiuojamos daugiskaitos naudininko ir galininko formos. Automatiniam lietuvių kalbos kirčiavimui toks suskaidymas yra nepakankamas, nes tai pačiai kirčiuotei priklausantys žodžiai gali kituose linksniuose turėti kirtį skirtingose vietose. Pvz., žodžiai “pirštas” ir “ranka” yra antros kirčiuotės, tačiau vv kirčiuojama “pir~št-as” – “rank-a`”, o vt “piršt-e`” – “ran~k-oje”.

Buvo apibrėžta nauja sąvoka – kirčių rinkinys, ir kiekviena kirčiuotė dar skaidoma į kirčių rinkinius. Kirčių rinkinys nusako, kur (kamiene ar galūnėje) kiekviename linksnyje yra kirtis. Kamieno tipas ir kirčiuotė vienareikšmiškai nusako kirčių rinkinį. Papasčiausią modelį gautume, jei kiekvieno kamieno tipo kiekvienai kirčiuotei apibrėžtume po kirčių rinkinį. Iš 67 kamienų tipų ir 4 kirčiuočių susidarytų 268 kombinacijos, t.y. reikėtų saugoti 268 kirčių rinkinius po 13 kirčio vietos požymių. Tačiau gana daug skirtingų kamienų tipų gali būti kirčiuojami pagal tą patį kirčių rinkinį. Iš viso yra 24 skirtingi kirčių rinkiniai (žr. A.2 lentelę).

 

A.2 lentelė. Kirčių rinkiniai

Kir-čiuotė

Nr.

vv

vk

vn

vg

vt

dv

dk

dn

dg

dt

Kamienų tipai

I

1

1

1

1

1

1

1

1

1

1

1

1

1

1

visi

II

2

1

1

1

1

0

0

1

1

1

1

0

1

1

1

 

3

1

1

1

1

0

1

1

1

1

1

0

1

1

2,4,5,11,12,40-43

 

4

0

1

1

1

0

1

1

1

1

1

0

1

1

8,9

 

5

1

1

1

1

1

1

1

1

1

1

0

1

1

15,16,17

III

6

1

1

1

1

1

0

1

0

0

0

1

0

0

1,3

 

7

0

1

1

1

1

0

0

0

0

0

1

0

0

6,7

 

8

0

0

1

1

1

0

1

1

0

0

1

0

0

8,11,12,21,25,29, 37,45,49

 

9

0

0

1

1

0

0

0

1

0

0

1

0

0

13,14,15

 

10

0

0

1

1

1

0

0

1

0

0

1

0

0

18,19

 

11

1

1

0

1

1

0

1

0

0

0

1

0

0

20,24,28,32

 

12

1

0

1

1

1

0

1

1

0

0

1

0

0

33

 

13

0

1

0

1

1

0

-

0

0

0

1

0

0

36

 

14

0

0

0

1

1

0

-

1

0

0

1

0

0

44,48

IV

15

1

1

1

1

0

0

1

0

0

0

0

0

0

1

 

16

1

1

1

1

0

0

0

0

0

0

0

0

0

3

 

17

0

1

1

1

0

0

0

0

0

0

0

0

0

6,7

 

18

0

0

1

1

0

0

1

1

0

0

0

0

0

8-12,21,23,25,27, 29,31,37,39,45,47, 49,51

 

19

0

0

1

1

0

0

0

1

0

0

0

0

0

13,14,15,18

 

20

1

1

0

1

0

0

-

0

0

0

0

0

0

20,24,28,32

 

21

1

0

1

1

0

1

-

1

0

0

0

0

0

33

 

22

0

1

0

1

0

0

-

0

0

0

0

0

0

22,26,30,34,36,38, 46,50

 

23

0

0

0

1

0

0

-

1

0

0

0

0

0

44,48

 

24

0

0

0

0

0

0

-

0

0

0

0

0

0

52-67

Šioje lentelėje “0” reiškia, kad kirtis yra galūnėje, “1” – kamiene, o “-” – kad žodis tokio linksnio neturi. Kai kurie kamienų tipai negali būti kirčiuojami pagal tam tikrą kirčiuotę, todėl skiltyje “Kamienų tipai” prie kiekvienos kirčiuotės išvardinti ne visi kamienų tipai.

Patogu turėti dar vieną lentelę, kuria naudojantis pagal kamieno tipą ir kirčiuotę galima rasti kirčių rinkinį.

A.4.1.5. Informacija apie kamienus

Kaip jau buvo minėta, daiktavardžių ir būdvardžių kirčiavimą patogu išskaidyti į du etapus ir iš pradžių nustatyti kirčio vietą žodyje, o po to ieškoti kirčio vietos atitinkamai kamiene arba galūnėje. Taigi, reikalingos dvi duomenų bazės:

1.      kamienų duomenų bazė, kurioje saugoma informacija apie kamienų kirčiavimą, o taip pat informacija apie kirčio vietą žodyje. Kirčio vieta žodyje nustatoma pagal kamieno tipą ir kirčiuotę, o abu šie atributai yra kamieno savybės,

2.      galūnių duomenų bazė, kurioje saugoma informacija apie galūnių kirčiavimą.

Kirčio vieta kamiene (jei kirtis yra kamiene) ir priegaidė yra kamieno savybė ir nepriklauso nuo to, kokia galūnė prie jo pridėta.

Reziumuojant tai kas buvo pasakyta anksčiau, kamienų duomenų bazės esybių ryšių diagrama (ERD) [ 3 ] atrodytų taip:

Kamienas

Identifikatorius

Pavadinimas Kamieno tipas – kirčių rinkinys Kirčių rinkinys

Kamieno tipas Kamieno tipas Kirčių rinkinio Nr.

Kirčiuotė Kirčiuotė Skaičius - linksnis

Kirčio vieta Kirčių rinkinio Nr. Kirtis kamiene - galūnėje

Priegaidė

A.1 pav. Kamienų duomenų bazės esybių ryšių diagrama

Šioje diagramoje Kamieno atributas Pavadinimas yra kamieno tekstinis pavidalas. Prieš tam tikras galūnes kamieno gale gali įvykti asimiliacija, dėl kurios keičiasi raidės, todėl verta atskirai pakalbėti, kokiu pavidalu patogiausia saugoti kamienų tekstinius pavidalus ir kaip jų ieškoti duomenų bazėje.

A.4.1.6. “D” ir “t” asimiliacija daiktavardžių ir būdvardžių kamienų galuose

Apibrėžimas. Minkštomis galūnėmis vadinsime galūnes, kurios prasideda raide „i”, atliekančia minkštumo ženklo funkciją, t.y. kai „i” eina prieš balsį, išskyrus „e”. Visas kitas galūnes vadinsime kietomis.

1 teiginys. Jei kamienas baigiasi „d” arba „t” (šiuo atveju galūnė visada būna kieta), o linksniuojant įgyja minkštą galūnę, tai kamieno gale esanti „d” virsta į „dž”, o „t” į „č”.

2 teiginys. Atvirkščias teiginys nėra teisingas. Pvz., žodžių „Sočio” (miestas) ar „Mačio” (pavardė) vienaskaitos kilmininko galūnė yra minkšta, tačiau vienaskaitos vardininkas turi kietą galūnę („Sočis”, „Mačys”) ir išlaiko „č”. Be to, jei kamienas baigiasi „č” ar „dž” prieš kietą galūnę, tai toks kamienas išlieka su visomis galūnėmis.

Paprastai žodžio kamienu laikomas jo vienaskaitos vardininko kamienas. Žodis gali turėti kietas galūnes visuose linksniuose, pvz., „banda”, „bandža”, „pučas”, „puta”, minkštas galūnes visuose linksniuose, pvz., „valdžia”, „risčia”, kietą vienaskaitos vardininko linksnyje, o minkštą kokiame nors kitame linksnyje, pvz., „medis - medžio”, „kirtis - kirčio”, minkštą vienaskaitos vardininko linksnyje ir kietą kokiame nors kitame, pvz., „kurčias - kurtiems”, „bergždžias - bergždiems”. Nepateikiant tolimesnės iš 1 ir 2 teiginio gaunamos samprotavimų grandinės, užrašysime tik galutinį kamienų saugojimo ir paieškos algoritmą:

1.      Žodžiams, kurių kamienai prieš kietas galūnes baigiasi „d” arba „t”, o prieš minkštą atitinkamai „dž” arba „č”, į žodyną rašomi kamienai, kurie baigiasi „d” arba „t”. Visiems kitiems žodžiams rašomi kamienai, likę atmetus galūnę.

2.      Jei nagrinėjamam žodžiui atmetus galūnę lieka kamienas, kuris baigiasi „dž” arba „č”, o galūnė minkšta, tai žodyne paieška atliekama su dviem kamienais: besibaigiančiu „dž” arba „č” ir besibaigiančiu „d” arba „t”. Visais kitais atvejais paieška atliekama su vienu kamienu, likusiu atmetus galūnę.

Taigi, kai kurie žodžiai, kuriuos mes įpratę matyti su vienokiais kamienais, žodyne turėtų būti saugomi su kitokiais, pvz., „bergždžias” su kamienu „bergžd” (nes “bergždieji”), o „kurčias” su kamienu „kurt” (nes “kurtieji”).

A.4.1.7. Informacija apie galūnes

3 teiginys. Kirčio vieta galūnėje ir jo priegaidė (kaip ir kamienų atveju) yra galūnės savybė ir nepriklauso nuo to, prie kokio kamieno ji pridėta.

Tai gana įdomi ir netikėta galūnės savybė, nes ta pati galūnė gali būti pridedama prie skirtingo tipo kamienų ir gali reikšti skirtingus linksnius, pvz., vv “sūn-u`s” ir dg “nam-u`s”. Be to tai pasitaiko gana dažnai.

Atsižvelgiant į šią savybę patogu atskirai saugoti galūnę su atributais (pavadinimu, kirčio vieta, priegaide, minkštumo požymiu) ir atskirai informaciją, prie kokio tipo kamieno ir kokiame linksnyje ši galūnė gali būti pridedama. A.2 pav. pavaizduota, kaip tai atrodytų ERD terminais.

Galūnė

Galūnės vieta Identifikatorius

Identifikatorius Pavadinimas (tekstinė išraiška, pvz., “as”)

Kamieno tipas Kirčio vieta

Skaičius-linksnis Priegaidė

Minkštumo požymis

A.2 pav. Galūnių duomenų bazės esybių ryšių diagrama

Tačiau anksčiau minėta savybė tinka tik pilnoms galūnėms, kurios yra bendrinės lietuvių kalbos norma. Tačiau kai kurios galūnės turi dar ir trumpuosius variantus, kurie:

1.      gali sutapti su duotojo kamieno tipo kitų linksnių galūnių pagrindiniais variantais, o būti kirčiuojami kitaip, pvz., „ger-a“jam” (vn) ir trumpoji galūnė „ger-a~jam” (vt).

2.      gali sutapti du trumpieji variantai, o būti kirčiuojami kitaip, pvz., „ger-o“siom” (dn) ir „ger-o~siom” (dį).

Pirmame punkte paminėtos trumposios galūnės į galūnių sąrašą neįtrauktos, iš antrame punkte paminėtų galūnių pasirinkta viena, o visos kitos trumposios galūnės į galūnių sąrašą įtrauktos. Iš viso, kartu su trumposiomis galūnėmis, sudarytas 355 daiktavardžių ir būdvardžių galūnių sąrašas (pradedant “–as”, “-o”, “-ui”, … ir baigiant …, “-ausiomis”, “-ausiose”).

A.4.1.8. Kitų gramatinių formų bei kalbos dalių kirčiavimas

Būdvardžių bevardė giminė kirčiuojama taip pat, kaip vyriškos giminės vienaskaitos vardininko linksnis (“ge~ras - ge~ra”, “gražu`s - gražu`”), todėl patogu traktuoti, kad būdvardžių bevardės giminės galūnė yra dar viena vyriškos giminės vienaskaitos vardininko galūnė. Visiškai analogiškai būdvardžių bevardės giminės aukštesniojo (“geriau~”), aukštėlesniojo (“gerėliau~”) ir aukščiausiojo laipsnio (“geria’usia”) galūnės taip pat traktuojamos kaip atitinkamos vienaskaitos vardininko galūnės.

Sudėtingesnis yra iš būdvardžių daromų prieveiksmių (“gerai~”, “tam~siai”) kirčiavimas. Prieveiksmių galūnės traktuojamos kaip dar vieno linksnio galūnės. Kirčių rinkiniuose šiam linksniui saugomas specialus požymis, nusakantis, kad kirčio vietai nustatyti reikia panaudoti papildomą algoritmą. Šis algoritmas naudoja tokius požymius kaip skiemenų skaičius, kamieno tipas, kirčiuotė, kamieno ilgumas.

Kelintiniai skaitvardžiai, o taip pat skaitvardis “vienas”, traktuojami kaip būdvardžiai. Skaitvardžių “du”, “dvi”, “trys”, “keturi”, “keturios”, …, “devyni”, “devynios” visi linksniai surašyti į nekaitomų žodžių bazę. Skaitvardžiai nuo “vienuolikos” iki “devyniolikos”, o taip pat “šimtas”, “tūkstantis”, “milijonas”, “milijardas” traktuojami kaip daiktavardžiai. Skaitvardžiai “dešimtis”, …, “devyniasdešimtis” traktuojami kaip daiktavardžiai, tik jų vienaskaitos vardininko trumposios formos “dešimt”, …, “devyniasdešimt”surašytos į nekaitomų žodžių bazę.

Įvardžiai “kitas”, “visas”, “kiekvienas”, “tūlas”, “manas”, “tavas”, “savas”, “šitas” traktuojami kaip būdvardžiai, tik būdvardžio “šitas” formos “šituo~”, “šitie~” ir “šituo~s” surašytos į nekaitomų žodžių bazę. Laikoma, kad įvardžiai “toks”, “šioks”, “šitoks”, “anoks”, “koks”, “joks”, “visoks”, “vienoks”, “kitoks”, “kažkoks” linksniuojami ir kirčiuojami taip, kaip būdvardis “žalias”, tik jų vv, vg ir dv linksniai (“to’ks”, “to’kį”, “tokie~”) surašyti į nekaitomų žodžių bazę. Ten surašyti ir visų kitų įvardžių visos kitos gramatinės formos.

A.4.1.9. Bendras daiktavardžių ir būdvardžių kirčiavimo algoritmas

Kiekvienam kirčiuojamam žodžiui imti visas galūnes ir patikrinti, kurioms atributas Pavadinimas sutampa su kirčiuojamo žodžio pabaiga. Jei galūnės pavadinimas sutampa, tačiau atmetus galūnę kamieno gale lieka balsė, laikysime, kad tokia galūnė netinka, pvz., žodžiui “kačių” tinka galūnės “-ų” ir “-ių”, tačiau atmetus galūnę “-ų” liekęs kamienas baigiasi balse “i”. Sudaromas sąrašas: Likęs kamienas, Galūnė (galūnės identifikatorius). Gana dažnai šiame sąraše būna daugiau, nei vienas įrašas. Pvz., žodžiui “žaliuosiuose” gaunamos tokios galūnės ir kamieno atskyrimo hipotezės:

1.      “žal-”, “-iuosiuose”,

2.      “žali-”, “-uosiuose”,

3.      “žaliuos-”, “-iuose”,

4.      “žaliuosi-”, “-uose”,

5.      “žaliuosiu-”, “-ose”,

6.      “žaliuosiuos-”, “-e”.

Iš jų antra, ketvirta ir penkta atmetamos, nes kamieno gale lieka balsis. Be to, dar patikrinama, ar atmetus galūnę iš viso lieka kamienas, nes kai kurios galūnės sutampa su ištisais lietuvių kalbos žodžiais, pvz., “o”, “į”, “imi”.

Ar negalima iš karto vienareikšmiškai atskirti galūnės? Negalima, nes tiek galūnės, tiek kamienai gali turėti įvairų raidžių bei skiemenų skaičių. Be to nėra jokių kamieno ir galūnės ribą žyminčių požymių. Ilgiausios galūnės suradimas taip pat neduoda norimo rezultato, nes, pvz., žodžiui “samurajai” tinka galūnės “-ajai” ir “-ai”, tačiau teisingai atskiriama naudojant antrąją.

Kiekvienam gauto sąrašo įrašui tikrinama, ar galūnė yra minkšta (tikrinamas galūnės atributas Minkštumo požymis). Jei galūnė minkšta, o likęs kamienas baigiasi “č” arba “dž”, tai sąrašas papildomas dar vienu įrašu, kuriame kamieno pabaigoje “č” pakeičiama į “t”, o “dž” į “d” (žr. skyrelį “D ir T asimiliacija daiktavardžių ir būdvardžių kamienų galuose”).

Kamienų duomenų bazėje kiekvienam šio sąrašo kamienui ieškoma visų tinkančių kamienų ir sudaromas naujas sąrašas: Kamieno identifikatorius, Kamieno tipas, Galūnės identifikatorius. Be abejo, kai kuriems ankstesnio sąrašo įrašams nerandama nei vieno tinkančio kamieno, o kai kuriems net po kelis, pvz., “žal-“ yra žodžių “žalias”, “žalas” ir “žala” kamienas. Kiekvienam naujojo sąrašo įrašui, kurio Kamieno tipas priklauso vyriškos giminės būdvardžių grupei (būdvardžių kamienai kaip tik ir saugomi nurodant jų vyriškos giminės kamieno tipą), sąrašas dar papildomas 15 įrašų, kuriuose kamieno tipas atitinka visas galimas giminės, laipsnio ir įvardžiuotinės-neįvardžiuotinės formos kombinacijas. Įvardžiuotinių formų ir laipsnių neturintiems būdvardžiams sąrašas pildomas tik vienu įrašu su moterišką giminę atitinkančiu kamieno tipu.

Kodėl iš pradžių atskiriama galūnė, o tik po to ieškomas kamienas? Pirmiau atskiriant galūnę galima nustatyti ar galūnė minkšta ir ar reikia taikyti asimiliacijos taisykles.

Jei laikysime, kad kamienai ir galūnės saugomi reliacinėje duomenų bazėje, sugeneruotoje pagal A.1 ir A.2 pav. pateiktas ERD, tai tolimesnę paiešką galima užrašyti tokia užklausa:

SELECT Kirtis kamiene – galūnėje

FROM Kamienas, Kamieno tipas – kirčių rinkinys, Kirčių rinkinys, Galūnės vieta, Galūnė

WHERE

Kirčių rinkinys.Kirčių rinkinio Nr. = Kamieno tipas – kirčių rinkinys.Kirčių rinkinio Nr.

Kamieno tipas – kirčių rinkinys.Kamieno tipas = Kamieno tipas

Kamieno tipas – kirčių rinkinys.Kirčiuotė = Kamienas.Kirčiuotė

Kamienas.Identifikatorius = Kamieno identifikatorius

Kirčių rinkinys.Skaičius - linksnis = Galūnės vieta.Skaičius - linksnis

Galūnės vieta.Kamieno tipas = Kamieno tipas

Galūnės vieta.Identifikatorius = Galūnės identifikatorius

Šios paieškos metu atskiram sąrašo įrašui gali būti nerasta nei vieno tinkamo įrašo (pvz., galūnė “-ias” negali būti pridedama prie žodžio “žalas” kamieno jokiame linksnyje, nes tai yra tą patį kamieną turinčio žodžio “žalias” galūnė), arba gali būti rasti net keli tinkantys įrašai (pvz., galūnė “-a” prie kamieno “piev-“ pridedama vv, vį ir vš linksniuose).

Perrenkame visus surastus įrašus ir jei atributas Kirtis kamiene-galūnėje rodo, kad kirtis yra kamiene, pagal Kamieno Identifikatorių randame kamieno Kirčio vietą ir Priegaidć, o jei kirtis yra galūnėje – galūnės Kirčio vietą ir Priegaidć.

Jei visiems surastiems įrašams kirčio vieta ir priegaidė yra ta pati, žodis kirčiuojamas, jei ne – pagal kokį nors algoritmą parenkamas vienas kirčiavimo variantas arba žodis paliekamas nekirčiuotas.

A.4.2. Veiksmažodžių kirčiavimas remiantis žodynu

Šiame skyriuje nagrinėsime ne tik asmenuojamąsias veiksmažodžių formas, bet ir neasmenuojmąsias, pvz., dalyvius, pusdalyvius, padalyvius, bendratis, ir visas jas vadinsime bendru vardu - veiksmažodžiais.

Laikysime, kad bet kuris veiksmažodis yra sudarytas iš kamieno, galūnės, ir dar gali turėti priešdėlių grupę. To paties veiksmažodžio įvairių gramatinių formų, pvz., asmenų, nuosakų, laikų, sangrąžinių formų, neasmenuojamųjų formų linksnių, įvardžiuotinių formų sudarymą prie kamieno pridedant galūnes ir priešdėlius vadinsime kaitymu. Šiame skyriuje nagrinėjamas tik veiksmažodžių kaitymas.

Naujų žodžių sudarymas naudojantis priesagomis (pvz., prie žodžio “neš-ti” pridedant priesagą “io” gaunama “neš-io-ti”) nebus nagrinėjamas. Tokios priesagos bus laikomos kamieno dalimi, t.y. kamienu laikysime žodžio šaknį kartu su darybos priesagomis.

Sudarant kai kurias gramatines formas prie kamieno pridedama ne tik galūnė, bet ir formantas ar priesaga, pvz., “neš-tin-as”, kur “neš” – kamienas, “tin” – priesaga, o “as” – galūnė. Tokias priesagas laikysime galūnės dalimi, t.y. galūne vadinsime galūnę kartu su kaitybos priesagomis.

Panašiai, kaip ir daiktavardžių ar būdvardžių atveju, veiksmažodžių skaidymas į kamieną, galūnę ir priešdėlį leidžia:

1.      kamienus, galūnes ir priešdėlius saugoti atskirose duomenų bazėse ir tokiu būdu stipriai sumažinti saugomos informacijos kiekį,

2.      kirčiavimo procesą išskaidyti į du etapus: nustatyti kurioje žodžio dalyje (kamiene, galūnėje ar priešdėlyje) yra kirtis ir rasti kirčio vietą atitinkamoje žodžio dalyje.

A.4.2.1. Asmenuotės

Visos veiksmažodžių formos daromos iš trijų pagrindinių kamienų: esamojo laiko, būtojo kartinio laiko ir bendraties. Šie kamienai gali sutapti, pvz., “neš-a”, “neš-ė”, “neš-ti”, o gali ir nesutapti, pvz., “kert-a”, “kirt-o”, “kirs-ti”. Modeliui supaprastinti laikysime, kad visi kamienai skirtingi.

Kaitant veiksmažodį prie kiekvieno tipo kamieno galima pridėti tam tikrą galūnių rinkinį. Taigi, visas galūnes suskaidome į tris grupes: a) pridedamas prie esamojo laiko kamieno, b) prie būtojo kartinio laiko kamieno ir c) prie bendraties kamieno. Kai kurios galūnės gali priklausyti kelioms grupėms, pvz., galūnė “-o” esamojo laiko veiksmažodyje “mat-o” ir būtojo kartinio laiko veiksmažodyje “kirp-o”, tačiau laikykime, kad šios grupės yra atskiros ir nekreipkime dėmesio į tai, kad kai kurie elementai sutampa.

Prie kiekvieno esamojo laiko ir būtojo kartinio laiko kamieno galima pridėti atitinkamai galūnių grupei priklausančių galūnių rinkinį, tačiau ne visas, o tik kai kurias. Galūnių rinkinį apibrėžia asmenuotė. Gramatikose pagal trečio asmens galūnę paprastai išskiriamos 3 esamojo laiko asmenuotės (1. “a” ir “ia”, 2. “i”, 3. “o”) ir 2 būtojo kartinio laiko asmenuotės (1. “o”, 2. “ė”). Kadangi galūnės “-a” ir “-ia” turi kiek skirtingą pavidalą, tai patogiau traktuoti, kad tai yra skirtingų asmenuočių galūnės.

Patogiau ne atskirai nagrinėti esamojo ir būtojo kartinio laiko asmenuotes, o sudaryti asmenuotes pagal abiejų laikų galūnes, nes pvz., iš būtojo kartinio laiko kamieno sudarant būtojo kartinio laiko padalyvius, galūnė “-ius” pridedama prie tų kamienų, kurie būtojo kartinio laiko 3 asmenyje įgyja galūnę “-ė”, o esamojo laiko 3 asmenyje – “-o”. Taigi, prie būtojo kartinio laiko kamieno pridedama būtojo kartinio laiko grupės galūnė priklausomai nuo esamojo laiko asmenuotės.

Taigi, gauname tokias asmenuotes (esamojo laiko galūnė – būtojo kartinio laiko galūnė): 1) “a – o”, 2) “a – ė”, 3) “ia – o”, 4) “ia – ė”, 5) “i – o”, 6) “o – o”, 7) “o – ė”.

A.4.2.2. Kirčiavimo taisyklės

Veiksmažodžio gramatinę formą nusako galūnė (3-iojo asmens liepiamajai nuosakai dar ir priešdėlis “te-“). Kai kurios gramatinės formos turi tą pačią galūnę, tačiau vis vien nagrinėjamos visos gramatinės formos. Veiksmažodžio kirtis gali būti priešdėlyje, kamiene arba galūnėje. Kiekvienos gramatinės formos kirčio vieta nustatoma pagal tam tikras taisykles. Visas gramatines formas suskirstykime į grupes. Į vieną grupę turi pakliūti pagal tą pačią taisyklę kirčiuojamos gramatinės formos.

Sudarytos tokios taisyklės (skliaustuose pateikti pagal taisyklę kirčiuojamų gramatinių formų pavyzdžiai):

1 taisyklė. Jei yra priešdėlis ir kirtis atitraukiamas į priešdėlį - kirčiuoti priešdėlį, jei kirčiuojamas paskutinis kamieno skiemuo ir jo priegaidė netvirtapradė – kirčiuoti galūnę, priešingu atveju - kirčiuoti kamieną (“kerpu”, “kirpau”).

2 taisyklė. Jei yra priešdėlis ir kirtis atitraukiamas į priešdėlį - kirčiuoti priešdėlį, priešingu atveju kirčiuoti kamieną (“kerpa”, “kerpant”, “kerpantis”, “kerpamas”, “kerpančiai” (kaip), “kirpo”).

3 taisyklė. Jei esamojo laiko kamienas nedaugiaskiemenis ir ne „o-*“ asmenuotės - kirčiuoti galūnę, priešingu atveju kirčiuoti kamieną (“tekerpie”, “kerpamam”, “kirpdama”, “kirptam”, “kirpsimam”, “kirptinam”, “kirpte”, “kirptinai”, “kirptai” (kaip)).

4 taisyklė. Kirčiuoti kamieną (“temokai”, “kirpus”, “kirpęs”, “kirpusiai” (kaip), “kirpti”, “kirpdavau”, “kirpsiu”, “kirpčiau”, “kirpk”, “kirpdamas”, “kirpdavus”, “kirpsiant”, “kirpdavęs”, “kirpsiąs”, “kirpsimas”, “kirptinas”).

5 taisyklė. Jei kirtis atitraukiamas į priešdėlį - kirčiuoti galūnę, priešingu atveju kirčiuoti kamieną (“kerpąs”).

6 taisyklė. Jei esamojo laiko kamienas nedaugiaskiemenis, ne „o-*“ asmenuotės, priegaidė ne tvirtapradė, šaknyje tik “a” arba tik “e” - kirčiuoti galūnę, priešingu atveju kirčiuoti kamieną (“kerpamai” (kaip)).

7 taisyklė. Jei kamienas ne daugiaskiemenis ir priegaidė ne tvirtapradė - kirčiuoti galūnę, priešingu atveju kirčiuoti kamieną (“kirptų”).

8 taisyklė. Jei kamienas ne daugiaskiemenis, priegaidė ne tvirtapradė ir yra priešdėlis – kirčiuoti priešdėlį, priešingu atveju kirčiuoti kamieną. Jei kamiene yra trumpi kirčiuoti balsiai „a“ arba „e“, priegaidę pakeisti į tvirtagalę (“kirptas” (koks)).

9 taisyklė. Jei kamienui buvo taikyta balsių asimiliacijos taisyklė (žr. skyrelį “Kamiengalių asimiliacijos taisyklės”), kirtis bus trumpas, jei kirčiuojamas paskutinis kamieno skiemuo ir jo priegaidė tvirtapradė, kirtis bus ilgas tvirtagalis. Kirčiuoti kamieną (“li`s”, “lanky~s”).

Peržvelgć taisykles pastebėsime, kad kirčio vietai nustatyti reikalinga tokia informacija:

1.      ar yra priešdėlis,

2.      ar kirtis atitraukiamas į priešdėlį,

3.      kirčiuotas kamieno skiemuo,

4.<      kamieno kirčio priegaidė,

5.      ar kamienas daugiaskiemenis,

6.      asmenuotė,

7.      ar kamiene yra balsiai „a“ arba „e“.

Sąlygą „ar kirtis atitraukiamas į priešdėlį“ reikėtų išskaidyti į dvi: „ar kirtis atitraukiamas į priešdėlį esamajame laike“ ir „ar kirtis atitraukiamas į priešdėlį būtajame kartiniame laike“. [ 4 ] yra pateikti 7 atvejai, kuomet esamajame laike kirtis į priešdėlį neatitraukiamas, ir 4 atvejai, kuomet kirtis atitraukiamas. Todėl paprasčiau kartu su kamienu kaip atributą saugoti požymį, ar kirtis esamajame laike atitraukiamas į priešdėlį, ar ne.

Kitokia situacija su būtuoju kartiniu laiku. Kirtis atitraukiamas į priešdėlį tik “a-ė” ir “ia-ė” asmenuotės veiksmažodžiuose, kurių kamieno priegaidė ne tvirtapradė ([ 4 ] 193 psl.). Taigi, pagal asmenuotę ir būtojo kartinio laiko kamieno priegaidę galima nustatyti, ar kirtis atitraukiamas į priešdėlį, todėl nebūtina šio požymio saugoti kaip atributo.

Kadangi esamajame ir būtajame kartiniame laike sąlygos “ar kirtis atitraukiamas į priešdėlį” tikrinamos skirtingai, tai pirmąją ir antrąją taisykles verta atskirai perrašyti esamajam ir būtajam kartiniam laikui.

Sąlygą “ar kamienas daugiaskiemenis” taip pat galima išskaidyti į du atvejus: “ar daugiaskiemenis esamojo laiko kamienas” ir “ar daugiaskiemenis bendraties kamienas”. Galima būtų šiuos du požymius saugoti kaip atributus, tačiau turint kamieną, galima nesunkiai algoritmiškai suskaičiuoti skiemenis. Be to, dauguma atvejų asmenuotė nusako kamieno skiemenų skaičių. Asmenuočių “a-ė”, “ia-o”, “ia-ė”, “i-o”, “o-o” ir “o-ė” esamojo laiko kamienai yra ne daugiaskiemeniai. Asmenuočių “a-ė” ir “ia-ė” bendraties kamienai yra ne daugiaskiemeniai, o asmenuočių “ia-o”, “i-o”, “o-o” ir “o-ė” bendraties kamienai yra daugiaskiemeniai. Tik “a-o” asmenuotės kamienams reikėtų algoritmiškai suskaičiuoti skiemenų skaičių.

A.4.2.3. Kamiengalių asimiliacijos taisyklės

Jei galūnė prasideda “s”, tai po kamieno gale esančių “s”, “z”, “š”, “ž” galūnės “s” išnyksta, o “z” ir “ž” virsta atitinkamai “s” ir “š”, pvz., “kirp” + “siu” = „kirpsiu“, „mes“ + “siu” = „mesiu“, “megz” + “siu” = „megsiu“, „neš“ + “siu” = „nešiu“, „vež“ + “siu” = „vešiu“ (Ambrazas, V., K. Garšva, A. Girdenis … [et al.] (1996) 341 psl). Kadangi paiešką pirmiau atliekame su galūnėmis, tai paieškai reikia turėti visus galimus galūnių variantus, todėl visoms raide „s“ prasidedančioms galūnėms sąrašas dar papildomas tokiomis pat galūnėmis, tik prasidedančiomis „š“, pvz., „-siu“ ir „-šiu“.

Jei žodžiui tinka galūnė, prasidedanti „s“, „š“ arba „k“, tai kamieno paieškai naudojami keli kamienai. Kokie tai kamienai, paaiškinsime pavyzdžiais:

„meg-siu“ - „meg“, „meg+s“ ir „meg+z“;

„ve-šiu“ - „ve+š“ ir „ve+ž“.

„au-kime“ - „au“, „au+k“ ir „au+g“.

Prieš galūnes, prasidedančias “i”, atliekančia minkštumo ženklo funkciją, kamieno gale esantys “d” ir “t” virsta atitinkamai “dž” ir “č”. Tačiau skirtingai nuo daiktavardžių, neegzistuoja kietų galūnių, prieš kurias būtų “dž” arba “č”. Todėl kamieno gale, radus “dž” ar “č”, jie keičiami atitinkamai į “d” ar “t”, o sudarant kamienų sąrašą į jį rašomi tik kamienai, kurie baigiasi “d” ar “t”.

Ypatingo dėmesio nusipelno būsimojo laiko trečio asmens galūnė “s”, nes tik šią galūnę turinčiuose žodiuose gali keistis kamieno balsiai. Gramatikos taisyklė skamba taip: veiksmažodžiai, kurie esamojo laiko ir vienskiemeniuose bendraties kamienuose turi “y” arba “ū”, o būtojo kartinio laiko kamiene atitinkamai “i” arba “u”, būsimojo laiko trečias asmuo kamiene taip pat turi “i” arba “u”. Kadangi sprendžiant automatinio kirčiavimo uždavinį reikia ne sudaryti būsimojo laiko formą, o ją atpažinti, tai reikalingas toks algoritmas: Jei atskyrus galūnę “s” lieka kamienas, kuris baigiasi “i” arba “u”, papildyti paieškai naudojamų kamienų sąrašą dar vienu, kuriame “i” pakeista į “y”, o “u” į “ū”, bei įsiminti, kad šiam kamienui pritaikyta balsių asimiliacijos taisyklė. Vėliau, ieškant kamieno duomenų bazėje, jei kamienui buvo taikyta balsių asimiliacijos taisyklė, turi sutapti ne tik kamienų tekstinis pavidalas, bet ir bendraties kamienas turi būti vienskiemenis, esamojo laiko kamienas turi baigtis “y” ar “ū”, o būtojo kartinio laiko kamienas atitinkamai “i” ar “u”,.

Ar negalima, atskyrus galūnę “s”, iš karto patikrinti, ar lieka vienskiemenis kamienas? Negalima, nes gali likti kamienas su priešdėlių grupe, pvz., “neprilyti – neprilis”.

A.4.2.4. Priešdėliai

Lietuvių kalboje yra 14 veiksmažodžių sudarymui skirtų priešdėlių: “ap”, “api”, “at”, “ati”, “į”, “iš”, “nu”, “pa”, “par”, “pra”, “pri”, “su”, “už”, “per”. Be to kartu su priešdėliais gali būti vartojamos dalelytės “ne”, “nebe”, “tebe”, “be”, sangrąžinė dalelytė “si” ir liepiamosios nuosakos dalelytė “te”. Ten, kur nebūtina skirti dalelytes nuo priešdėlių, dalelytes taip pat vadinsime priešdėliais. Priešdėliai gali sudaryti priešdėlių grupes: pirmiausia eina dalelytės “te”, “tebe” arba “be”, toliau “ne” arba “nebe”, toliau priešdėlis, ir pagaliau sangrąžinė dalelytė, pvz., “teneapsi”. Visada kirčiuojamas paskutinis priešdėlių grupės elementas, išskyrus priešdėlių grupes, į kurias įeina visada kirčiuojamas priešdėlis “per”.

Priešdėlių grupę gali sudaryti ir vienas priešdėlis, išskyrus sangrąžinę dalelytę “si”.

Analogiškai, kaip ir su galūnėmis, negalima iš karto vienareikšmiškai atskirti priešdėlių grupę nuo kamieno. Pvz., “neper-skaito” - “ne-perinti”, “prisi-rinko” – “pri-sirpo”. Taigi ir šiuo atveju reikia sudaryti visų galimų priešdėlio ir kamieno atskyrimo hipotezių sąrašą.

Ką pirmiau atskirti, priešdėlį ar galūnę? Reikia pastebėti, kad veiksmažodis negali vienu metu turėti sangrąžinės galūnės ir sangrąžinės dalelytės „si“ priešdėlių grupėje. Jei veiksmažodis turi priešdėlį, tai sangrąžinė dalelytė gali būti tik priešdėlyje. Taigi: jei pirma atskiriam priešdėlį, tai galim nustatyti, ar jame yra sangrąžinė dalelytė ir jei taip, tai galūnės ieškoti tik tarp nesangrąžinių galūnių. Jei pirma atskiriam galūnę, tai galim nustatyti, ar ji sangrąžinė, ir jei taip, tai iš viso žodis negali turėti priešdėlio. Antrasis metodas atrodo priimtinesnis.

Kaip nustatyti, ar galūnė sangrąžinė? Kartais pačioje galūnėje rasti sangrąžinę dalį neįmanoma, nes egzistuoja galūnės, kurios gali būti ir sangrąžinės, ir ne. Pvz., galūnė „-antis“ gali būti ir nesangrąžinio esamojo laiko vyriškos giminės veikiamojo dalyvio „kerpantis“ (ką veikiantis) galūnė, ir sangrąžinio esamojo laiko padalyvio „kerpantis“ (ką veikiant) galūnė. Todėl paprasčiausia yra kartu su galūne saugoti dar vieną atributą, nurodantį, ar galūnė sangrąžinė.

Iš priešdėlių ir dalelyčių buvo sudarytos 252 priešdėlių grupes. Kadangi tai nėra labai daug, tai galima kompiuterio atmintyje saugoti jau suformuotas priešdėlių grupes kartu su kirčio vieta ir kirčio tipu. Tokiu atveju labai supaprastėja priešdėlyje kirčiuojamo žodžio kirčiavimas, nes galima iš karto saugoti kirčiuotos raidės vietą. Atmintyje saugant tik atskirus priešdėlius, atskiriant priešdėlių grupę reikia vadovautis šio skyrelio pradžioje aprašyta priešdėlių grupės sudarymo tvarka. Be to, sudėtingiau nustatyti ir kirčio vietą priešdėlių grupėje.

Panašiai, kaip ir daiktavardžių ir būdvardžių atveju, žodžių dalis patogu saugoti atskirose duomenų bazėse.

Priešdėlių DB ERD pateikta A.3 pav.

Priešdėlių grupė

# Unikalus identifikatorius

* Pavadinimas, pvz., „neatsi-“

* Visada kirčiuota

* Kirčio vieta

* Kirčio tipas

A.3 pav. Veiksmažodžių priešdėlių duomenų bazės esybių ryšių diagrama.

Priešdėlių grupė turi požymį Visada kirčiuota, jei į ją įeina priešdėlis “per”.

A.4.2.5. Galūnės

Atsižvelgiant į tai, kas pasakyta anksčiau, galūnių kirčiavimui reikalinga informcija pateikta A.4 pav.

Galūnė

# Unikalus identifikatorius

* Pavadinimas, pvz., „-ame“

* Kamieno tipas

* Asmenuotė

* Sangrąžinė

o Kirčio vieta

o Kirčio tipas

* Kirčiavimo taisyklė

* Priešdėlio “te” požymis

A.4 pav. Veiksmažodžių galūnių duomenų bazės esybių ryšių diagrama.

Galūnės atributas Priešdėlio “te” požymis leidžia atrinkti tas gramatines formas, kurios gali turėti šį priešdėlį.

Galūnės atributai Kirčio vieta ir Kirčio tipas yra neprivalomi, nes kai kurios galūnės niekada nekirčiuojamos.

Buvo sukurta 1065 veiksmažodžių kamienų duomenų bazė. Įtraukiant trumpąsias galūnes vadovautasi tais pačiais kriterijais, kaip ir daiktavardžių ir būdvardžių atveju. Galūnių sąrašas papildytas galūnėmis, prasidedančiomis “š” (žr. Kamiengalių asimiliacijos taisyklės). Galūnių skaičius sumažintas atmetant sutampančias galūnes, kurių atributai sutampa arba kurių atributus galima apjungti.

A.4.2.6. Kamienai

Kamienų DB ERD pateikta A.5 pav.

Veiksmažodis Kamienas

# Unikalus identifikatorius * Kamieno tipas

* Kamieno tipas * Pavadinimas, pvz., „neš“

* Asmenuotė * Kirčio vieta

* Kirtis šoka į priešdėlį esamajame laike * Kirčio tipas

o Esamojo laiko kamienas daugiaskiemenis

o Bendraties kamienas daugiaskiemenis

A.5 pav. Veiksmažodžių kamienų duomenų bazės esybių ryšių diagrama.

Atributas Kamieno tipas nusako, ar tai esamojo laiko, ar būtojo kartinio laiko, ar bendraties kamienas.

Galūnės atributas Asmenuotė yra dvejetainis šablonas, kuriame vienetai yra tose pozicijose, prie kurių asmenuočių kamienų gali būti pridėta ši galūnė, o Veiksmažodžio atributas Asmenuotė gali turėti vienetą tik vienoje pozicijoje.

Atributai Esamojo laiko kamienas daugiaskiemenis ir Bendraties kamienas daugiaskiemenis yra išskaičiuojami, todėl jų saugoti nebūtina.

Tradiciškai, norint nurodyti kirčio vietą žodyje, nurodomas kirčiuoto skiemens numeris nuo pabaigos. Šios tradicijos prisilaikysiu nurodant kirčio vietą kamienuose. Tačiau nurodant kirčio vietą galūnėse ir priešdėliuose patogiau nurodyti kirčiuotos raidės vietą. Tai taikoma ir daiktavardžiams bei būdvardžiams.

A.4.2.7. Bendras veiksmažodžių kirčiavimo algoritmas

2.      Sąrašą “kamienas - galūnės identifikatorius” papildyti įrašais, gautais kamienams pritaikius asimiliacijos taisykles: “dž” ir “č” prieš minkštą galūnę; “s”, “š”, “z”, “ž” prieš raide “s” prasidedančias galūnes; “k” ir “g” prieš raide “k” prasidedančias galūnes; “ū” ir “y” prieš būsimojo laiko 3 asmens galūnę “–s” (smulkiau žr. skyrelyje “Kamiengalių asimiliacijos taisyklės”).

4.      Kiekvienam 3 punkte sudaryto sąrašo įrašui kamienų sąraše randami visi sutampantys kamienai. Paieška atliekama priklausomai nuo kamieno tipo, kurį nusako nagrinėjamo žodžio galūnė. Be to, surasto kamieno asmenuotė turi tenkinti galūnės asmenuotės šabloną, o taip pat būsimojo laiko 3 asmens kamieno asimiliacijos taisykles. Sudaryti sąrašą: “priešdėlių grupės identifikatorius – kamieno identifikatorius - galūnės identifikatorius”.

6.      Jei yra priešdėlių grupė ir ji visada kirčiuota, suformuoti atributą “Kirčio vieta – priešdėlis”. Pereiti į 8 punktą.

8.      Jei Kirčio vieta yra priešdėlis, kirčiuoti žodį pagal priešdėlių grupės atributus Kirčiuota raidė ir Kirčio tipas. Jei Kirčio vieta yra kamienas, kirčiuoti žodį pagal kamieno atributą Kirčiuotas skiemuo ir 7 punkte suformuotą kirčio tipą, o jei jis nebuvo suformuotas, pagal kamieno atributą Kirčio tipas. Jei Kirčio vieta yra galūnė, kirčiuoti žodį pagal galūnės atributus Kirčiuota raidė ir Kirčio tipas.

1.      daiktavardžiai, pvz., “foje`”, “taksi`”;

3.      prieveiksniai, pvz., “dau~g”, “namo~”, “ryto’j”, “ty’čia”;

5.      visi prielinksniai, pvz., “dėka`”, “dė~lei”, “lin~k”, “vie~toj”;

7.      visi jaustukai, pvz., “a~čiū”, “dė~kui”, “sudie~”, “laba~nakt”;

1.      kai kurių daiktavardžių kai kurie linksniai, pvz., žodžio “petys” vk “peties” ir vį “petimi” (palyginkite, “žaltys” – vk “žalčio”, vį “žalčiu”), žodžiai “viešpats” ir “mėnuo” kituose linksniuose turi atitinkamai 11 (pvz., “žvėris”) ir 4 (pvz., “brolis”) kamienų tipų galūnes, skiriasi tik vienaskaitos vardininkas;

3.      veiksmažodžiai “turi” ir “gali” su visais priešdėliais kirtį atitraukia į priešdėlį, išskyrus priešdėlius “ne”, “nebe”, “be”, pvz., “i`šgali” ir “nega~li” ([ 4 ] 191psl.).

Analogiškai, kaip daiktavardžiai, būdvardžiai ir veiksmažodžiai, sukirčiuoti nekaitomi žodžiai rašomi į tą patį sukirčiuotų žodių sąrašą, ir tik po to iš šio sąrašo išrenkamas vienas kirčiavimo variantas arba žodis paliekamas nekirčiuotas. Į nekaitomų žodžių duomenų bazę įrašyti žodžiai gali sutapti su kito žodžio kokia nors gramatine forma, pvz., įvardis “me’s” su veiksmažodžio būsimuoju laiku “me`s”, veiksmažodžio išimtis “yra`” su kito veiksmažodžio ta pačia gramatine forma “y~ra”. Šiuo atveju jokių naujų problemų neiškyla, paprasčiausiai kirčiuotų žodių sąraše gaunami keli įrašai. Problemos atsiranda tada, kai žodis skiriasi iš bendros taisyklės tik kirčio vieta, pvz., žodis “negali” pagal veiksmažodžių kirčiavimo taisykles kirčiuojamas “ne`gali”, tačiau tai yra klaida, nes turėtų būti kirčiuojama “nega~li”, todėl šią formą reikėtų įrašyti į nekaitomų žodžių žodyną kaip išimtį. Tačiau kaip sukirčiuotų žodžių sąraše turint šiuos du žodžius atrinkti, kad vienas iš jų sukirčiuotas klaidingai. Paprasčiausias būdas – prie tokių išimčių saugoti dar vieną atributą – prioriteto požymį.

ERD terminais nekaitomų žodžių duomenų bazė turėtų būti, kaip pavaizduota A.6 pav.:

Nekaitomas žodis

Ţodis

Kirčio vieta

Priegaidė

Prioriteto požymis

A.6 pav. Nekaitomų žodžių ERD.

A.5. Eksperimentų rezultatai ir tolimesnių darbų kryptys

Buvo sudarytos 8765 veiksmažodžių kamienų, 53277 daiktavardžių ir būdvardžių kamienų ir 2306 nekaitomų žodžių duomenų bazės. Dauguma žodžių paimta iš [ 2 ] ir [ 4 ]. Kirčiavimo patikimumui nustatyti buvo atlikti testai su maždaug dviejų puslapių grožinės literatūros ir publicistikos tekstais. Jei žodį galima kirčiuoti keliais būdais, jokie vieno varianto atrinkimo algoritmai nebuvo taikomi, o žodis buvo paliekamas nekirčiuotas. Rezultatai pateikti A.3 lentelėje.

A.3 lentelė. Eksperimentų rezultatai.

 

 

Kirčiuota teisingai

Kirčiuota klaidingai

Nekirčiuota, nes nerasta žodyne

Nekirčiuota, nes daug kirčiavimo variantų

Iš viso

Publicistika

Žodžių sk.

341

0

15

57

413

%

82,57 %

0 %

3,67 %

13,80 %

100 %

Grožinė literatūra

Žodžių sk.

406

1

6

85

498

%

81,53 %

0,20 %

1,20 %

17,07 %

100 %

Žodyne nerasta vardų, pavardžių, vietovardžių, daiktavardžių su mažybinėmis priesagomis ir būdvardžių su priešdėliais.

Tolimesnių darbų kryptys:

2.      Ištirti vieno kirčiavimo varianto atrinkimo algoritmus;

1.      Ambrazas, V., K. Garšva, A. Girdenis … [et al.] (1996). A Grammar of Modern Lithuanian. 2nd. ed. Mokslo ir enciklopedijų leidykla, Vilnius. 743 pp. (in Lithuanian)

3.      R. Barker. Entity Relationship Modelling.

5.      V. Vaitkevičiūtė. Bendrinės lietuvių kalbos kirčiavimas.

7.      Nebbia, L., (1990). Text-to-speech synthesis system for Italian: an overview. CSELT Technical reports, Vol. XVIII, No. 2.

9.      Kasparaitis. P., (1999). Transcribing of the Lithuanian Text Using Formal Rules. Informatica.