PRIEDAS B (REMIANTIS A. RUDŽIONIO, K. RATKEVIČIAUS, V. RUDŽIONIO, P. KASPARAIČIO PATEIKTA MEDŽIAGA)

 

LIETUVIŲ KALBOS SINTEZĖS IR ATPAŽINIMO TAIKYMAI

 

1. Įvadas

2. Elektros prietaisų valdymas balsu

3. Elektrinių matavimų valdymas ir rezultatų išvedimas balsu

4. Balso komandų atpažinimo ir sintezės iš teksto panaudojimas internete

5. Balso komandų atpažinimo tikslumo tyrimai

6. Išvados

 

B.1. Įvadas

 

. Aptariama jau paruošta programinė ir aparatūrinė įranga, skirta elektros ir matavimo prietaisams valdyti balsu bei rezultatams išvesti balsu. Apžvelgiamos lietuvių kalbos sintezatoriaus “Aistis” panaudojimo galimybės kompiuterinio dialogo balsu prototipe. Taip pat aprašomi balso komandų atpažinimo eksperimentų rezultatai.

Valdymo balsu uždaviniams spręsti pakanka nedidelio komandų skaičiaus, iki 10, bet reikalingas aukštas komandų atpažinimo tikslumas. Vartotojo požiūriu patogesnis yra daugiadiktorinis atpažinimas, nes naujam vartotojui nereikia iš naujo apmokyti atpažinimo programos. Tačiau kaip rodo įvairių tyrimų rezultatai, daugiadiktorinis atpažinimas yra žymiai sudėtingesnis ir šiuo metu užtikrina gerokai žemesnį atpažinimo tikslumą už viendiktorinį atpažinimą. Todėl pasirinktas palyginti paprastas skaičiavimų požiūriu projekcinis kalbos atpažinimo algoritmas [1]. Tai dinaminio laiko ištiesinimo algoritmo (DTW) modifikacija. Atpažinimo tikslumui padidinti naudojamas fonetiškai segmentuotų kalbos signalų parametrų vidurkinimas [2] bei originalus balso komandų ribų aptikimo algoritmas [3].

Elektrinio matavimo rezultatui pranešti balsu ruošiama sintezės iš žodžių bei frazių programa. Lietuviško laikraščio fragmentui iš Interneto perskaityti balsu bus naudojamas VU sukurtas sintezatorius “Aistis”.  Planuojama sujungti interneto naršyklės programą su balso komandų atpažinimo programa ir  naršymą po internetą valdyti balso komandomis.

Paprastai atpažinimo programoms apmokyti ir testuoti naudojami garsynai, tačiau šiame darbe visų pirma bandyta išsiaiškinti mikrofonų įtaką atpažinimo tikslumui, todėl visi eksperimentai atlikti diktuojant balso komandas per mikrofoną. Projekcinis atpažinimo algoritmas keletą metų buvo optimizuojamas MS-DOS aplinkoje, todėl bandyta įvertinti kaip algoritmas veikia Windows’98 operacinėje sistemoje. Be to, siekta nustatyti, kaip balso komandų atpažinimo tikslumas priklauso nuo balso komandų ilgio bei balso komandų akustinio panašumo. Taip pat su profesionaliu mikrofonu atlikti 10 komandų atpažinimo testai.

 

B.2. Elektros prietaisų valdymas balsu

 

Balso komandų atpažinimo algoritmas pritaikytas įvairiems elektros prietaisams įjungti ir išjungti. Tam prie kompiuterio per nuoseklų prievadą prijungiamas valdiklis, kuris per I2C magistralę gali įjungti arba išjungti keliolika prietaisų. Atpažinimo programa inicializuoja pasirinktą nuoseklų prievadą: nustatomas mainų greitis, stop bitų skaičius, simboliui koduoti skirtas bitų skaičius. Po to per nuoseklų prievadą siunčiamas atpažintos komandos numeris. Kadangi perduodamas tik vienas duomenų baitas, neskaičiuojama ir nesiunčiama kontrolinė suma.

Šiuo metu yra didelis valdančių įrenginių pasirinkimas: galima rinktis pramoninį valdiklį, įstatomą į kompiuterį plokštę, per nuoseklų arba lygiagretų prievadą valdomus modulius ir pan. Pasirinktas procesoriaus Dallas Semiconductor DS5000T bazėje realizuotas valdiklis, sujungtas su I2C magistralės imtuvu ir simistorių bloku. Valdymo balso komandomis aparatūrinės įrangos funkcinė schema pateikta B.1 pav.

Balso komanda į kompiuterį įvedama iš mikrofono per garsinę plokštę. Kompiuterinė komandų atpažinimo programa per nuoseklų RS232C interfeisą pasiunčia atpažintos komandos numerį į procesorinį valdiklį. Po to numeris perduodamas per I2C magistralę į I2C imtuvą, turintį 8 skaimeninius išėjimus. Prie I2C magistralės galima jungti dar 7 imtuvus  ir valdyti iki 64 prietaisų. Tam, kad būtų galima skaitmeniniais signalais įjungti arba išjungti elektrinius prietaisus, maitinamus iš kintamos 220V įtampos, panaudoti simistoriai.

Programinę įrangą sudaro jau minėta personaliniame kompiuteryje veikianti komandų atpažinimo programa bei valdiklio programa, per nuoseklų prievadą iš kompiuterio priimanti atpažintos komandos numerį ir per I2C magistralę atliekanti elektrinių įrenginių įjungimą/išjungimą. Valdiklio programa į valdiklio procesorių užkraunama iš kompiuterio per nuoseklų interfeisą. Valdiklio programa inicializuoja procesoriaus nuoseklų prievadą nustatytam darbo režimui, po to per nuoseklų prievadą priima iš kompiuterio atpažintos komandos numerį. Pagal priimtą numerį valdiklis per I2C magistralę įjungia arba išjungia atitinkamą elektrinį prietaisą. Be to, į skystų kristalų indikatorių išvedama atpažinta balso komanda ir jos numeris. Bandymai atlikti su 10 komandų, kurios įjungia arba išjungia 5 prietaisus.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

B.1 pav. Valdymo balso komandomis aparatūrinės įrangos funkcinė schema: MIC-mikrofonas,

PC-kompiuteris

 
 

 

 

 

 

 


B.3. Elektrinių matavimų valdymas ir rezultatų išvedimas balsu

 

Elektriniams matavimams atlikti pasirinktas jau minėtas antrame skyriuje valdiklis. Matuojamas dydis – temperatūra, nors pakeitus daviklį, galima matuoti slėgį, dujų, garo, skysčio debitą, deguonies koncentraciją ir pan. Valdiklio programa per nuoseklų prievadą iš kompiuterio priima atpažintos komandos numerį, kuris iššifruojamas arba kaip atitinkamo elektrinio prietaiso įjungimo ar išjungimo komanda, arba kaip kurio nors objekto temperatūros matavimo komanda. Valdiklyje realizuoti 8 temperatūros matavimo kanalai. Jei valdiklyje gautas komandos numeris iššifruojamas kaip temperatūros matavimo komanda, prie keitiklio “analogas-kodas” per multiplekserį prijungiamas atitinkamo kanalo varžinis temperatūros daviklis, paleidžiama procesorinė temperatūros matavimo programa, matavimo rezultatas išvedamas į skystų kristalų indikatorių ir per nuoseklų prievadą persiunčiamas į personalinį kompiuterį (4 baitai). Valdiklyje naudojamas ICL135C keitiklis “analogas-kodas”, kurio tikslumas daugiau kaip 14 skilčių ir ženklo skiltis (±20000 gradacijų). Personalinio kompiuterio programa pagal gautą matavimo rezultatą formuoja garsinį pranešimą, pvz., jei išmatuota pirmo objekto temperatūra yra 21,12 °C, tai išvedamas pranešimas:”Kambario temperatūra yra dvidešimt vienas kablelis dvylika šimtųjų laipsnio šilumos”. Kompiuteryje saugomas garsinis failas, kuriame paeiliui sudėtos 56 žodžių garsinės realizacijos (36 žodžiai – skaičių pavadinimai, 20 žodžių – pagalbiniai žodžiai ir frazės).

 

B.4. Balso komandų atpažinimo ir sintezės iš teksto panaudojimas internete

 

Planuojama sujungti interneto naršyklės programą su balso komandų atpažinimo programa ir  naršymą po internetą valdyti balso komandomis. Kitas uždavinys – informaciją, gautą iš Interneto, perskaityti balsu. Tam bus naudojamas Vilniaus universitete sukurtas sintezatorius “Aistis”. Šis sintezatorius Windows operacinės sistemos aplinkoje gali atidaryti tekstinį langą, kuriame vartotojas surenka lietuvišką tekstą arba nurodo perskaityti tekstą iš failo, pažymi tekstą ir duoda komandą perskaityti tekstą balsu. Po to pažymėtas tekstas automatiškai kirčiuojamas, transkribuojamas ir po vieną žodį sintezuojamas. Vartotojas gali keisti sintezuojamos kalbos tempą bei nutildyti sintezatorių. Balso komandų atpažinimo programa paleidžia sintezatorių ir per komandinę eilutę perduoda sintezuojamo tekstinio failo pavadinimą bei sintezavimo greitį. Sintezuojamas visas nurodytas failas. Perspektyvoje numatyta apjungti balso komandų atpažinimo ir sintezės iš teksto programas.

 

B.4.1. Lietuvių kalbos sintezės iš teksto programa “Aistis”

 

Pateiksime kai kurias lietuvių kalbos kompiuterinės sintezės iš teksto programos “Aistis” charakteristikas. Sintezatorius sudarytas iš tokių pagrindinių blokų: žodžių skiemenavimas, žodžių kirčiavimas, transkribavimas ir kalbos signalo formavimas.

Skiemenavimui naudojamas algoritmas, kuris remiasi lietuvių kalbos skiemens struktūra, taip pat naudojamas priešdėlių atskyrimas bei balsių kombinacijos, kurios negali priklausyti vienam skiemeniui. Žodžių kirčiavimas remiasi žodžių dalių žodynais ir kaitymo bei kirčiavimo taisyklėmis [4].

Kirčiavimo procesas išskaidytas į du etapus: 1) atpažinti visas gramatines formas ir jas sukirčiuoti; 2) išrinkti vieną kirčiavimo variantą. Kol kas nagrinėjami tik atskiri žodžiai ir į kontekstą neatsižvelgiama. Atlikus testus su realiais grožinės literatūros ir publicistikos tekstais pasiektas toks žodžių kirčiavimo tikslumas: apie 82,6% sukirčiuota teisingai, apie 0,1% sukirčiuota klaidingai, apie 1,9% nekirčiuota, nes nerasta žodynuose, 15,4% – nekirčiuota, nes imant atskirą žodį galimi keli kirčiavimo variantai.

Transkribavimui (teksto perrašymui į fonetinių vienetų seką) naudojamos formalios taisyklės, kurių kairėje pusėje nurodoma einamoji raidė, einamosios raidės požymiai (skiemens riba, kirtis ir priegaidė, kietumas/minkštumas), kairysis kontekstas ir dešinysis kontekstas, o dešinėje pusėje nurodomas fonetinis vienetas, kiek raidžių praleisti pritaikius taisyklę ir nuo kurios taisyklės pradėti kitos taisyklės paiešką. Transkribavimui iš viso naudojama apie 700 taisyklių [5].

Kalbos signalo formavimui pasirinktas konkatenacinis metodas, kuriame jungiami natūralios diktoriaus kalbos segmentai. Sintezatoriuje naudojamas diktoriaus J. Šalkausko balsas. Fonetinių vienetų bazę sudarė prof. A. Girdenis. Naudojami įvairių ilgių fonetiniai vienetai: atskirų garsų dalys (pvz., sprogstamieji priebalsiai sudaromi iš dviejų dalių), atskiri garsai (balsiai, priebalsiai), garsų poros (dvibalsiai, mišrieji dvigarsiai). Iš viso fonetinių vienetų bazėje yra 476 elementai. Jokie papildomi veiksmai siekiant padaryti sklandesnius perėjimus tarp garsų nėra atliekami, o vienas prie kito garsai dedami tokie, kokie buvo iškirpti iš diktoriaus kalbos. Tiesa, segmentai buvo kerpami taip, kad juos sujungus būtų išlaikoma pagrindinio tono struktūra.Viena iš silpnų vietų yra intonacijos modeliavimas, o tiksliau intonacija visai nemodeliuojama, o naudojamas toks pagrindinis tonas, koks buvo natūralioje kalboje.

Sintezuotos kalbos suprantamumui įvertinti buvo sudarytos trys grupės po 30 sakinių ir trys grupės po 30 žodžių. Minėti sakiniai ir žodžiai buvo: 1) perskaityti diktoriaus Juozo Šalkausko, 2) sintezuoti naudojant sintezatorių „Aistį”, 3) sintezuoti naudojant „Aistį”, tačiau nekirčiuojant žodžių, 4) naudojant Dolphin Systems for People with Disabilities sintezatorių „Apollo II” [6]. Kalbos suprantamumui įvertinti buvo pasitelkti klausytojai – 85 studentai nuo 20 iki 31 metų, kuriems ir buvo pateikiamos įvairios įgarsintų sakinių ir žodžių grupės. Klausytojai turėjo užrašyti, ką išgirdo. Užrašai patikrinti rankiniu būdu. Atskiri žodžiai suskirstyti į nesuprastus, klaidingai suprastus ir teisingai suprastus. Įvertinant žodžių suprantamumą sakiniuose buvo išskirti daugiaskiemeniai esminiai žodžiai ir jie suskirstyti į analogiškas tris grupes. Įvertinant sakinių suprantamumą jie buvo suskirstyti į nesuprastus ir teisingai suprastus. Teisingai suprastais laikomi tokie sakiniai, kuriuose pilnai išlaikyta sakinio mintis. Visų keturių kalbos variantų įvertinimo naudojant tris žodžių ir sakinių grupes rezultatai pateikti B.1 lentelėje.

 

B.1 lentelė. Diktoriaus ir sintezuotos kalbos suprantamumas

 

 

 

Atskiri žodžiai

 

Žodžiai sakinyje

 

Sakiniai

 

Nesuprasta

Klaidingai suprasta

Teisingai suprasta

Nesuprasta

Klaidingai suprasta

Teisingai suprasta

Nesuprasta

Teisingai suprasta

Diktorius

0,1%

1,3%

98,5%

0,4%

0,3%

99,3%

1,9%

98,1%

Apollo II

24,1%

23,8%

52,1%

28,3%

5,6%

66,1%

56,6%

43,4%

Aistis

3,7%

8,2%

88,1%

4,2%

2,6%

93,2%

16,6%

83,4%

Aistis be kirčiavimo

10,5%

12,7

76,8%

16,9%

4,5%

78,6%

37,8%

62,2%

 

„Aistis“ atsilieka nuo diktoriaus (atskirų žodžių suprantamumas – 10,4%, žodžių sakinyje suprantamumas – 6,1%, sakinių suprantamumas – 14,7%), tačiau žymiai pranoksta sintezatorių „Apollo II” (atitinkamai 36,0%, 27,1%, 40,0%). Sintezatoriuje naudojant kirčiavimo algoritmus gaunamas aiškus sintezuotos kalbos suprantamumo padidėjimas, lyginant su sinteze, kurioje nenaudojamas joks kirčiavimo algoritmas (atitinkamai 11,3%, 14,6%, 21,2%).

 

B.5. Balso komandų atpažinimo tikslumo tyrimai

 

Atlikti atpažinimo algoritmo tikslumo tyrimai vienam diktoriui. Apmokymui naudoti dviejų balso komandų du ištarimai ir abiejų ištarimų vidurkis. Testavimas atliekamas  100 kartų ištariant kiekvieną balso komandą ir skaičiuojant teisingai atpažintų komandų skaičių bei panašumo mato įvertinimo vidurkį. Siekta nustatyti, kaip balso komandų atpažinimo tikslumas priklauso nuo operacinės sistemos, mikrofono tipo, balso komandų ilgio bei balso komandų kontrastingumo. Tuo atveju, kai atpažinimo tikslumas lygus 100%, komandų atpažinimo tikslumo palyginimas atliekamas pagal panašumo mato įvertinimo vidurkį. Žinant, kad atpažinimo tikslumas žymiai priklauso nuo apmokymo ir balso komandos ištarimo, stengtasi visus testus atlikti esant panašioms sąlygoms, t.y., esant panašiam triukšmo lygiui ir tai pačiai diktoriaus balso kokybei. Pastebėta, kad testą kartojant kitą dieną tam pačiam diktoriui, pastebimai keičiasi panašumo mato įvertinimo vidurkiai, tačiau komandų atpažinimo tikslumo priklausomybės nuo nagrinėjamų faktorių dėsningumai išlieka.

Sekantis eksperimentas atliktas su dviem DB Boeder firmos mikrofonais: vidutinės klasės ir profesionaliu. Siekta nustatyti, kaip balso komandų atpažinimo tikslumas priklauso nuo operacinės sistemos ir mikrofono tipo. Eksperimento rezultatai pateikti B.2 lentelėje.

 

B.2 lentelė. Komandų atpažinimo tikslumo priklausomybė nuo operacinės sistemos ir mikrofono tipo

 

Operacinė sistema

MS-DOS
Windows 98

Mikrofonas

Tipinis

Profesionalus

Tipinis

Profesionalus

Komanda

Įjunk

Išjunk

Įjunk

Išjunk

Įjunk

Išjunk

Įjunk

Išjunk

Tikslumas,%

96

93

100

100

100

99

100

100

Panašumas

26.79

33.33

33.22

30.57

36.53

38.54

39.12

39.72

 

Atpažinimo algoritmas tiksliau veikia Windows 98 operacinėje sistemoje. Priežasčių reiktų ieškoti MS-DOS atpažinimo programos dalyje, kuri tiesiogiai programuoja garso plokštę. Tuo pačiu tyrimo rezultatai rodo, kad atpažinimo algoritmas sėkmingai perkeltas į Windows operacinę sistemą. Sekantys atpažinimo algoritmo tikslumo tyrimai buvo vykdomi Windows 98 operacinėje sistemoje. Tyrimams naudoti 2 firmos Boeder AG mikrofonai: tipinis ir profesionalus bei mikrofonai MD 200 ir MD 52B. Nagrinėta komandų atpažinimo tikslumo priklausomybė nuo komandų tipo: viename eksperimente naudotos akustiškai panašios komandos “įjunk” ir “išjunk”, kitame eksperimente – akustiškai kontrastingos komandos “įjunk” ir “perskaityk”. Eksperimentų rezultatai pateikti B.2 paveikslėlyje.

 

 

B.2 pav. Dviejų komandų atpažinimo tikslumo priklausomybė nuo komandų

 ir mikrofono tipų

 

Apie kontrastingų balso komandų pranašumą prieš akustiškai panašias balso komandas galima spręsti tik iš panašumo mato įvertinimų vidurkių, nes visais atvejais gautas šimtaprocentinis balso komandų atpažinimo tikslumas.

Tam, kad įvertinti distancinio valdymo balsu galimybes, išbandytas radijo mikrofonas Audio-technica LIB-81HC. Gauti rezultatai: komandai “įjunk” panašumas – 39.20, komandai “išjunk” – 40.02, abiejų komandų atpažinimo tikslumas yra 100%. Tai atitinka atpažinimo tikslumą, gaunamą su DB Boeder profesionaliu mikrofonu. Daugiau eksperimentų su šiuo mikrofonu nebuvo atlikta.

Sekančiuose eksperimentuose nagrinėta komandų atpažinimo tikslumo priklausomybė nuo komandų ilgio įvairiems mikrofonams. Pirmame eksperimente naudotos trumpos komandos “įjunk” ir “perskaityk”, antrame eksperimente – komandos iš dviejų žodžių “įjunk lempą” ir “perskaityk balsu”, trečiame eksperimente – komandos iš trijų žodžių “įjunk apšvietimo lempą” ir “perskaityk pranešimą balsu”. Eksperimentų rezultatai pateikti B.3 paveikslėlyje.

 

B.3 pav. Dviejų komandų atpažinimo tikslumo priklausomybė nuo komandų

 ilgio įvairiems mikrofonams

 

Komandų panašumo mato įvertinimo vidurkių analizė (B.3 pav.) rodo, kad ilginant komandą, turėtų didėti ilgesnių komandų atpažinimo tikslumas. Kiekvienu konkrečiu atpažinimo algoritmo taikymo atveju reiktų suderinti laikinius komandų ištarimo apribojimus su komandų atpažinimo tikslumo priklausomybe nuo komandų ilgio.

Su profesionaliu DB Boeder mikrofonu atlikti 10 komandų atpažinimo testai. Tam, kad įvertinti apmokymo įtaką atpažinimo tikslumui, atlikti atpažinimo testai to paties diktoriaus etalonams, kito diktoriaus etalonams ir mišriems etalonams (apmokymo metu vienas diktorius diktuoja visas 10 komandų, po to kitas diktorius diktuoja visas 10 komandų, po to programiškai surandami tos pačios komandos abiejų diktorių ištarimų vidurkiai ir naudojami kaip etalonai). Sudarant komandų sąrašą, stengtasi į jį įtraukti akustiškai nepanašias, bet realiai įmanomas komandas neįgaliam žmogui dirbant prie kompiuterio. Esminė eksperimento rezultatų dalis pateikta B.4 paveikslėlyje.

B.4 pav. Dešimties komandų atpažinimo tikslumo priklausomybė nuo apmokymo

 

Visų komandų atpažinimo tikslumas to paties diktoriaus ir mišriems etalonams yra 100% (paveikslėlyje neparodyta). Tuo tarpu komandų atpažinimo tikslumas kito diktoriaus etalonams daugumos komandų atveju neviršija atpažinimo slenksčio, t.y., komandos praktiškai yra neatpažįstamos. Tai dar kartą iliustruoja apmokymo reikšmę atpažinimo tikslumui.

Taip pat bandymai atlikti su 10 komandų, kurios įjungia arba išjungia 5 prietaisus. Atlikti 10 komandų atpažinimo tikslumo tyrimai treniruotam ir netreniruotam diktoriams. Treniruotas diktorius eilę metų vykdė įvairius kalbinius diktavimo ir testavimo eksperimentus. Apmokymui naudoti 10 balso komandų du ištarimai ir abiejų kiekvienos komandos ištarimų vidurkis. Testavimas buvo atliekamas  100 kartų ištariant kiekvieną balso komandą ir skaičiuojant teisingai atpažintų komandų skaičių bei panašumo mato įvertinimo vidurkį. Siekta nustatyti, kaip balso komandų atpažinimo tikslumas priklauso nuo balso komandų kontrastingumo ir diktoriaus treniruotumo. Tuo atveju, kai atpažinimo tikslumas lygus 100%, komandų atpažinimo tikslumo palyginimas atliekamas pagal panašumo mato įvertinimo vidurkį. Eksperimentai atlikti su profesionaliu mikrofonu. Akustiškai panašių balso komandų atpažinimo tikslumo įvertinimai dviems diktoriams pateikti B.5 paveikslėlyje. Treniruoto diktoriaus balso komandos atpažįstamos akivaizdžiai tiksliau, nors ne visais atvejais.

B.5 pav. Dešimties akustiškai panašių balso komandų atpažinimo tikslumo priklausomybė

 nuo diktoriaus treniruotumo

 

Daugeliu atvejų galima taip suformuoti balso komandų sąrašą, kad jame būtų tik akustiškai kontrastingos komandos. Pvz., vietoje komandos “įjunk lempą” galime naudoti komandą “uždek lempą”, o vietoje komandos “išjunk lempą” – komandą “gesink šviesą” ir pan. Akustiškai skirtingų balso komandų atpažinimo tikslumo įvertinimai treniruotam ir netreniruotam diktoriams pateikti B.6 paveikslėlyje.

B.6 pav. Dešimties akustiškai skirtingų balso komandų atpažinimo tikslumo priklausomybė

nuo diktorių treniruotumo

 

Treniruoto diktoriaus balso komandos buvo atpažintos 100% tikslumu, o netreniruoto diktoriaus atveju gauta tik viena klaida, todėl atpažinimo tikslumo palyginimas atliktas pagal panašumo mato įvertinimo vidurkį. Visos dešimt balso komandų, ištartų treniruoto diktoriaus, atpažįstamos su didesniu patikimumu lyginant su netreniruoto diktoriaus ištartomis balso komandomis.

 

B.7. Išvados

 

1.      Sukurta valdymo balsu įranga leidžia balsu įjungti/išjungti iki 8 elektros prietaisų.

2.      Elektrinių matavimų valdymo balsu įranga matuoja temperatūrą viename iš 8 kanalų, o matavimo rezultatas išvedamas balsu. Vietoje temperatūros, pakeitus daviklį, galima matuoti slėgį, debitą ir pan.

3.      Lietuvių kalbos sintezatorius “Aistis” bus naudojamas lietuviškai informacijai iš Interneto perskaityti balsu.

4.      Projekcinis atpažinimo algoritmas tiksliau veikia Windows’98 operacinėje sistemoje lyginant su MS-DOS operacine sistema.

5.      Balso komandų, sudarytų iš 2-3 akustiškai nepanašių žodžių, atpažinimo tikslumas didesnis už trumpų komandų ir, ypatingai, už trumpų akustiškai panašių komandų atpažinimo tikslumą.

6.      Geriausias balso komandų atpažinimo tikslumas gautas su profesionaliu DB Boeder mikrofonu ir radijo mikrofonu Audio-technica LIB-81HC.

7.      Projekcinis atpažinimo algoritmas gali būti naudojamas kompiuterinio dialogo balsu prototipe, tik reiktų didinti apmokymui ir atpažinimui naudojamų etalonų apimtį.

8.      Valdymo balsu sistemose svarbią reikšmę turi diktoriaus treniruotumas.

 

Literatūros sąrašas

 

[1]     A. Rudzionis.Recognition by averaged templates. COST249: “Continuous Speech Recognition Over the Telephone”, draft minutes of the 1st Management Committee Meeting.- Brussel, Belgium, 1994, pp. 41-47.

 [2]    A. Rudžionis, V. Rudžionis. Izoliuotų žodžių atpažinimas vidurkinant fonetiškai segmentuotus kalbinių signalų parametrus. Informacinės technologijos-96, Kaunas, Technologija,1996, pp.168-174.

[3]     A. Rudžionis, K. Ratkevičius, V. Rudžionis. Valdymas balso komandomis ir informacijos paieška STENOKOMO sistemoje. Automatika ir valdymo technologijos-98, Kaunas, Technologija,1998, pp.57-63.

[4]     Kasparaitis, P. Automatic Stressing of the Lithuanian Text on the Basis of a Dictionary. Informatica, 11(1), 2000: pp. 19-40.

[5]     Kasparaitis, P. Transcribing of the Lithuanian Text Using Formal Rules. Informatica, 10(4), 1999: pp. 367-376.

[6]        Dolphin Speech Synthesizer Series 2 User Guide: www.e-link.ch/square1/apollo2.html