PRIEDAS
B (REMIANTIS A. RUDŽIONIO, K. RATKEVIČIAUS, V. RUDŽIONIO, P. KASPARAIČIO
PATEIKTA MEDŽIAGA)
|
LIETUVIŲ KALBOS SINTEZĖS
IR ATPAŽINIMO TAIKYMAI |
1. Įvadas
2. Elektros prietaisų
valdymas balsu
3. Elektrinių matavimų
valdymas ir rezultatų išvedimas balsu
4. Balso komandų
atpažinimo ir sintezės iš teksto panaudojimas internete
5. Balso komandų
atpažinimo tikslumo tyrimai
6. Išvados
. Aptariama jau paruošta
programinė ir aparatūrinė įranga, skirta elektros ir matavimo prietaisams
valdyti balsu bei rezultatams išvesti balsu. Apžvelgiamos lietuvių kalbos
sintezatoriaus Aistis panaudojimo galimybės kompiuterinio dialogo balsu
prototipe. Taip pat aprašomi balso komandų atpažinimo eksperimentų rezultatai.
Valdymo balsu uždaviniams
spręsti pakanka nedidelio komandų skaičiaus, iki 10, bet reikalingas aukštas
komandų atpažinimo tikslumas. Vartotojo požiūriu patogesnis yra
daugiadiktorinis atpažinimas, nes naujam vartotojui nereikia iš naujo apmokyti
atpažinimo programos. Tačiau kaip rodo įvairių tyrimų rezultatai,
daugiadiktorinis atpažinimas yra žymiai sudėtingesnis ir šiuo metu užtikrina
gerokai žemesnį atpažinimo tikslumą už viendiktorinį atpažinimą. Todėl
pasirinktas palyginti paprastas skaičiavimų požiūriu projekcinis kalbos atpažinimo
algoritmas [1]. Tai dinaminio laiko ištiesinimo algoritmo (DTW) modifikacija.
Atpažinimo tikslumui padidinti naudojamas fonetiškai segmentuotų kalbos signalų
parametrų vidurkinimas [2] bei originalus balso komandų ribų aptikimo
algoritmas [3].
Elektrinio matavimo
rezultatui pranešti balsu ruošiama sintezės iš žodžių bei frazių programa.
Lietuviško laikraščio fragmentui iš Interneto perskaityti balsu bus naudojamas
VU sukurtas sintezatorius Aistis.
Planuojama sujungti interneto naršyklės programą su balso komandų
atpažinimo programa ir naršymą po
internetą valdyti balso komandomis.
Paprastai atpažinimo
programoms apmokyti ir testuoti naudojami garsynai, tačiau šiame darbe visų
pirma bandyta išsiaiškinti mikrofonų įtaką atpažinimo tikslumui, todėl visi
eksperimentai atlikti diktuojant balso komandas per mikrofoną. Projekcinis
atpažinimo algoritmas keletą metų buvo optimizuojamas MS-DOS aplinkoje, todėl
bandyta įvertinti kaip algoritmas veikia Windows98 operacinėje sistemoje. Be
to, siekta nustatyti, kaip balso komandų atpažinimo tikslumas priklauso nuo
balso komandų ilgio bei balso komandų akustinio panašumo. Taip pat su
profesionaliu mikrofonu atlikti 10 komandų atpažinimo testai.
B.2. Elektros
prietaisų valdymas balsu
Balso komandų atpažinimo algoritmas
pritaikytas įvairiems elektros prietaisams įjungti ir išjungti. Tam prie
kompiuterio per nuoseklų prievadą prijungiamas valdiklis, kuris per I2C
magistralę gali įjungti arba išjungti keliolika prietaisų. Atpažinimo programa
inicializuoja pasirinktą nuoseklų prievadą: nustatomas mainų greitis, stop bitų
skaičius, simboliui koduoti skirtas bitų skaičius. Po to per nuoseklų prievadą
siunčiamas atpažintos komandos numeris. Kadangi perduodamas tik vienas duomenų
baitas, neskaičiuojama ir nesiunčiama kontrolinė suma.
Šiuo metu yra didelis
valdančių įrenginių pasirinkimas: galima rinktis pramoninį valdiklį, įstatomą į
kompiuterį plokštę, per nuoseklų arba lygiagretų prievadą valdomus modulius ir
pan. Pasirinktas procesoriaus Dallas Semiconductor DS5000T bazėje realizuotas
valdiklis, sujungtas su I2C magistralės imtuvu ir simistorių bloku. Valdymo
balso komandomis aparatūrinės įrangos funkcinė schema pateikta B.1 pav.
Balso komanda į kompiuterį
įvedama iš mikrofono per garsinę plokštę. Kompiuterinė komandų atpažinimo
programa per nuoseklų RS232C interfeisą pasiunčia atpažintos komandos numerį į
procesorinį valdiklį. Po to numeris perduodamas per I2C magistralę į I2C
imtuvą, turintį 8 skaimeninius išėjimus. Prie I2C magistralės galima jungti dar
7 imtuvus ir valdyti iki 64 prietaisų.
Tam, kad būtų galima skaitmeniniais signalais įjungti arba išjungti elektrinius
prietaisus, maitinamus iš kintamos 220V įtampos, panaudoti simistoriai.
Programinę įrangą sudaro jau
minėta personaliniame kompiuteryje veikianti komandų atpažinimo programa bei
valdiklio programa, per nuoseklų prievadą iš kompiuterio priimanti atpažintos
komandos numerį ir per I2C magistralę atliekanti elektrinių įrenginių
įjungimą/išjungimą. Valdiklio programa į valdiklio procesorių užkraunama iš kompiuterio
per nuoseklų interfeisą. Valdiklio programa inicializuoja procesoriaus nuoseklų
prievadą nustatytam darbo režimui, po to per nuoseklų prievadą priima iš
kompiuterio atpažintos komandos numerį. Pagal priimtą numerį valdiklis per I2C
magistralę įjungia arba išjungia atitinkamą elektrinį prietaisą. Be to, į
skystų kristalų indikatorių išvedama atpažinta balso komanda ir jos numeris.
Bandymai atlikti su 10 komandų, kurios įjungia arba išjungia 5 prietaisus.

B.1 pav. Valdymo balso komandomis aparatūrinės
įrangos funkcinė schema: MIC-mikrofonas, PC-kompiuteris
B.3. Elektrinių
matavimų valdymas ir rezultatų išvedimas balsu
Elektriniams
matavimams atlikti pasirinktas jau minėtas antrame skyriuje valdiklis.
Matuojamas dydis temperatūra, nors pakeitus daviklį, galima matuoti slėgį,
dujų, garo, skysčio debitą, deguonies koncentraciją ir pan. Valdiklio programa
per nuoseklų prievadą iš kompiuterio priima atpažintos komandos numerį, kuris
iššifruojamas arba kaip atitinkamo elektrinio prietaiso įjungimo ar išjungimo
komanda, arba kaip kurio nors objekto temperatūros matavimo komanda. Valdiklyje
realizuoti 8 temperatūros matavimo kanalai. Jei valdiklyje gautas komandos
numeris iššifruojamas kaip temperatūros matavimo komanda, prie keitiklio
analogas-kodas per multiplekserį prijungiamas atitinkamo kanalo varžinis
temperatūros daviklis, paleidžiama procesorinė temperatūros matavimo programa,
matavimo rezultatas išvedamas į skystų kristalų indikatorių ir per nuoseklų
prievadą persiunčiamas į personalinį kompiuterį (4 baitai). Valdiklyje naudojamas
ICL135C keitiklis analogas-kodas, kurio tikslumas daugiau kaip 14 skilčių ir
ženklo skiltis (±20000 gradacijų). Personalinio kompiuterio programa pagal
gautą matavimo rezultatą formuoja garsinį pranešimą, pvz., jei išmatuota pirmo
objekto temperatūra yra 21,12 °C, tai išvedamas
pranešimas:Kambario temperatūra yra dvidešimt vienas kablelis dvylika šimtųjų
laipsnio šilumos. Kompiuteryje saugomas garsinis failas, kuriame paeiliui
sudėtos 56 žodžių garsinės realizacijos (36 žodžiai skaičių pavadinimai, 20
žodžių pagalbiniai žodžiai ir frazės).
B.4. Balso komandų
atpažinimo ir sintezės iš teksto panaudojimas internete
Planuojama sujungti
interneto naršyklės programą su balso komandų atpažinimo programa ir naršymą po internetą valdyti balso komandomis.
Kitas uždavinys informaciją, gautą iš Interneto, perskaityti balsu. Tam bus
naudojamas Vilniaus universitete sukurtas sintezatorius Aistis. Šis
sintezatorius Windows operacinės sistemos aplinkoje gali atidaryti tekstinį
langą, kuriame vartotojas surenka lietuvišką tekstą arba nurodo perskaityti
tekstą iš failo, pažymi tekstą ir duoda komandą perskaityti tekstą balsu. Po to
pažymėtas tekstas automatiškai kirčiuojamas, transkribuojamas ir po vieną žodį
sintezuojamas. Vartotojas gali keisti sintezuojamos kalbos tempą bei nutildyti
sintezatorių. Balso komandų atpažinimo programa paleidžia sintezatorių ir per
komandinę eilutę perduoda sintezuojamo tekstinio failo pavadinimą bei
sintezavimo greitį. Sintezuojamas visas nurodytas failas. Perspektyvoje numatyta
apjungti balso komandų atpažinimo ir sintezės iš teksto programas.
B.4.1.
Lietuvių kalbos sintezės iš teksto programa Aistis
Pateiksime kai kurias
lietuvių kalbos kompiuterinės sintezės iš teksto programos Aistis
charakteristikas. Sintezatorius sudarytas iš tokių pagrindinių blokų: žodžių
skiemenavimas, žodžių kirčiavimas, transkribavimas ir kalbos signalo
formavimas.
Skiemenavimui naudojamas algoritmas, kuris
remiasi lietuvių kalbos skiemens struktūra, taip pat naudojamas priešdėlių
atskyrimas bei balsių kombinacijos, kurios negali priklausyti vienam
skiemeniui. Žodžių kirčiavimas remiasi žodžių dalių žodynais ir kaitymo bei
kirčiavimo taisyklėmis [4].
Kirčiavimo procesas
išskaidytas į du etapus: 1) atpažinti visas gramatines formas ir jas sukirčiuoti;
2) išrinkti vieną kirčiavimo variantą. Kol kas nagrinėjami tik atskiri žodžiai
ir į kontekstą neatsižvelgiama. Atlikus testus su realiais grožinės literatūros
ir publicistikos tekstais pasiektas toks žodžių kirčiavimo tikslumas: apie
82,6% sukirčiuota teisingai, apie 0,1% sukirčiuota klaidingai, apie 1,9%
nekirčiuota, nes nerasta žodynuose, 15,4% nekirčiuota, nes imant atskirą žodį
galimi keli kirčiavimo variantai.
Transkribavimui (teksto
perrašymui į fonetinių vienetų seką) naudojamos formalios taisyklės, kurių
kairėje pusėje nurodoma einamoji raidė, einamosios raidės požymiai (skiemens
riba, kirtis ir priegaidė, kietumas/minkštumas), kairysis kontekstas ir
dešinysis kontekstas, o dešinėje pusėje nurodomas fonetinis vienetas, kiek
raidžių praleisti pritaikius taisyklę ir nuo kurios taisyklės pradėti kitos
taisyklės paiešką. Transkribavimui iš viso naudojama apie 700 taisyklių [5].
Kalbos signalo formavimui
pasirinktas konkatenacinis metodas, kuriame jungiami natūralios diktoriaus
kalbos segmentai. Sintezatoriuje naudojamas diktoriaus J. Šalkausko balsas.
Fonetinių vienetų bazę sudarė prof. A. Girdenis. Naudojami įvairių ilgių
fonetiniai vienetai: atskirų garsų dalys (pvz., sprogstamieji priebalsiai
sudaromi iš dviejų dalių), atskiri garsai (balsiai, priebalsiai), garsų poros
(dvibalsiai, mišrieji dvigarsiai). Iš viso fonetinių vienetų bazėje yra 476
elementai. Jokie papildomi veiksmai siekiant padaryti sklandesnius perėjimus
tarp garsų nėra atliekami, o vienas prie kito garsai dedami tokie, kokie buvo iškirpti
iš diktoriaus kalbos. Tiesa, segmentai buvo kerpami taip, kad juos sujungus
būtų išlaikoma pagrindinio tono struktūra.Viena iš silpnų vietų yra intonacijos
modeliavimas, o tiksliau intonacija visai nemodeliuojama, o naudojamas toks
pagrindinis tonas, koks buvo natūralioje kalboje.
Sintezuotos kalbos
suprantamumui įvertinti buvo sudarytos trys grupės po 30 sakinių ir trys grupės
po 30 žodžių. Minėti sakiniai ir žodžiai buvo: 1) perskaityti diktoriaus Juozo
Šalkausko, 2) sintezuoti naudojant sintezatorių Aistį, 3) sintezuoti
naudojant Aistį, tačiau nekirčiuojant žodžių, 4) naudojant Dolphin Systems
for People with Disabilities sintezatorių Apollo II [6]. Kalbos suprantamumui
įvertinti buvo pasitelkti klausytojai 85 studentai nuo 20 iki 31 metų, kuriems
ir buvo pateikiamos įvairios įgarsintų sakinių ir žodžių grupės. Klausytojai
turėjo užrašyti, ką išgirdo. Užrašai patikrinti rankiniu būdu. Atskiri žodžiai
suskirstyti į nesuprastus, klaidingai suprastus ir teisingai suprastus.
Įvertinant žodžių suprantamumą sakiniuose buvo išskirti daugiaskiemeniai
esminiai žodžiai ir jie suskirstyti į analogiškas tris grupes. Įvertinant
sakinių suprantamumą jie buvo suskirstyti į nesuprastus ir teisingai suprastus.
Teisingai suprastais laikomi tokie sakiniai, kuriuose pilnai išlaikyta sakinio
mintis. Visų keturių kalbos variantų įvertinimo naudojant tris žodžių ir
sakinių grupes rezultatai pateikti B.1 lentelėje.
B.1 lentelė. Diktoriaus ir sintezuotos kalbos suprantamumas
|
|
Atskiri žodžiai |
Žodžiai sakinyje |
Sakiniai |
|||||
|
|
Nesuprasta |
Klaidingai suprasta |
Teisingai suprasta |
Nesuprasta |
Klaidingai suprasta |
Teisingai suprasta |
Nesuprasta |
Teisingai suprasta |
|
Diktorius |
0,1% |
1,3% |
98,5% |
0,4% |
0,3% |
99,3% |
1,9% |
98,1% |
|
Apollo II |
24,1% |
23,8% |
52,1% |
28,3% |
5,6% |
66,1% |
56,6% |
43,4% |
|
Aistis |
3,7% |
8,2% |
88,1% |
4,2% |
2,6% |
93,2% |
16,6% |
83,4% |
|
Aistis be kirčiavimo |
10,5% |
12,7 |
76,8% |
16,9% |
4,5% |
78,6% |
37,8% |
62,2% |
Aistis atsilieka nuo
diktoriaus (atskirų žodžių suprantamumas 10,4%, žodžių sakinyje suprantamumas
6,1%, sakinių suprantamumas 14,7%), tačiau žymiai pranoksta sintezatorių
Apollo II (atitinkamai 36,0%, 27,1%, 40,0%). Sintezatoriuje naudojant
kirčiavimo algoritmus gaunamas aiškus sintezuotos kalbos suprantamumo
padidėjimas, lyginant su sinteze, kurioje nenaudojamas joks kirčiavimo
algoritmas (atitinkamai 11,3%, 14,6%, 21,2%).
B.5. Balso komandų
atpažinimo tikslumo tyrimai
Atlikti atpažinimo algoritmo
tikslumo tyrimai vienam diktoriui. Apmokymui naudoti dviejų balso komandų du
ištarimai ir abiejų ištarimų vidurkis. Testavimas atliekamas 100 kartų ištariant kiekvieną balso komandą
ir skaičiuojant teisingai atpažintų komandų skaičių bei panašumo mato
įvertinimo vidurkį. Siekta nustatyti, kaip balso komandų atpažinimo tikslumas
priklauso nuo operacinės sistemos, mikrofono tipo, balso komandų ilgio bei
balso komandų kontrastingumo. Tuo atveju, kai atpažinimo tikslumas lygus 100%,
komandų atpažinimo tikslumo palyginimas atliekamas pagal panašumo mato
įvertinimo vidurkį. Žinant, kad atpažinimo tikslumas žymiai priklauso nuo
apmokymo ir balso komandos ištarimo, stengtasi visus testus atlikti esant
panašioms sąlygoms, t.y., esant panašiam triukšmo lygiui ir tai pačiai
diktoriaus balso kokybei. Pastebėta, kad testą kartojant kitą dieną tam pačiam
diktoriui, pastebimai keičiasi panašumo mato įvertinimo vidurkiai, tačiau
komandų atpažinimo tikslumo priklausomybės nuo nagrinėjamų faktorių dėsningumai
išlieka.
Sekantis eksperimentas atliktas su dviem DB Boeder firmos mikrofonais: vidutinės klasės ir profesionaliu. Siekta nustatyti, kaip balso komandų atpažinimo tikslumas priklauso nuo operacinės sistemos ir mikrofono tipo. Eksperimento rezultatai pateikti B.2 lentelėje.
B.2
lentelė. Komandų atpažinimo tikslumo priklausomybė nuo operacinės sistemos ir
mikrofono tipo
|
Operacinė sistema |
MS-DOS
|
Windows
98
|
||||||
|
Mikrofonas |
Tipinis |
Profesionalus |
Tipinis |
Profesionalus |
||||
|
Komanda |
Įjunk |
Išjunk |
Įjunk |
Išjunk |
Įjunk |
Išjunk |
Įjunk |
Išjunk |
|
Tikslumas,% |
96 |
93 |
100 |
100 |
100 |
99 |
100 |
100 |
|
Panašumas |
26.79 |
33.33 |
33.22 |
30.57 |
36.53 |
38.54 |
39.12 |
39.72 |
Atpažinimo algoritmas tiksliau veikia Windows 98 operacinėje sistemoje. Priežasčių reiktų ieškoti MS-DOS atpažinimo programos dalyje, kuri tiesiogiai programuoja garso plokštę. Tuo pačiu tyrimo rezultatai rodo, kad atpažinimo algoritmas sėkmingai perkeltas į Windows operacinę sistemą. Sekantys atpažinimo algoritmo tikslumo tyrimai buvo vykdomi Windows 98 operacinėje sistemoje. Tyrimams naudoti 2 firmos Boeder AG mikrofonai: tipinis ir profesionalus bei mikrofonai MD 200 ir MD 52B. Nagrinėta komandų atpažinimo tikslumo priklausomybė nuo komandų tipo: viename eksperimente naudotos akustiškai panašios komandos įjunk ir išjunk, kitame eksperimente akustiškai kontrastingos komandos įjunk ir perskaityk. Eksperimentų rezultatai pateikti B.2 paveikslėlyje.

B.2
pav. Dviejų komandų atpažinimo tikslumo priklausomybė nuo komandų
ir mikrofono tipų
Apie kontrastingų balso komandų pranašumą prieš akustiškai panašias balso komandas galima spręsti tik iš panašumo mato įvertinimų vidurkių, nes visais atvejais gautas šimtaprocentinis balso komandų atpažinimo tikslumas.
Tam, kad įvertinti
distancinio valdymo balsu galimybes, išbandytas radijo mikrofonas
Audio-technica LIB-81HC. Gauti rezultatai: komandai įjunk panašumas 39.20,
komandai išjunk 40.02, abiejų komandų atpažinimo tikslumas yra 100%. Tai
atitinka atpažinimo tikslumą, gaunamą su DB Boeder profesionaliu mikrofonu.
Daugiau eksperimentų su šiuo mikrofonu nebuvo atlikta.
Sekančiuose eksperimentuose
nagrinėta komandų atpažinimo tikslumo priklausomybė nuo komandų ilgio įvairiems
mikrofonams. Pirmame eksperimente naudotos trumpos komandos įjunk ir
perskaityk, antrame eksperimente komandos iš dviejų žodžių įjunk lempą ir
perskaityk balsu, trečiame eksperimente komandos iš trijų žodžių įjunk
apšvietimo lempą ir perskaityk pranešimą balsu. Eksperimentų rezultatai
pateikti B.3 paveikslėlyje.

B.3 pav. Dviejų komandų atpažinimo tikslumo
priklausomybė nuo komandų
ilgio
įvairiems mikrofonams
Komandų panašumo
mato įvertinimo vidurkių analizė (B.3 pav.) rodo, kad ilginant komandą, turėtų
didėti ilgesnių komandų atpažinimo tikslumas. Kiekvienu konkrečiu atpažinimo
algoritmo taikymo atveju reiktų suderinti laikinius komandų ištarimo
apribojimus su komandų atpažinimo tikslumo priklausomybe nuo komandų ilgio.
Su profesionaliu DB Boeder
mikrofonu atlikti 10 komandų atpažinimo testai. Tam, kad įvertinti apmokymo
įtaką atpažinimo tikslumui, atlikti atpažinimo testai to paties diktoriaus
etalonams, kito diktoriaus etalonams ir mišriems etalonams (apmokymo metu
vienas diktorius diktuoja visas 10 komandų, po to kitas diktorius diktuoja
visas 10 komandų, po to programiškai surandami tos pačios komandos abiejų
diktorių ištarimų vidurkiai ir naudojami kaip etalonai). Sudarant komandų
sąrašą, stengtasi į jį įtraukti akustiškai nepanašias, bet realiai įmanomas
komandas neįgaliam žmogui dirbant prie kompiuterio. Esminė eksperimento
rezultatų dalis pateikta B.4 paveikslėlyje.

B.4 pav. Dešimties komandų atpažinimo tikslumo
priklausomybė nuo apmokymo
Visų komandų atpažinimo
tikslumas to paties diktoriaus ir mišriems etalonams yra 100% (paveikslėlyje neparodyta). Tuo tarpu komandų
atpažinimo tikslumas kito diktoriaus etalonams daugumos komandų atveju
neviršija atpažinimo slenksčio, t.y., komandos praktiškai yra neatpažįstamos.
Tai dar kartą iliustruoja apmokymo reikšmę atpažinimo tikslumui.
Taip pat bandymai atlikti su
10 komandų, kurios įjungia arba išjungia 5 prietaisus. Atlikti 10 komandų
atpažinimo tikslumo tyrimai treniruotam ir netreniruotam diktoriams.
Treniruotas diktorius eilę metų vykdė įvairius kalbinius diktavimo ir testavimo
eksperimentus. Apmokymui naudoti 10 balso komandų du ištarimai ir abiejų
kiekvienos komandos ištarimų vidurkis. Testavimas buvo atliekamas 100 kartų ištariant kiekvieną balso komandą
ir skaičiuojant teisingai atpažintų komandų skaičių bei panašumo mato
įvertinimo vidurkį. Siekta nustatyti, kaip balso komandų atpažinimo tikslumas
priklauso nuo balso komandų kontrastingumo ir diktoriaus treniruotumo. Tuo
atveju, kai atpažinimo tikslumas lygus 100%, komandų atpažinimo tikslumo
palyginimas atliekamas pagal panašumo mato įvertinimo vidurkį. Eksperimentai
atlikti su profesionaliu mikrofonu. Akustiškai panašių balso komandų atpažinimo
tikslumo įvertinimai dviems diktoriams pateikti B.5 paveikslėlyje. Treniruoto
diktoriaus balso komandos atpažįstamos akivaizdžiai tiksliau, nors ne visais
atvejais.

B.5 pav. Dešimties akustiškai panašių balso komandų atpažinimo tikslumo priklausomybė
nuo diktoriaus treniruotumo
Daugeliu atvejų galima taip suformuoti balso komandų sąrašą, kad jame būtų tik akustiškai kontrastingos komandos. Pvz., vietoje komandos įjunk lempą galime naudoti komandą uždek lempą, o vietoje komandos išjunk lempą komandą gesink šviesą ir pan. Akustiškai skirtingų balso komandų atpažinimo tikslumo įvertinimai treniruotam ir netreniruotam diktoriams pateikti B.6 paveikslėlyje.

B.6 pav. Dešimties akustiškai skirtingų balso komandų atpažinimo tikslumo priklausomybė
nuo diktorių treniruotumo
Treniruoto diktoriaus balso
komandos buvo atpažintos 100% tikslumu, o
netreniruoto diktoriaus atveju gauta tik viena klaida, todėl atpažinimo
tikslumo palyginimas atliktas pagal panašumo mato įvertinimo vidurkį. Visos
dešimt balso komandų, ištartų treniruoto diktoriaus, atpažįstamos su didesniu
patikimumu lyginant su netreniruoto diktoriaus ištartomis balso komandomis.
1. Sukurta valdymo balsu įranga leidžia balsu įjungti/išjungti iki 8 elektros prietaisų.
2. Elektrinių matavimų valdymo balsu įranga matuoja temperatūrą viename iš 8 kanalų, o matavimo rezultatas išvedamas balsu. Vietoje temperatūros, pakeitus daviklį, galima matuoti slėgį, debitą ir pan.
3. Lietuvių kalbos
sintezatorius Aistis bus naudojamas lietuviškai informacijai iš Interneto
perskaityti balsu.
4. Projekcinis
atpažinimo algoritmas tiksliau veikia Windows98 operacinėje sistemoje lyginant
su MS-DOS operacine sistema.
5. Balso komandų,
sudarytų iš 2-3 akustiškai nepanašių žodžių, atpažinimo tikslumas didesnis už
trumpų komandų ir, ypatingai, už trumpų akustiškai panašių komandų atpažinimo
tikslumą.
6. Geriausias balso
komandų atpažinimo tikslumas gautas su profesionaliu DB Boeder mikrofonu ir
radijo mikrofonu Audio-technica LIB-81HC.
7. Projekcinis
atpažinimo algoritmas gali būti naudojamas kompiuterinio dialogo balsu
prototipe, tik reiktų didinti apmokymui ir atpažinimui naudojamų etalonų
apimtį.
8. Valdymo balsu
sistemose svarbią reikšmę turi diktoriaus treniruotumas.
Literatūros
sąrašas
[1] A. Rudzionis.Recognition by averaged
templates. COST249: Continuous Speech
Recognition Over the Telephone, draft minutes of the 1st Management
Committee Meeting.- Brussel, Belgium, 1994, pp. 41-47.
[2] A.
Rudžionis, V. Rudžionis. Izoliuotų žodžių atpažinimas vidurkinant
fonetiškai segmentuotus kalbinių signalų parametrus. Informacinės technologijos-96, Kaunas, Technologija,1996,
pp.168-174.
[3] A. Rudžionis, K. Ratkevičius, V. Rudžionis.
Valdymas balso komandomis ir informacijos paieška STENOKOMO sistemoje. Automatika ir valdymo technologijos-98, Kaunas,
Technologija,1998, pp.57-63.
[4] Kasparaitis,
P. Automatic Stressing of the Lithuanian Text on the Basis of a Dictionary.
Informatica, 11(1), 2000: pp. 19-40.
[5] Kasparaitis,
P. Transcribing of the Lithuanian Text Using Formal Rules. Informatica, 10(4), 1999: pp. 367-376.
[6] Dolphin
Speech Synthesizer Series 2 User Guide: www.e-link.ch/square1/apollo2.html