3

3. BALSO TECHNOLOGIJŲ PASIEKIMAI PASAULYJE

3.1. Atpažinimas

3.1.1. Trys lietuviškos atpažinimo problemos. Galima paminėti bent porą “lituanistinių” faktorių, kurie turi labai didelę reikšmę tolesnei balso technologijų plėtrai Lietuvoje. Pirma, tai geras lietuvių fonetikos bei sintaksės dėsningumų supratimas, kuriam reikia buitinės lietuvių kalbos vartojimo patirties ir kuo vargu ar atidžiai domėsis kitų šalių technologai; antra, reikia kaupti lietuviškus balso technologijų resursus ( garsynus ), nes be jų neįmanoma tolesnė pažanga. Taigi, šalia plataus rato bendrų uždavinių, yra pabrėžiamos tris svarbios “ lituanistinės “ balso technologijų problemos:

· I faktorius - balso technologijų lietuviška sintaksė;

· II faktorius - balso technologijų lietuviška fonetika;

· III faktorius - lietuviški balso garsynai (angl., speech databases arba speech corpora).

3.1.2. Balso technologijų vystymosi prognozės. Microsoft vadovas B. Gates kalbos signalų technologijas tapatina su kompiuterijos ateitimi [1]. Vienok ir šis autoritetas prisipažino klydęs, kai jis apie 1980 metus tvirtino, kad 640 K kompiuterio atmintis yra tokia didelė, kad niekas nemokės jos pilnai išnaudoti.

Pažvelgus retrospektyviai, matyti, kad kurioje nors siauroje kalbos signalų technologijų srityje dirbantis specialistai kartais prastokai prognozuodavo atpažinimo pažangą [2] platesne prasme. Pirmoje lentelėje yra buvusioje SSSR atliktų specialistų apklausų atsakymai, kuriuos kitokia forma papildo Vakarų autoritetų vertinimai.

1 lentelė. Kalbos atpažinimo prognozių raida [2] ( nurodomi metai, kada

bus išspręstas tam tikros apimties žodyno atpažinimo uždavinys )

Apklausos metai	Žodyno apimtis
Apklausos metai	20	200	2000	rišli kalba
1967	1969	1971	1977	-
1977	1980	1984	1988	1994
1988	1993	2000	2008	2029

Nelabai apgalvotas siūlymas susiaurinti planuojamus prioritetus akustiniame - fonetiniame lygyje ir juos išplėsti sintaksiniame - semantiniame lygyje sukėlė audringą reakciją [3]: netgi pasakoma, kad tai vis atsikartojančios “senos pasakos” (old stories) - reikia derinti įvairius žinių šaltinius, o ne deklaruoti kurios nors komponentės išimtinę svarbą. Tai, kas pasakyta, yra ypač svarbu Lietuvoje, nes mūsų resursai yra labai riboti ir apsisprendimas, kokius veiksmus reikia vykdyti, yra itin aktualus.

· [1] Information on Speech Recognition business developments. // Speech Recognition Update. N. 63, September 1998.

· [2] N.Zagoruiko, “Expert system as a tool for speech studies”, Antropomorphic systems of automatic speech recognition and synthesis, St.Petersburg, 1993, 8 - 12.

· [3] J. Mariani, B. Granstrom at all, “ Speech Funding in Europe “, Elsnews, February 1999, pp. 6 - 8.

3.1.3. Atpažinimas telefonijoje ir daugialypėse terpėse. Jau prieš keletą dešimtmečių susiformavo dvi natūralios atpažinimo plėtros pozicijos taikymo prasme, kurias sąlyginai pavadinsime telekomunikacine (ATT) ir multimedijine (IBM, vėliau Microsoft). Pirmuoju atveju dominavo daugiadiktorinis nedidelio žodyno atpažinimas telefoniniuose kanaluose, antruoju – viendiktorinis labai didelio žodyno atpažinimas ramaus biuro aplinkoje. Šiuolaikinis požiūris (1 lentelė) į abi pozicijas gerai suformuluotas British Telecom tyrimų centro vadovo darbe [1].

1 lentelė. Kalbos signalų atpažinimo taikymo ypatybės telefonijos ir multimedia terpėse.

Faktoriai	Telekomunikacijos	Multimedia
Žodyno apimtis	Daugumoje keliasdešimt žodžių, kai kada iki 2000.	Nuo 5000 iki 60000 ir daugiau
Žodyno plėtimo galimybės	Reikia suformuoti duomenis kiekvieno naujo žodžio apmokymui.	Žodynas lengvai papildomas, naudojant naujų žodžių fonetines transkripcijas
Informacinis grįžtamas ryšys. Klaidų pastebėjimo ir jų koregavimo galimybės	Atsakymą gauname balsu. Galime jo nesulaukti. Dialogas turi būti labai kruopščiai suprojektuotas.	Rezultatą matome kompiuterio ekrane. Galima greita korekcija.
Diktoriaus adaptavimas	Veik nėra galimybių naujam diktoriui prisiderinti, jei jo balsas blogai atpažįstamas.	Interaktyvus apmokymas gali ženkliai padėti.
Vartotojai	Bet kuris diktorius.	Gali būti net ir vienas suinteresuotas diktorius.
Signalo kokybė	Labai didelės variacijos: diktorius, mikrofonas, triukšmai, signalo perdavimo kanalas.	Pakankamai gera.
Kontekstas	Naudojami skaičių pavadinimai ir valdymo komandos. Konteksto panaudojimas gana problematiškas.	Formalios ir statistinės gramatikos yra efektyvus įrankis.
Žodžių atpažinimo tikslumas	Reikia siekti kuo tikslesnio atpažinimo, kad nesutrikdytume dialogo.	Galima taikytis su ribotu klaidų skaičiumi jas ištaisant.

1) D. Johnston. “ Telephony Based Speech Technology - From Laboratory Visions to Customer Applications “, International Journal of Speech Technology, 2, 89 - 99, ( 1997 ).

3.1.4. Žmogaus ir kompiuterio galimybės, pirmas lietuviškas faktorius. Apie 1995 metus Masačiusetso technologijos institute buvo surinkti populiariausi kalbos signalų atpažinimo algoritmai ir palyginti su žmogaus sugebėjimais spręsti tuos pat uždavinius [1].

1 lentelė. Žmogaus ir kompiuterio galimybių palyginimas 1996 , klaidų %

Garsynas	Žodyno apimtis	Kompiuteris	Klausa	Komentarai
Rišliai tariamų skaičių seka	10	0.72	0.009	Atpažinimo įtaisas nežino kiek skaičių yra tariamoje sekoje
Raidžių pavadinimai	30	5	1	Atpažįstami anglų kalbos raidžių pavadinimai: pvz. raidė B tariama bi, raidė H - eitč ir t.t.
Resource Managment	1000	17 (3.6)	2 (0.1)	Skliausteliuose sintaksės efektas (perplexity 60)
Wall Street Journal	5000	7.2 - 12.8	0.9 - 1.1	Dešinėje signalo/triukšmų santykis krinta iki 10 dB
Kredito kortelės	14000	43	4	Spontaniška kalba telefonijoje
NA Business News	65000	6.6 - 10.3 (23.9)	0.3 - 0.5 (0.8)	Skliausteliuose, naudojant pigų elektretinį mikrofoną
Kredito kortelės	20	31	12.2 - 7.4	Reikia surasti 20 raktinių žodžių (word spotting)

Kiekvienas šių uždavinių yra vertingas praktine prasme. Rezultatai pateikti lentelėje “Žmogaus ir kompiuterio galimybių palyginimas”, kur grafoje “Žodynas” nurodomas naudojamų žodžių skaičius, o grafose “Kompiuteris” ir “Klausa” yra pateikiamas atpažinimo klaidų skaičius %. Penktoje ir septintoje eilutėse liečiama ta pati kredito kortelių tvarkymo problema, bet pastaruoju atveju siekiama surasti tik 20 esminių žodžių. Matome, kad kompiuterio galimybės yra maždaug 10 kartų silpnesnės, nei žmogaus sugebėjimai veik visais atvejais. Verta taip pat pažymėti, kad ne tiek žodyno apimtis lemia atpažinimo tikslumą, o yra eilė kitų nepaprastai svarbių faktorių ( dialogo turinys, kanalas, triukšmai ir t.t.).

Čia minimas pirmas lietuviškas faktorius, Resource Management uždavinyje parodyta kiek svarbus yra konkrečios kalbos sintaksinių dėsningumų panaudojimas ( atpažinimo klaida sumažėja keletą kartų ). Taigi lietuviškos sintaksės panaudojimas yra labai svarbus.

1) R.P.Lippmann, " Recognition by Humans and Machines: Miles to Go Before We Sleep ", Speech Communication, vol. 18, April 1996.

3.1.5. Atpažinimo plėtros tempai. Pateiksime panašią į praėjusią lentelę, kuri pateikta 2000 metais[1], t.y. po penkerių metų. Čia parodomi veik tų pat uždavinių sprendimo rezultatai, tačiau gerokai priartėta prie praktinių reikmių.

Kelių atpažinimo uždavinių efektyvumo palyginimas 2000 metai, klaidų %

Garsynas	Kalba	Žodyno apimtis	WORD ERROR RATE, %
Connected Digit Strings – TI Database	Spontaneous	11	0.3
Connected Digit Strings – Mail Recordings	Spontaneous	11	2.0
Connected Digit Strings - HMIHY	Conversational	11	5.0
Resource Management	Real Speech	1000	2.0
Airline Travel Information System	Spontaneous	2500	2.5
North American Business	Real Text	64,000	6.6
Radio recording ( Marketplace )	Mixed	64,000	13
Switchboard	Conversational Telephone	28,000	37
Call Home	Conversational Telephone	28,000	40

Matome, kad tik Resource Management uždavinyje buvo gautas ženklus atpažinimo klaidos sumažinimas (nuo 17% iki 2.0%). Matome didoką 11 žodžių atpažinimo klaidą HMIHY uždavinyje, bet ji jau buvo įvertinta realių telekomunikacinių paslaugų teikimo sąlygomis. Taigi buvo gerokai ištobulintos daugelis atpažinimo komponenčių, kurias apibūdinsime toliau, bet reikia daug geresnio mokslinio problemų supratimo.

[1] R. V. Cox, C. A. Kamm, L. R. Rabiner, J. Schroeter, and J. G. Wilpon. Speech and Language Processing for Next-Millenium. // Proceedings of the IEEE, vol. 88, No. 8, August 2000, pp. 1314 - 1337

3.1.6. Fonetiniai dėsningumai - antras lietuviškas faktorius. Laipsniškai buvo pereinama prie fonetinio kalbos signalų atpažinimo, nes tai irgi žymiai sumažina atpažinimo klaidas. Tai parodoma pirmoje lentelėje, kur pateikiamas angliškų raidžių pavadinimų atpažinimo tikslumas naudojant tiek žodinius, tiek ir fonetinius atpažinimo modelius [1]. Matome, kad pastarieji yra gerokai efektyvesni, ypač sunkiau skiriamų garsų atveju ( E-aibė ). Dar daugiau, atpažinimo tikslumas išauga, jei fonemų modeliai yra sudaromi fiksuotame kontekste.

1 lentelė. Angliškų raidžių pavadinimų atpažinimo tikslumas naudojant žodinius ir

fonetinius atpažinimo modelius (E-aibė yra uždaros balsės kontekste tariami priebalsiai )

Atpažinimo modelis	E – aibė	Visos
Žodžiai	63.7	83.6
Fonemos bendrai	73.3	87.4
Fonemos kontekste	83.2	91.3

Antroje lentelėje pateikiama fonemų atpažinimo vystymo raida, kai naudojami aukštos kokybės studijiniai ir telefoniniai įrašai. Dešiniajame stulpelyje parodyta, kad laikui bėgant buvo įvedami vis subtilesni modeliai. Priešpaskutinė eilutė liudija, kad sugebama gana tiksliai skirti kietus nosinius priebalsius. Tačiau kol kas nėra efektyvių apibendrintų balsių modelių, nes 10 balsių atpažinimo tikslumas tesiekia 69%, naudojant TIMIT duomenis ( paskutinė antros lentelės eilutė).

2 lentelė. Fonemų atpažinimo raida, naudojant studijinės kokybės įrašus

Šaltinis	Duomenis	Tikslumas	Komentarai
Cole 83 [2]	26 raidžių vardai	visų 88.8 %, E-aibė 83.3%	tiesinė diskriminantinė analizė (LDA)
Cole 90 [3]	ISOLET 26 l raidžių vardai	visų 96%	neuronų tinklai
Hunt 93 [4]	BT E-aibė 8 raidžių vardai	96.0 %	modifikuota LDA
Spanias 96 [1]	ISOLET	visų 97.37 % E-aibė 95 % nosiniai 95.0 / 96.6%	Fonemų pora apdorojama atskirai
Deng 96 [5]	TIMIT 10 balsių	69.0 %	HMM mišinio trendas

Nors nėra pasiektas esminis lūžis, automatiškai klasifikuojant bazinius (fonetinius) atpažinimo vienetus, bet lietuviškų fonetinių duomenų kaupimas yra itin svarbus.

[1] P.Loizou and A. Spanias, “ High performance alphabet recognition ”, IEEE Trans. on Speech and Audio Processing, vol.4, no 6, November 1996, pp. 430-445.

[2] R.Cole et al.,"Feature-based speaker-independent recognition of isolated English letters," ICASSP'83, pp. 731-733.

[3] R.Cole, M.Fanty,Y.Muthusamy, and M.Gopalakrishnan, "Speaker-independent recognition of spoken English letters, " Proc. Int. Joint Conf. Neural Networks, vol. 2, June 1990, pp. 45-51.

[4] C.M. Ayer, M.J.Hunt and D.M.Brookes, " A discriminatively derived linear transform for improved speech recognition ", Proc. Eurospeech, Berlin, September 1993, pp. 583 - 586

[5] L. Deng and M. Aksmanovic, " Speaker - Independent Phonetic Classification Using Hidden Markov Models with Mixtures of Trend Functions ", Proc. IEEE Trans. on Speech and Audio Processing, vol. 5, no. 4, July 1997, pp.319 - 324.

3.1.7. Garsynai - trečias lietuviškas faktorius. Kalbos atpažinimo sistemas reikia apmokyti. Tam kuriami garsynai – specialiai surinktų kalbos signalų duomenų bazės (angl. speech corpora). Sukurti universalų garsyną yra sudėtingas uždavinys, nes toks garsynas turėtų gerai aprašyti kalboje sutinkamų fonetinių vienetų įvairovę, įvertinti kontekstinius efektus, diktorių ir kalbėjimo stilių įvairovę ir pan. Todėl garsynai sudaromi orientuojantis į tam tikros uždavinių klasės sprendimą. Šiuo metu pasaulyje sukurta nemažai įvairių garsynų, kuriuose surinkta skirtingų kalbų medžiaga. Tačiau keli garsynai yra tapę savotiškais standartais, į kuriuos orientuojamasi sudarant naujas kalbos signalų duomenų bazes. Visų pirma tai TIMIT garsynas ir jo variantai (NTIMIT, CTIMIT) bei keletas kitų, su kuriais supažindinama toliau.

Lietuviškų kalbos signalų technologijų vystymas neįmanomas be lietuvių kalbos signalų duomenų bazių. Tai būtų instrumentai mokslinių ir praktinių uždavinių vystymui, metrologijos priemonės. Pirmas sisteminis žingsnis – tai LTDIGITS garsynas [7], sudarytas KTU ir VU prieš porą metų. Tačiau LTDIGITS medžiaga - tik nedidelė dalis lietuviškų fonetinių vienetų bei žodžių įvairovės, todėl būtina ir toliau kaupti lietuviškus garsynus, surinktus papildyti nauja medžiaga bei apdoroti, t.y. atlikti leksinį bei fonetinį segmentavimą.

Žemiau supažindiname su keliais pasaulyje populiariausiais garsynai, tapusiais etalonais.

3.1.7.1 TIMIT garsynas

Bazės pavadinimas sudarytas iš pagrindinių autorių ( Texas Instruments ir Massachussets Institute of Technology ) pavadinimų abreviatūrų. Tai bene pirmoji sistemingai surinkta kalbos signalų duomenų bazė.

TIMIT duomenis vieno įrašų seanso metu perskaitė 630 diktorių (po 10 sakinių kiekvienas), atstovaujantys 8 JAV dialektinius regionus. Saugantis pašalinių triukšmų, įrašai padaryti akustinėje kabinoje, naudojantis plačiajuosčiu mikrofonu.

Kiekvienas diktorius perskaitė po du tuos pačius sakinius, kuriuose buvo siekiama atspindėti dialekto ypatybes (dialect senteces - SA).

Fonetinių porų įvairovė vaizduojama taip vadinamais reprezentatyviais - kompaktiniais sakiniais ( phonetically-compact senteces SX ). Kiekvienas diktorius perskaitė po 5 šio tipo sakinius, o kiekvieną parinktą tekstą perskaitė 7 diktoriai.

Maksimizuojant tekstuose aptiktų alofonų įvairovę, kiekvienam diktoriui buvo pasiūlyta perskaityti po 3 tik jam skirtus sakinius ( phonetically-diverse senteces SI ).

Ši bazė unikali tuo, kad turi labai kruopščiai sužymėtas fonemų ribas. Daugelyje kitų bazių pateikiamos tik žodžių ribos. Būtent todėl ji tapo plačiai naudojama ir palaipsniui, adaptavus įvairiems ryšio kanalams, buvo transformuota į kitas ( NTIMIT [4], CTIMIT [5], FFMTIMIT, HTIMIT [6] ).

3.1.7.2 TIMIT bazės struktūra

Bazė platinama CD ROM diskelyje. Trumpai supažindinsime su duomenų patalpinimo šioje duomenų bazėje struktūra. Tarkime, kad turime katalogą timit\train\dr1\fcjf0\. Čia žodis “train” rodo, kad įrašai skiriami atpažinimo algoritmo mokymui, simboliai “dr1” žymi diktoriaus gimtosios vietos dialektą ( dialect region ), pirmoji sekos “fcjf0” raidė rodo diktoriaus lytį (šiuo atveju female), o sekančios 4 raidės žymi diktoriaus inicialus. Kiekviename tokiu būdu pavadintame kataloge yra 10 sakinių, o kiekvienam sakiniui skiriami 4 failai, turintys .txt, .wrd, .phn ir .wav išplėtimus. Pavyzdžiui, minėtame kataloge galima rasti failus: sx127.txt, sx127.wrd, sx127.phn, sx127.wav. Abreviatūra “sx127” rodo, kad turime kompaktinio tipo 127 sakinį. Faile sx127.wav yra 16 kHz dažniu įvesto signalo diskretos. Faile sx127.txt yra nurodytas failo sx127.wav ilgis ir pateiktas sakinio ortografinis užrašas. Šiuo konkrečiu atveju faile yra toks įrašas:

0 24679 The emperor had a mean temper

Faile sx127.wrd nurodytos kiekvieno žodžio pradžios bei pabaigos diskretų numeriai kartu su žodžio ortografija. Pavaizduosime pirmąsias dvi bei paskutiniąją šio failo eilutes:

2231 3757 the

5045 9232 emperor

…………………….

16721 22680 temper

Faile sx127.phn nurodyti kiekvieno fonetinio vieneto pradžios bei pabaigos diskretų numeriai kartu su fonetiniu simboliu, kuris užrašomas 1-3 raidėmis. Pavaizduosime pirmąsias tris bei paskutiniąją šio failo eilutes, kur sakinio pradžioje bei pabaigoje esančios pauzės pažymėtos simboliu h#:

0 2231 h#

2231 2834 dh

2834 3757 iy

…………………….

22680 24560 h#

3.1.7.3 Diktoriaus nustatymo duomenų bazės

Diktoriaus nustatymo uždaviniams skirtų garsynų kategorijoje populiariausiomis tapo YOHO ir SWITCHBOARD duomenų bazės.

YOHO [9] duomenų bazė buvo sukurta užsakius JAV vyriausybei, siekiant suformuoti kalbos signalais paremtas diktoriaus identifikavimo/verifikavimo priemones. Čia naudotas telefoninis aukštos kokybės mikrofonas ofiso tipo akustinėje aplinkoje. Duomenis perskaitė 138 diktoriai, pakartotinai perskaitydami tekstus kelių mėnesių bėgyje.

SWITCHBOARD [8] bazė skirta finansinių operacijų, naudojantis kredito kortelėmis ir perduodant balso komandas telefono kanalu, vykdymui.

Eilė pažangių principų realizuota europinėje daugiakalbėje POLYCOST [10] duomenų bazėje.

3.1.7.4 Fonetinės duomenų bazės

Šioje kategorijoje paminėtini ISOLET ir OGI garsynai.

ISOLET [11] bazėje yra sukaupti 150 diktorių perskaityti anglų kalbos raidžių pavadinimų įrašai, naudojant aukštos kokybės mikrofoną ( diskretizavimo dažnis 16 kHz, spektras iki 7.6 kHz ). Fonetinį segmentavimą reikia atlikti vartotojui.

3650 diktorių per telefoną sudiktavo OGI [3] duomenis. Čia yra diktorių vardai, pavardės, angliškai ištarti žodžiai taip/ ne, diktoriaus gyvenamoji vieta, jo gimtinė, anglų kalbos raidžių pavadinimai bei kita. Svarbu, jog tam tikra duomenų dalis yra fonetiškai segmentuota.

Kuriant LTDIGITS buvo panaudoti kai kurios aukščiau aprašytų garsynų savybės:

- analogiška TIMIT bazei duomenų išdėstymo sistemą;

- POLYCOST pavyzdžiu paįvairinti medžiagą: t.y., šalia skaičių sekų padiktuoti kai kurių valdymo komandų pavadinimus;

- papildant ISOLET spragas, sudiktuoti porą sekų, kuriose yra akustiškai artimi skiemenis, kad būtų galima spręsti fonemų skyrimo uždavinius.

Manytume, kad ir kuriant kitus lietuviškus garsynus reikia naudoti šių duomenų bazių bei LTDIGITS savybėmis. Tai padėtų išspręsti ir visą eilę suderinamumo problemų.

Literatūra

1) J.C. Wells, et al. Standard Computer-Compatible Transcription // ESPRIT Project 2589 (SAM): Final Report 1.3.91 - 28.2.92, 1992

2) W.M. Fisher, G.R.Doddington, Goudie-Marshall, K. M. The DARPA Speech Recognition Research Database: Specification and status // Proc. of DARPA Workshop on Speech Recognition, February 1986, pp. 93 - 99.

3) R. Cole, M. Fanty, K.A.Roginski. Telephone Speech Database of Spelled and Spoken Names // Proc. Int. Conf. Spoken Language Processing , 1992, pp. 891 - 893.

4) C.Jankowski, Kalyanswamy, A., Basson, S., Spitz, J. NTIMIT: A Phonetically Balanced, Continuous Speech, Telephone Bandwidth Speech Database // Proc. ICASSP’90, April 1990, pp. 109 - 112.

5) K.L.Brown, George, E.B. CTIMIT: A Speech Corpus for the Cellular Environment with Application to Automatic Speech Recognition // Proc. ICASSP’95, May 1995, pp. 105 - 108.

6) D.Reynolds. HTIMIT and LLHDB: Speech Corpora for the Study of Handset Transducer Effects // Proc. ICASSP’97, April 1997, pp.1535 - 1538.

7) A.Rudžionis, V.Rudžionis, P.Žvinys. Lietuvių kalbos signalų duomenų bazės LTDIGITS akustinės-fonetinės charakteristikos. // Baltų kalbų fonetikos ir akcentologijos problemos. St. Peterburgas, 1999 kovo 2 - 4 d.

8) Godfrey, J.J., Holliman, E.C., MacDaniel, J. Switchboard: Telephone speech corpus for research and development // Proc. ICASSP’92 , March 1992, pp. 517-520.

9) Higgins, A., Bahler, L., Vensko, G., Porter, J., Vermilyea, D. YOHO speaker authentication final report // Technical Report, ITT Defense Communications Division, 1992.

10) Melin, H., Lindberg, J. Guidelines for Experiments on the POLYCOST Database // Proc. of COST 250 Workshop on “ Application of Speaker Recognition Techniques in Telephony”, Vigo, Spain, November 1996, pp. 59 - 69.

11) Cole, R., Muthusamy,Y., Fanty, M. The ISOLET spoken Letter Database // Technical Report 90 - 004, Oregon Graduate Institute, 1990.

3.1.8. Kitos sudėtinės atpažinimo funkcijos

Pagrindinė atpažinimo schema - tolydinio tankio paslėptos Markovo grandinės (continuous density hidden Markov model - CD HMM ). Šiuo metu tai yra populiariausia kalbos signalų atpažinimo schema. Bet koks lingvistinis vienetas (žodis, skiemuo, fonema) yra aprašomas tam tikru skaičiumi būsenų ir perėjimo tikimybėmis. Daroma prielaida, kad tai kas ir kaip tariama niekada nėra tiksliai žinoma (paslėptas procesas), bet rezultatą visada stebime (girdime ) ir jį galime fiksuoti. Taigi automatinio atpažinimo įtaiso šerdis yra pagal stebėjimo rezultatus sukonstruotas paslėpto proceso modelis. Modelio parametrų įvertinimui naudojama Baum-Welch procedūra, atliekant iteracinius tiesioginių-atbulinių ( Forward - Backward ) tikimybių skaičiavimus. Sintaksė modeliuojama N-gramatikomis, kuriose yra sukaupiamos N paeiliui einančių žodžių statistikos. Atpažinimo procesas grindžiamas Viterbi algoritmu, kai su ištarta fraze dinaminio programavimo būdu lyginami žinomi CD HMM modeliai, surandant panašiausią.

Pašalinių garsų atmetimas ( out of vocabulary ). Klausydamas jį dominančios kalbinės informacijos, žmogus sugeba ignoruoti pašalinius pokalbius, triukšmus, muzikinius garsus ar panašiai, žinoma, jei pastarieji nėra pernelyg intensyvūs. Tai reiškia, kad reikia turėti galimybę atmesti įvairius akustinius garsus, kurių nėra kompiuterinio dialogo žodyne. Tinkamai parenkant atpažįstamų signalų panašumo slenkstį, tikrinama ar nagrinėjama komanda yra pakankamai panaši į kurią nors vieną iš leistinų komandų. Jei slenkstis pakankamai aukštas, tai atmetama ir dalis leistinų komandų, o jei šis slenkstis per žemas, atpažinimo įtaisas beprasmiškai reaguoja į pašalinius garsus. Kuo tikslesnis yra atpažinimo algoritmas, tuo efektyviau veikia ši procedūra.

Raktinių žodžių paieška ( key word spotting ). Tipinę žmogaus tariamą komandą galima pavaizduoti esminiais žodžiais: subjektas ( kas vykdo ), predikatas( kas vykdoma ), objektas( kas yra vykdymo objektas ), atributai ( kaip vykdoma ). Realioje frazėje esti funkcine prasme neesminių žodžių ( pvz. malonybės ), nekalbinių intarpų ( mikčiojimas, kostelėjimas ), o funkciškai esminių žodžių tvarka gali keistis, nors prasmė išlieka ta pati. Raktinių žodžių paieška yra funkciškai esminių žodžių suradimas.

Pasikliovimas atpažinimu ( confidence measure ). Vis labiau plinta procedūros, kai galutinis sprendimas priimamas pagal atpažįstamo vieneto panašumo mato reikšmę nebūtinai iš karto. Jei panašumas nėra pakankamai aukštas, automatas siūlo pakartoti užklausą, modeliuojant žmogaus elgesį, kai jis gali ne iš karto suprasti klausimo prasmę.

Akustinio aido slopinimas ( acoustical echo cancellation ). Dialogo tarp dviejų žmonių metu neretai vienas pašnekovas pertraukia kitą, nes jis suprato, ką turėtų atsakyti. Panašiai kompiuteris duoda ilgoką nuorodą ( prompt ), o vartotojas nelaukdamas nuorodos galo ištarią komandą, taigi į mikrofoną patenka nuorodos ir vartotojo komandos mišinys. Kompiuteriui reikia mokėti atskirti ką pasakė jis pats ( akustinis aidas ) ir ką pasakė vartotojas. Tam naudojamos įvairios adaptyvaus tiesinio filtravimo modifikacijos. Neseniai AT&T pareiškė, kad savo sukurtas 40 msek. akustinio aido slopinimo priemones priskiria prie svarbesnių pastarojo penkmečio kompanijos laimėjimų.

Triukšmų apdorojimas ( noise supression, speech enhancement ). Praktikoje naudingus signalus visada lydi triukšmai. Skiriama labai daug dėmesio triukšmų poveikiui susilpninti. Galima paminėti spektro atėmimo, Kahrunen - Loeve dekompozicijos, Vinerio filtravimo, Kalmano filtravimo, Markovo grandinių, vilnelių ir eilę kitų metodų triukšmams šalinti nuo signalų. Gaunamas iki 6-10 dB eilės triukšmo slopinimo lygis. “Nuvalytas” signalas kartais būna nemalonus klausai, bet atpažinimo prasme gaunami ir teigiami rezultatai.

Prisitaikymas prie akustinės aplinkos (adaptation). Seniai pastebėta, kad laboratorijose paruoštos atpažinimo priemonės blogai veikia realaus taikymo sąlygomis. Pvz., laboratorijose gaunama mažesnė nei 1% skaičių pavadinimų sekų atpažinimo klaida gali išaugti iki 75% telefono kanaluose [1]. Texas Instrument surado efektyvų adaptavimosi būdą [2], kai efektingai išnaudojami laboratoriniai duomenis ir atpažinimo klaida nesumažėja. Didelės apimties laboratoriniai duomenis atspindi žmonių balsų įvairovę bei lingvistines ypatybes, o santykinai nedidelė adaptavimo medžiaga leidžia prisitaikyti prie triukšmų, kanalo, reverberacijų ir kitų faktorių.

Literatūra

1) H. Hirsch. “ HMM Adaptation for Telephone Applications”, Proc. 6th European Conf. on Speech Communication and Technology, September 5 - 9, 1999, Budapest, Hungary, pp. 9 – 12.

2) Y. Gong and J. Godfrey. “ Transforming HMMS for Speaker-independent Hands-free Speech Recognition in the Car “, Proc. 1999 IEEE Int. Conf. on Acoustics, Speech and Signal Processing , pp. 1721 – 1724.

3.2 Kalbos sintezės metodai

3.2.1 Problemos formulavimas.

Kalbos sinteze vadinamas automatinis balsinio pranešimo generavimas iš pateikto teksto ar kitos simbolių sekos, t.y. tekstu pateiktos informacijos skaitymas balsu. Nekelia abejonių, kad sintezė labai nuo konkrečios kalbos savybių priklausanti kalbos technologijų sritis. Generavimui reikia naudoti konkrečiai kalbai paruoštus sintezės elementus (pastarieji dažnai vadinami sintezės vienetais) bei atsižvelgti į duotos kalbos gramatines ypatybes (kirčiavimą, prozodines, intonacines savybes ir pan.). Reiktų pažymėti, kad lietuvių kalba nėra sintezės požiūriu lengva kalba.

Sintezės iš teksto panaudojimo perspektyvos labai plačios - jos gali būti naudojamos įvairiausiose informacinėse sistemose (ryšiuose, transporte, gal būt sveikatos apsaugoje). Pasaulyje jau egzistuoja visa eilė kalbos sintezės taikymo praktikoje pavyzdžių, dažniausiai orientuotų į didžiąsias pasaulio kalbas (anglų, kinų, prancūzų, vokiečių, japonų). Jose naudojama pakankamai aukštos kokybės balso sintezė, tačiau net ir geriausių šiuolaikinių sintezės sistemų generuoto balso kokybė gerokai nusileidžia natūraliam balsui.

3.2.2 Sintezės kokybės vertinimo kriterijai.

Sintetinės kalbos kokybei apibūdinti naudojama eilė rodiklių, kurių svarbiausieji yra aiškumas (angl. inteligibillity) ir natūralumas (angl. naturalness). Aiškumu nusakoma, kokią lingvistinių vienetų (fonemų, skiemenų ar žodžių) dalį gali suprasti klausytojas. Natūralumas yra subjektyvesnis kriterijus, juo stengiamasi nustatyti kiek sintetinė kalba artima žmogaus kalbos. Eilę dešimtmečių aiškumo gerinimo pastangos buvo sintezės plėtros varomoji jėga, kadangi neaiški kalba yra praktiškai bevertė. Yra gauti aukšto aiškumo sintetinės kalbos pavyzdžiai ir ypač stengiamasi pagerinti natūralumą.

Šiuo metu formuojasi ir pragmatiškesni sintetinės kalbos kokybės vertinimo kriterijai. Skiriamos dvi sintetinės kalbos kokybės gradacijos: vartojimo kokybė (angl. customer quality) ir natūrali kokybė (angl. natural quality) [1]. Vartojimo kokybės sintetine kalba laikoma kalba, kai didelė vartotojų dalis moka už paslaugas, kai informacija pateikiama sintetine kalba. Natūralia kokybe suprantama tokia sintetinė kalba, kai specialiai nepasiruošęs vartotojas nesugeba jos atskirti nuo žmogaus kalbos. Nors visada buvo ir nenatūralios, bet aiškios, sintetinės kalbos praktinio panaudojimo sferų (tarkim nėra kitos galimybės informacijos pateikimui), tačiau, plintant automatizuotoms balso paslaugoms, nenatūrali kalba stabdo tokiomis paslaugomis besinaudojančių vartotojų skaičių. Kadangi natūralumas yra subjektyvus kriterijus, jis dažniausiai vertinamas balais: grupei klausytojų pateikiami sintezuotų įrašų pavyzdžiai ir pasiūloma įvertinti kokybę balu. Balso technologijų vertinimui dažniausiai naudojama penkiabalė sistema. Skirtingų klausytojų vertinimo rezultatai suvidurkinami.

3.2.3 Kalbos sintezatoriaus komponentės

Norint tekstą paversti balsu, reikia nuosekliai atlikti eilę procedūrų. Visų pirma tekstą reikia tinkamai paruošti, atlikti jo transkripciją (pvz. lietuvišką žodį gąsdina mes tariame gazdina ), nustatyti frazėje esančių žodžių kirčius, apibūdinti frazės tipą (paprasta, klausiamoji ar šaukiamoji intonacija). Šis etapas paprastai vadinamas teksto normalizavimu. Galiausiai tekstas paverčiamas fonemų seka su prozodijomis. Šią seką reikia paversti tinkama sintezės vienetų seka, o pastarąją paversti balsu. 1 pav. parodytas tipinis sintezatoriaus pavyzdys.

Nors visos sintezatoriaus komponentės yra svarbios, tačiau kol kas labiausiai sintetinės kalbos kokybę nulemia sintezės vienetų kokybė. Jais gali būti skiemuo, skiemens dalis, fonema, jos dalis ar jų junginys - difonas. Sintezės vienetai gali būti tiesiog iškirptos iš žmogaus balso signalo atkarpos arba tos

_{Žodynas ir taisyklės}

Sintezės vienetų saugykla

tekstas garsas

1 pav. Sintezės procesų diagrama

pačios atkarpos gali būti paverstos požymiais (kepstras, filtrai, Furje transformacija, tiesinės prognozės parametrai). Pirmuoju atveju turime taip vadinamą signalo bangos konkatenaciją, o antruoju – parametrinę sintezę.

3.2.4 Kalbos sintezės metodai

Istoriškai ilgai dominavo parametriniai sintezės metodai, nes sintezatorius buvo atskiras įrenginys, kurį valdydavo kompiuteris. Be to tuometinių kompiuterių techniniai parametrai, sintezės požiūriu pirmiausia atmintis, buvo labai riboti. Maždaug prieš penkiolika metų buvo pasiūlytas [4], po to patobulintas [5], TD-PSOLA sintezės būdas.

PSOLA schemai būdingos trys fazės: signalo analizė, jo modifikavimas ir sintezė. Ypač reikšminga yra antroji, modifikavimo, fazė, kurios metu atliekami spektro pakeitimai, kad vienetų sandūrose prisiderinti prie reikiamų prozodinių parametrų ( pagrindinis tonas, energija, trukmė ). Analizės metu nustatomas signalo pagrindinio tono žymės. Analizės langai parenkami taip, kad jie pakankamai persidengtų gretimoms pagrindinio tono žymėms (OLA – overlap-add principas). Kartu diskretinės Furje transformacijos pagalba išskiriama globali spektro gaubtinė ir spektro dalis, atitinkanti žadinimo funkciją. Sintezės metu keičiamas analizės žingsnis (SOLA), jį sinchronizuojant su pagrindiniu tonu ( PSOLA )

Pastaraisiais metais įsigali požiūris, kad PSOLA metodas išsisemia. Tai argumentuojama tuo, kad naudojamas santykinai nedidelis sintezės vienetų skaičius (1000 ar kiek daugiau ), kurie neaprašo daugelio galimų fonetinių kontekstų. Nors sintezės vienetams saugoti pakanka gana nedidelės atminties (Mb eilės), tačiau sintetinė kalba nėra pakankamai natūrali. Todėl siekiama pakeisti klasikinę PSOLA schemą.

Vienas tokių bandymų yra sintezės vienetų pailginimas, t.y. pereinama nuo difono prie konstrukcijos balsis – priebalsis – balsis V-CV, tuo minimizuojant reikiamas pagrindinio tono modifikacijas bei sumažinant iškraipymus sandūrose [6]. Taip pastebimai pagerinamas priebalsių aiškumas lyginant su difonine CV sinteze ( nuo 94% iki 97% šiame darbe ). Viso buvo naudojama 7100 tipinių V-CV junginių, tačiau pažymėtina, kad tai taikoma japonų kalbai, teturinčiai 101 skiemenį.

Kitais atvejais stengiamasi iš ribotos žodžių atsargos formuoti naujus. Pavyzdžiui [7] yra sukaupta 2000 žodžių garsynas orų prognozės tikslams. Iš daugiaskiemenių žodžių imami skiemenis ir sudaromi nauji žodžiai, juos pritaikant kitokiems kontekstams, nei jie buvo įrašyti.

Perspektyviu laikomas kombinuotos sintezės metodas [8], kai naudojami visų lygių sintezės vienetų kombinacija: difonai, skiemenis ir žodžiai. Jis pritaikytas Vokietijoje kelionių planavimo dialogams automatizuoti. Sintezės modulis pirmoje eilėje ieško saugykloje pilnų žodžių, jei nerandamas pilnas žodis, tai antrame etape bandoma jį sudaryti iš skiemenų. Jei ir tai nepavyko, atliekama difoninė sintezė. Kadangi natūraliau skamba ilgesni vienetai, tai šiuo atveju kalbos pranešimo kokybės prasme optimaliai išnaudojami sintezės vienetai

Geriausios šiandieninės sintezės sistemos naudoja konkatenacinę sintezę. Tokių sistemų pavyzdžiais galėtų būti “harmonika plius triukšmas” modelis (HMN) [14], japonų kalbos sintezės sistema, paremta kalbos modifikavimo algoritmu su harmonikų rekonstrukcija [13] bei kinų kalbos konkatenacinės sintezės schema su automatiniu sintezės vienetų ir prozodinės informacijos generavimu [13]. Pastaroji sistema orientuota į kinų kalbos mandarinų variantą (Chinese Mandarin). Tai toninė kalba, turinti 5 bazinius tonus. Kita ypatybė tai, kad šioje kalboje tėra apie 1300 fonologiškai leistinų skiemenų, todėl natūralu skiemenį pasirinkti baziniu sintezės vienetu. Siekiant kuo aukštesnio suvokiamumo ir natūralumo, autoriai pasiūlė automatinius vienetų parinkimo, jų trukmės nustatymo, prozodijos pritaikymo algoritmus. Kinų sintezės suprantamumo ir natūralumo testavimas pateikė tokius rezultatus [12]:

1 lentelė. Kinų kalbos sintezės sistemos suprantamumo ir natūralumo testavimo rezultatai

Testo tipas	Suprantamumas		Natūralumas
	Kiekis	Suprantama	Kiekis	Balai
Vienskiemeniai	1313	93,3%	--	--
Dviskiemeniai	200	96.0%	200	3.8
Triskiemeniai	200	98.8%	200	3.7
Keturskiemeniai	200	99.2%	200	3.7
Sakinys	100	97.2%	100	3.3
Trumpas tekstas	--	--	100	3.4
Vidurkis		96.9%		3.6

Japonų kalbos sintezės sistemoje [13] naudojami kelių rūšių sintezės vienetai: difonai, priebalsių – balsių (CV) sekos VCV, CVC, trifonai (fonemų realizacijos kontekstuose). Tokių elementų panaudojimas leidžia gauti pakankamai suprantamą kalbą, tačiau ribotas vienetų kiekis neaprašo natūralioje kalboje egzistuojančios tarimo įvairovės, todėl sintetinė kalba nėra pakankamai natūrali. Natūralumui pagerinti panaudoti nevienodo ilgio elementai (nonuniform units). Tačiau tai pareikalavo ypač didelio sintezės vienetų skaičiaus (60000 vienetų išrinkta iš 45000sakinių). Testai parodė, kad tokios sistemos vidutinis suvokiamumas siekė 95,1% (99,2% klausant žinomus vardus ir 91% klausant nežinomus vardus). Vertindami natūralumą 91% klausytojų teigė, kad sistema su nevienodo ilgio elementais generuoja natūralesnę kalbą nei įprastinė sistema su vienodo ilgio vienetais. Reiktų pažymėti, kad toks metodas reikalauja ypač daug paruošiamojo darbo, kartu ir didelių sąnaudų, todėl panaudoti jį lietuvių kalbos sintezei sunku.

“Harmonika plius triukšmas” (HMN) [14] modelis pasiūlytas siekiant pagerinti sintetinės kalbos kokybę, glotninant perėjimus tarp sintezės vienetų. HMN modelyje naudojama prielaida, kad kalbos signalas sudarytas iš harmoninės ir triukšminės dalių. Apatinė spektro dalis modeliuojama sinusinėmis harmonikomis, kurios moduliuojamos triukšmo komponentu (modeliuojančia viršutinę spektro dalį). [14] pateikiami “harmoniniu plius triukšmas” (HMN) ir TD_PSOLA modeliu gautos sintezės kokybės vertinimo rezultatai:

2 lentelė. HMN ir TD-PSOLA sintezės metodų palyginimas

	Sakiniai	Bendras	Beprasmės frazės
HNM	3,05	3,00	2,95
TD-PSOLA	2,84	2,75	2,66

3 lent. pateikiamos HMN ir ATT kompanijos sekančios kartos sintezės (next-generation TTS) palyginimo rezultatai, kuriuose pateikiama ne tik sintetinės kalbos kokybės, bet ir suprantamumo testų rezultatai. ATT NGTTS naudoja sintezės elementų išrinkimo sistemos CHATR išplėtimą.

3 lentelė. HMN ir ATT NGTTS sintezės sistemų kokybės palyginimo rezultatai

	ATT	HMN
Kokybė (MOS)	3,46	3,91
Suvokiamumas	3,48	3,98

Apibendrinant galima pasakyti, kad geriausiose didžiosioms pasaulio kalboms orientuotoms sintezės sistemoms pasiekiamas aukštas kalbos suprantamumo ir natūralumo rodiklis, tačiau pačios sintezės sistemos tapo labai sudėtingomis, naudojančiomis labai didelį fonetinių vienetų skaičių, įvairius algoritmus sintezės vienetų sandūrų interpoliavimui ir t.t.

Literatūra

1) R.V.Cox, C. A. Kamm, L. R. Rabiner, J. Schroeter, and J. G. Wilpon. Speech and Language Processing for Next-Millenium. Proceedings of the IEEE, vol. 88, No. 8, August 2000, pp. 1314 - 1337

2) P.Taylor. Let’s not make the same mistake twice…. Elsnews, September 1999, vol. 8.3, pp.4 – 5.

3) G. Sonntag et all. Comparative Evaluation of Six German TTS Systems. Proc. 6th European Conf. on Speech Communication and Technology , September 5 - 9, 1999, Budapest, Hungary, pp. 251 – 254.

4) F. Charpentier and M. Stella. Diphone Synthesis Using an Overlap-Add Technique for Speech Waveforms Concatenation. ICASSP-86, Tokyo, Japan, 1986, pp. 2015 – 2018.

5) E. Moulines and F. Charpentier. Pitch-Synchronous Waveform Processing Techniques for Text-to-Speech Synthesis Using Diphones Speech Communication, 9 (5/6), 1990, pp. 453 - 467.

6) T. Koyama and J. Takahashi. A V-CV Waveform based Speech Synthesis Using Global Minimization of Pitch Conversion and Concatenation Distortion in V-CV Unit Sequence. Proc. 6th European Conf. on Speech Communication and Technology , September 5 - 9, 1999, Budapest, Hungary, pp. 2311 – 2314.

7) E. Lewis, M. Tatham. Word and Syllable Concatenation in Text-to-Speech Synthesis. Proc. 6th European Conf. on Speech Communication and Technology , September 5 - 9, 1999, Budapest, Hungary, pp. 615 – 618.

8) K. Stoeber et all. Synthesis by Word Concatenation. Proc. 6th European Conf. on Speech Communication and Technology , September 5 - 9, 1999, Budapest, Hungary, pp.619 – 622

9) Hunt and A. Black. Unit Selection in a Concatenative Speech Synthesis System. ICASSP-96, Atlanta, GA, 1996, pp. 373 – 376.

10) M. Beutnagel et all. Rapid Unit Selection from a Large Speech Corpus for Concatenative Speech Synthesis Proc. 6th European Conf. on Speech Communication and Technology , September 5 - 9, 1999, Budapest, Hungary, pp. 607 – 610.

11) M. Beutnagel and A. Conkie. Interaction of Units in a Selection Database. Proc. 6th European Conf. on Speech Communication and Technology , September 5 - 9, 1999, Budapest, Hungary, pp. 607 – 610.

12) Chung-Hsien Wu, Jau-Hung Chen. Automatic Generation of Synthesis Units and Prosodic Information for Chinese Concatenative Synthesis. Speech Communication, vol 35 (3-4), pp. 219-238

13) S.Takano, K. Tanaka, H. Mizuno, M. Abe, S. Nakajina. A Japanese TTS System Based on Multiform Units and a Speech Modification Algorithm with Harmonics Reconstruction. IEEE Transactions on Speech and Audio Processing, vol 9(1), January 2001, pp. 3-10

14) Y Stylianou. Applying the Harmonic Plus Noise Model in Concatenative Speech Synthesis. IEEE Tra nsactions on Speech and Audio Processing, vol 9(1), January 2001, pp. 21-29

3.3. Asmens vertinimas pagal jo balsą

3.3.1. Reynoldso eksperimentai

Problema ir jos sprendimas. Reikia turėti tam tikrus standartinius rezultatus pagal kuriuos būtų galima įvertinti asmens įvertinimo pagal jo balsą sistemą. Šiuose eksperimentuose panaudojami 4 garsynai TIMIT, NTIMIT, Switchboard ir YOHO. TIMIT garsyne yra sukaupti 630 diktorių įvairių JAV regionų diktorių studijiniai įrašai (po 10 frazių). NTIMIT duomenų bazė yra suformuota iš TIMIT bazės, perduodant signalus per JAV telefono kanalus, todėl gana gerai atspindi diktoriaus atpažinimo galimybes sudėtingomis sąlygomis. Apmokymui pateikiama apie 80 % medžiagos, o likę įrašai naudojami testams.

Rezultatai. Lentelėje pagal [1] pateiktos diktoriaus identifikavimo ir verifikavimo klaidos ( % ). NTIMIT pavyzdys rodo kiek pablogėja automatinis diktoriaus nustatymas telefono kanale lyginant su “švariais” įrašais.

	TIMIT	NTIMIT	Switchboard	YOHO
Identifikavimas	0.5	39.3	17.2	--
Verifikavimas	0.45	7.2	5.1	0.51

Darbo reikšmė. Šie rezultatai gali būti naudojami tiekiamos diktoriaus atpažinimo sistemos kokybės įvertinimui.

Literatūra

1) D.A. Reynolds, "Speaker identification and verification using Gaussian mixture speaker models" Speech Communication 17 (1995) 91-108

Kiekis

Suprantama

Kiekis

Balai

Vidurkis