3. BALSO TECHNOLOGIJŲ
PASIEKIMAI PASAULYJE
3.1. Atpažinimas
3.1.1. Trys lietuviškos atpažinimo problemos. Galima paminėti bent porą lituanistinių faktorių, kurie turi labai didelę reikšmę tolesnei balso technologijų plėtrai Lietuvoje. Pirma, tai geras lietuvių fonetikos bei sintaksės dėsningumų supratimas, kuriam reikia buitinės lietuvių kalbos vartojimo patirties ir kuo vargu ar atidžiai domėsis kitų šalių technologai; antra, reikia kaupti lietuviškus balso technologijų resursus ( garsynus ), nes be jų neįmanoma tolesnė pažanga. Taigi, šalia plataus rato bendrų uždavinių, yra pabrėžiamos tris svarbios lituanistinės balso technologijų problemos:
· I faktorius - balso technologijų lietuviška sintaksė;
· II faktorius - balso technologijų lietuviška fonetika;
·
III faktorius - lietuviški balso garsynai (angl., speech databases arba
speech corpora).
3.1.2. Balso technologijų vystymosi prognozės. Microsoft vadovas B. Gates kalbos signalų technologijas tapatina su kompiuterijos ateitimi [1]. Vienok ir šis autoritetas prisipažino klydęs, kai jis apie 1980 metus tvirtino, kad 640 K kompiuterio atmintis yra tokia didelė, kad niekas nemokės jos pilnai išnaudoti.
Pažvelgus retrospektyviai, matyti, kad kurioje nors siauroje kalbos signalų technologijų srityje dirbantis specialistai kartais prastokai prognozuodavo atpažinimo pažangą [2] platesne prasme. Pirmoje lentelėje yra buvusioje SSSR atliktų specialistų apklausų atsakymai, kuriuos kitokia forma papildo Vakarų autoritetų vertinimai.
1 lentelė. Kalbos atpažinimo prognozių raida [2] ( nurodomi metai, kada
bus išspręstas tam tikros apimties žodyno atpažinimo uždavinys )
|
Apklausos metai |
Žodyno apimtis |
|||
|
20 |
200 |
2000 |
rišli kalba |
|
|
1967 |
1969 |
1971 |
1977 |
- |
|
1977 |
1980 |
1984 |
1988 |
1994 |
|
1988 |
1993 |
2000 |
2008 |
2029 |
Nelabai apgalvotas siūlymas susiaurinti planuojamus prioritetus akustiniame - fonetiniame lygyje ir juos išplėsti sintaksiniame - semantiniame lygyje sukėlė audringą reakciją [3]: netgi pasakoma, kad tai vis atsikartojančios senos pasakos (old stories) - reikia derinti įvairius žinių šaltinius, o ne deklaruoti kurios nors komponentės išimtinę svarbą. Tai, kas pasakyta, yra ypač svarbu Lietuvoje, nes mūsų resursai yra labai riboti ir apsisprendimas, kokius veiksmus reikia vykdyti, yra itin aktualus.
·
[1] Information on Speech Recognition business
developments. // Speech Recognition Update. N. 63, September 1998.
·
[2] N.Zagoruiko, Expert system as a tool for
speech studies, Antropomorphic systems
of automatic speech recognition and synthesis, St.Petersburg, 1993, 8 - 12.
·
[3] J. Mariani, B. Granstrom at all, Speech
Funding in Europe , Elsnews,
February 1999, pp. 6 - 8.
3.1.3. Atpažinimas telefonijoje ir
daugialypėse terpėse. Jau prieš keletą dešimtmečių susiformavo dvi
natūralios atpažinimo plėtros pozicijos taikymo prasme, kurias sąlyginai
pavadinsime telekomunikacine (ATT) ir multimedijine (IBM, vėliau Microsoft).
Pirmuoju atveju dominavo daugiadiktorinis nedidelio žodyno atpažinimas
telefoniniuose kanaluose, antruoju viendiktorinis labai didelio žodyno
atpažinimas ramaus biuro aplinkoje. Šiuolaikinis požiūris (1 lentelė) į abi pozicijas gerai suformuluotas
British Telecom tyrimų centro vadovo darbe [1].
1 lentelė. Kalbos signalų atpažinimo taikymo ypatybės telefonijos ir multimedia terpėse.
|
Faktoriai |
Telekomunikacijos |
Multimedia |
|
Žodyno apimtis |
Daugumoje keliasdešimt žodžių, kai kada iki 2000. |
Nuo 5000 iki 60000 ir daugiau |
|
Žodyno plėtimo galimybės |
Reikia suformuoti duomenis kiekvieno naujo žodžio apmokymui. |
Žodynas lengvai papildomas, naudojant naujų žodžių fonetines transkripcijas |
|
Informacinis grįžtamas ryšys. Klaidų pastebėjimo ir jų koregavimo galimybės |
Atsakymą gauname balsu. Galime jo nesulaukti. Dialogas turi būti labai kruopščiai suprojektuotas. |
Rezultatą matome kompiuterio ekrane. Galima greita korekcija. |
|
Diktoriaus adaptavimas |
Veik nėra galimybių naujam diktoriui prisiderinti, jei jo balsas blogai atpažįstamas. |
Interaktyvus apmokymas gali ženkliai padėti. |
|
Vartotojai |
Bet kuris diktorius. |
Gali būti net ir vienas suinteresuotas diktorius. |
|
Signalo kokybė |
Labai didelės variacijos: diktorius, mikrofonas, triukšmai, signalo perdavimo kanalas. |
Pakankamai gera. |
|
Kontekstas |
Naudojami skaičių pavadinimai ir valdymo komandos. Konteksto panaudojimas gana problematiškas. |
Formalios ir statistinės gramatikos yra efektyvus įrankis. |
|
Žodžių atpažinimo tikslumas |
Reikia siekti kuo tikslesnio atpažinimo, kad nesutrikdytume dialogo. |
Galima taikytis su ribotu klaidų skaičiumi jas ištaisant. |
1) D.
Johnston. Telephony Based Speech Technology - From Laboratory Visions to
Customer Applications , International
Journal of Speech Technology, 2, 89 - 99, ( 1997 ).
3.1.4. Žmogaus ir kompiuterio galimybės, pirmas lietuviškas faktorius. Apie 1995 metus Masačiusetso technologijos institute buvo surinkti populiariausi kalbos signalų atpažinimo algoritmai ir palyginti su žmogaus sugebėjimais spręsti tuos pat uždavinius [1].
1 lentelė. Žmogaus ir kompiuterio galimybių
palyginimas 1996 ,
klaidų %
|
Garsynas |
Žodyno apimtis |
Kompiuteris |
Klausa |
Komentarai |
|
Rišliai tariamų skaičių seka |
10 |
0.72 |
0.009 |
Atpažinimo įtaisas nežino kiek skaičių yra tariamoje sekoje |
|
Raidžių pavadinimai |
30 |
5 |
1 |
Atpažįstami anglų kalbos raidžių pavadinimai: pvz. raidė B tariama bi, raidė H - eitč ir t.t. |
|
Resource Managment |
1000 |
17 (3.6) |
2 (0.1) |
Skliausteliuose sintaksės efektas (perplexity 60) |
|
Wall Street Journal |
5000 |
7.2 - 12.8 |
0.9 - 1.1 |
Dešinėje signalo/triukšmų santykis krinta iki 10 dB |
|
Kredito kortelės |
14000 |
43 |
4 |
Spontaniška kalba telefonijoje |
|
NA Business News |
65000 |
6.6 - 10.3 (23.9) |
0.3 - 0.5 (0.8) |
Skliausteliuose, naudojant pigų elektretinį mikrofoną |
|
Kredito kortelės |
20 |
31 |
12.2 - 7.4 |
Reikia surasti 20 raktinių žodžių (word spotting) |
Kiekvienas šių uždavinių yra vertingas praktine prasme. Rezultatai pateikti lentelėje Žmogaus ir kompiuterio galimybių palyginimas, kur grafoje Žodynas nurodomas naudojamų žodžių skaičius, o grafose Kompiuteris ir Klausa yra pateikiamas atpažinimo klaidų skaičius %. Penktoje ir septintoje eilutėse liečiama ta pati kredito kortelių tvarkymo problema, bet pastaruoju atveju siekiama surasti tik 20 esminių žodžių. Matome, kad kompiuterio galimybės yra maždaug 10 kartų silpnesnės, nei žmogaus sugebėjimai veik visais atvejais. Verta taip pat pažymėti, kad ne tiek žodyno apimtis lemia atpažinimo tikslumą, o yra eilė kitų nepaprastai svarbių faktorių ( dialogo turinys, kanalas, triukšmai ir t.t.).
Čia minimas pirmas lietuviškas faktorius, Resource Management uždavinyje parodyta kiek svarbus yra konkrečios kalbos sintaksinių dėsningumų panaudojimas ( atpažinimo klaida sumažėja keletą kartų ). Taigi lietuviškos sintaksės panaudojimas yra labai svarbus.
1) R.P.Lippmann, " Recognition by
Humans and Machines: Miles to Go Before We Sleep ", Speech Communication, vol. 18, April 1996.
3.1.5. Atpažinimo plėtros tempai. Pateiksime panašią į praėjusią lentelę, kuri pateikta 2000 metais[1], t.y. po penkerių metų. Čia parodomi veik tų pat uždavinių sprendimo rezultatai, tačiau gerokai priartėta prie praktinių reikmių.
Kelių atpažinimo uždavinių efektyvumo palyginimas 2000 metai, klaidų %
|
Garsynas |
Kalba |
Žodyno apimtis |
WORD ERROR RATE, % |
|
Connected Digit Strings TI Database |
Spontaneous |
11 |
0.3 |
|
Connected Digit Strings Mail Recordings |
Spontaneous |
11 |
2.0 |
|
Connected Digit Strings - HMIHY |
Conversational |
11 |
5.0 |
|
Resource Management |
Real Speech |
1000 |
2.0 |
|
Airline Travel Information System |
Spontaneous |
2500 |
2.5 |
|
North American Business |
Real Text |
64,000 |
6.6 |
|
Radio recording ( Marketplace ) |
Mixed |
64,000 |
13 |
|
Switchboard |
Conversational Telephone |
28,000 |
37 |
|
Call Home |
Conversational Telephone |
28,000 |
40 |
Matome, kad tik Resource Management uždavinyje buvo gautas ženklus atpažinimo klaidos sumažinimas (nuo 17% iki 2.0%). Matome didoką 11 žodžių atpažinimo klaidą HMIHY uždavinyje, bet ji jau buvo įvertinta realių telekomunikacinių paslaugų teikimo sąlygomis. Taigi buvo gerokai ištobulintos daugelis atpažinimo komponenčių, kurias apibūdinsime toliau, bet reikia daug geresnio mokslinio problemų supratimo.
[1] R. V. Cox, C. A. Kamm, L. R. Rabiner, J. Schroeter, and J. G. Wilpon. Speech and Language Processing for Next-Millenium. // Proceedings of the IEEE, vol. 88, No. 8, August 2000, pp. 1314 - 1337
3.1.6. Fonetiniai dėsningumai - antras lietuviškas faktorius. Laipsniškai buvo pereinama prie fonetinio kalbos signalų atpažinimo, nes tai irgi žymiai sumažina atpažinimo klaidas. Tai parodoma pirmoje lentelėje, kur pateikiamas angliškų raidžių pavadinimų atpažinimo tikslumas naudojant tiek žodinius, tiek ir fonetinius atpažinimo modelius [1]. Matome, kad pastarieji yra gerokai efektyvesni, ypač sunkiau skiriamų garsų atveju ( E-aibė ). Dar daugiau, atpažinimo tikslumas išauga, jei fonemų modeliai yra sudaromi fiksuotame kontekste.
1 lentelė. Angliškų raidžių pavadinimų atpažinimo tikslumas naudojant žodinius ir
fonetinius atpažinimo modelius (E-aibė yra uždaros balsės kontekste tariami priebalsiai )
|
Atpažinimo modelis |
E aibė |
Visos |
|
Žodžiai |
63.7 |
83.6 |
|
Fonemos bendrai |
73.3 |
87.4 |
|
Fonemos kontekste |
83.2 |
91.3 |
Antroje lentelėje pateikiama fonemų atpažinimo vystymo raida, kai naudojami aukštos kokybės studijiniai ir telefoniniai įrašai. Dešiniajame stulpelyje parodyta, kad laikui bėgant buvo įvedami vis subtilesni modeliai. Priešpaskutinė eilutė liudija, kad sugebama gana tiksliai skirti kietus nosinius priebalsius. Tačiau kol kas nėra efektyvių apibendrintų balsių modelių, nes 10 balsių atpažinimo tikslumas tesiekia 69%, naudojant TIMIT duomenis ( paskutinė antros lentelės eilutė).
2 lentelė. Fonemų atpažinimo raida, naudojant studijinės kokybės įrašus
|
Šaltinis |
Duomenis |
Tikslumas |
Komentarai |
|
Cole 83 [2] |
26 raidžių vardai |
visų 88.8 %, E-aibė 83.3% |
tiesinė diskriminantinė analizė (LDA) |
|
Cole 90 [3] |
ISOLET 26 l raidžių vardai |
visų 96% |
neuronų tinklai |
|
Hunt 93 [4] |
BT E-aibė 8 raidžių vardai |
96.0 % |
modifikuota LDA |
|
Spanias 96 [1] |
ISOLET |
visų 97.37 % E-aibė 95 % nosiniai 95.0 / 96.6% |
Fonemų pora apdorojama atskirai |
|
Deng 96 [5] |
TIMIT 10 balsių |
69.0 % |
HMM mišinio trendas |
Nors nėra pasiektas esminis lūžis, automatiškai klasifikuojant bazinius (fonetinius) atpažinimo vienetus, bet lietuviškų fonetinių duomenų kaupimas yra itin svarbus.
[1] P.Loizou and A.
Spanias, High performance alphabet recognition , IEEE Trans. on Speech and Audio Processing, vol.4, no 6, November
1996, pp. 430-445.
[2] R.Cole et
al.,"Feature-based speaker-independent recognition of isolated English letters,"
ICASSP'83, pp. 731-733.
[3] R.Cole,
M.Fanty,Y.Muthusamy, and M.Gopalakrishnan, "Speaker-independent
recognition of spoken English letters, " Proc. Int. Joint Conf. Neural Networks, vol. 2, June 1990, pp.
45-51.
[4] C.M. Ayer,
M.J.Hunt and D.M.Brookes, " A discriminatively derived linear transform
for improved speech recognition ", Proc.
Eurospeech, Berlin, September 1993, pp. 583 - 586
[5] L. Deng and M.
Aksmanovic, " Speaker - Independent Phonetic Classification Using Hidden
Markov Models with Mixtures of Trend Functions ", Proc.
IEEE Trans. on Speech and Audio Processing, vol. 5, no. 4, July 1997,
pp.319 - 324.
3.1.7. Garsynai - trečias lietuviškas faktorius. Kalbos atpažinimo sistemas reikia apmokyti. Tam kuriami garsynai specialiai surinktų kalbos signalų duomenų bazės (angl. speech corpora). Sukurti universalų garsyną yra sudėtingas uždavinys, nes toks garsynas turėtų gerai aprašyti kalboje sutinkamų fonetinių vienetų įvairovę, įvertinti kontekstinius efektus, diktorių ir kalbėjimo stilių įvairovę ir pan. Todėl garsynai sudaromi orientuojantis į tam tikros uždavinių klasės sprendimą. Šiuo metu pasaulyje sukurta nemažai įvairių garsynų, kuriuose surinkta skirtingų kalbų medžiaga. Tačiau keli garsynai yra tapę savotiškais standartais, į kuriuos orientuojamasi sudarant naujas kalbos signalų duomenų bazes. Visų pirma tai TIMIT garsynas ir jo variantai (NTIMIT, CTIMIT) bei keletas kitų, su kuriais supažindinama toliau.
Lietuviškų kalbos signalų technologijų vystymas neįmanomas be lietuvių kalbos signalų duomenų bazių. Tai būtų instrumentai mokslinių ir praktinių uždavinių vystymui, metrologijos priemonės. Pirmas sisteminis žingsnis tai LTDIGITS garsynas [7], sudarytas KTU ir VU prieš porą metų. Tačiau LTDIGITS medžiaga - tik nedidelė dalis lietuviškų fonetinių vienetų bei žodžių įvairovės, todėl būtina ir toliau kaupti lietuviškus garsynus, surinktus papildyti nauja medžiaga bei apdoroti, t.y. atlikti leksinį bei fonetinį segmentavimą.
Žemiau supažindiname su keliais pasaulyje populiariausiais garsynai, tapusiais etalonais.
3.1.7.1 TIMIT garsynas
Bazės pavadinimas sudarytas iš pagrindinių autorių ( Texas Instruments ir Massachussets Institute of Technology ) pavadinimų abreviatūrų. Tai bene pirmoji sistemingai surinkta kalbos signalų duomenų bazė.
TIMIT duomenis vieno įrašų seanso metu perskaitė 630 diktorių (po 10 sakinių kiekvienas), atstovaujantys 8 JAV dialektinius regionus. Saugantis pašalinių triukšmų, įrašai padaryti akustinėje kabinoje, naudojantis plačiajuosčiu mikrofonu.
Kiekvienas diktorius perskaitė po du tuos pačius sakinius, kuriuose buvo siekiama atspindėti dialekto ypatybes (dialect senteces - SA).
Fonetinių porų įvairovė vaizduojama taip vadinamais reprezentatyviais - kompaktiniais sakiniais ( phonetically-compact senteces SX ). Kiekvienas diktorius perskaitė po 5 šio tipo sakinius, o kiekvieną parinktą tekstą perskaitė 7 diktoriai.
Maksimizuojant tekstuose aptiktų alofonų įvairovę, kiekvienam diktoriui buvo pasiūlyta perskaityti po 3 tik jam skirtus sakinius ( phonetically-diverse senteces SI ).
Ši bazė unikali tuo, kad turi labai kruopščiai sužymėtas fonemų ribas. Daugelyje kitų bazių pateikiamos tik žodžių ribos. Būtent todėl ji tapo plačiai naudojama ir palaipsniui, adaptavus įvairiems ryšio kanalams, buvo transformuota į kitas ( NTIMIT [4], CTIMIT [5], FFMTIMIT, HTIMIT [6] ).
3.1.7.2 TIMIT bazės struktūra
Bazė platinama CD ROM diskelyje. Trumpai supažindinsime su duomenų patalpinimo šioje duomenų bazėje struktūra. Tarkime, kad turime katalogą timit\train\dr1\fcjf0\. Čia žodis train rodo, kad įrašai skiriami atpažinimo algoritmo mokymui, simboliai dr1 žymi diktoriaus gimtosios vietos dialektą ( dialect region ), pirmoji sekos fcjf0 raidė rodo diktoriaus lytį (šiuo atveju female), o sekančios 4 raidės žymi diktoriaus inicialus. Kiekviename tokiu būdu pavadintame kataloge yra 10 sakinių, o kiekvienam sakiniui skiriami 4 failai, turintys .txt, .wrd, .phn ir .wav išplėtimus. Pavyzdžiui, minėtame kataloge galima rasti failus: sx127.txt, sx127.wrd, sx127.phn, sx127.wav. Abreviatūra sx127 rodo, kad turime kompaktinio tipo 127 sakinį. Faile sx127.wav yra 16 kHz dažniu įvesto signalo diskretos. Faile sx127.txt yra nurodytas failo sx127.wav ilgis ir pateiktas sakinio ortografinis užrašas. Šiuo konkrečiu atveju faile yra toks įrašas:
0 24679 The emperor had a mean temper
Faile sx127.wrd nurodytos kiekvieno žodžio pradžios bei pabaigos diskretų numeriai kartu su žodžio ortografija. Pavaizduosime pirmąsias dvi bei paskutiniąją šio failo eilutes:
2231 3757 the
5045 9232 emperor
.
16721 22680 temper
Faile sx127.phn nurodyti kiekvieno fonetinio vieneto pradžios bei pabaigos diskretų numeriai kartu su fonetiniu simboliu, kuris užrašomas 1-3 raidėmis. Pavaizduosime pirmąsias tris bei paskutiniąją šio failo eilutes, kur sakinio pradžioje bei pabaigoje esančios pauzės pažymėtos simboliu h#:
0 2231 h#
2231 2834 dh
2834 3757 iy
.
22680 24560 h#
3.1.7.3 Diktoriaus nustatymo duomenų bazės
Diktoriaus nustatymo uždaviniams skirtų garsynų kategorijoje populiariausiomis tapo YOHO ir SWITCHBOARD duomenų bazės.
YOHO [9] duomenų bazė buvo sukurta užsakius JAV vyriausybei, siekiant suformuoti kalbos signalais paremtas diktoriaus identifikavimo/verifikavimo priemones. Čia naudotas telefoninis aukštos kokybės mikrofonas ofiso tipo akustinėje aplinkoje. Duomenis perskaitė 138 diktoriai, pakartotinai perskaitydami tekstus kelių mėnesių bėgyje.
SWITCHBOARD [8] bazė skirta finansinių operacijų, naudojantis kredito kortelėmis ir perduodant balso komandas telefono kanalu, vykdymui.
Eilė pažangių principų realizuota europinėje daugiakalbėje POLYCOST [10] duomenų bazėje.
3.1.7.4 Fonetinės duomenų bazės
Šioje kategorijoje paminėtini ISOLET ir OGI garsynai.
ISOLET [11] bazėje yra sukaupti 150 diktorių perskaityti anglų kalbos raidžių pavadinimų įrašai, naudojant aukštos kokybės mikrofoną ( diskretizavimo dažnis 16 kHz, spektras iki 7.6 kHz ). Fonetinį segmentavimą reikia atlikti vartotojui.
3650 diktorių per telefoną sudiktavo OGI [3] duomenis. Čia yra diktorių vardai, pavardės, angliškai ištarti žodžiai taip/ ne, diktoriaus gyvenamoji vieta, jo gimtinė, anglų kalbos raidžių pavadinimai bei kita. Svarbu, jog tam tikra duomenų dalis yra fonetiškai segmentuota.
Kuriant LTDIGITS buvo panaudoti kai kurios aukščiau aprašytų garsynų savybės:
- analogiška TIMIT bazei duomenų išdėstymo sistemą;
- POLYCOST pavyzdžiu paįvairinti medžiagą: t.y., šalia skaičių sekų padiktuoti kai kurių valdymo komandų pavadinimus;
- papildant ISOLET spragas, sudiktuoti porą sekų, kuriose yra akustiškai artimi skiemenis, kad būtų galima spręsti fonemų skyrimo uždavinius.
Manytume, kad ir kuriant kitus lietuviškus garsynus reikia naudoti šių duomenų bazių bei LTDIGITS savybėmis. Tai padėtų išspręsti ir visą eilę suderinamumo problemų.
Literatūra
1)
J.C. Wells, et
al. Standard Computer-Compatible Transcription // ESPRIT Project 2589 (SAM):
Final Report 1.3.91 - 28.2.92, 1992
2)
W.M. Fisher,
G.R.Doddington, Goudie-Marshall, K. M. The DARPA Speech Recognition Research
Database: Specification and status // Proc. of DARPA Workshop on Speech
Recognition, February 1986, pp. 93 - 99.
3)
R. Cole, M.
Fanty, K.A.Roginski. Telephone Speech Database of Spelled and Spoken Names //
Proc. Int. Conf. Spoken Language Processing , 1992, pp. 891 - 893.
4)
C.Jankowski,
Kalyanswamy, A., Basson, S., Spitz, J. NTIMIT: A Phonetically Balanced,
Continuous Speech, Telephone Bandwidth Speech Database // Proc. ICASSP90,
April 1990, pp. 109 - 112.
5)
K.L.Brown,
George, E.B. CTIMIT: A Speech Corpus for the Cellular Environment with
Application to Automatic Speech Recognition // Proc. ICASSP95, May 1995, pp.
105 - 108.
6)
D.Reynolds.
HTIMIT and LLHDB: Speech Corpora for the Study of Handset Transducer Effects //
Proc. ICASSP97, April 1997, pp.1535 -
1538.
7) A.Rudžionis, V.Rudžionis, P.Žvinys. Lietuvių kalbos signalų duomenų bazės LTDIGITS akustinės-fonetinės charakteristikos. // Baltų kalbų fonetikos ir akcentologijos problemos. St. Peterburgas, 1999 kovo 2 - 4 d.
8) Godfrey, J.J., Holliman, E.C., MacDaniel, J. Switchboard: Telephone speech corpus for research and development
// Proc. ICASSP92 , March 1992, pp. 517-520.
9) Higgins, A., Bahler, L., Vensko, G., Porter,
J., Vermilyea, D. YOHO speaker authentication final report // Technical
Report, ITT Defense Communications
Division, 1992.
10) Melin, H., Lindberg, J. Guidelines for Experiments on
the POLYCOST Database // Proc. of COST 250 Workshop on Application of Speaker
Recognition Techniques in Telephony, Vigo, Spain, November 1996, pp. 59 - 69.
11) Cole, R., Muthusamy,Y., Fanty, M. The
ISOLET spoken Letter Database // Technical Report 90 - 004, Oregon Graduate
Institute, 1990.
3.1.8. Kitos sudėtinės atpažinimo funkcijos
Pagrindinė atpažinimo schema - tolydinio tankio paslėptos Markovo grandinės (continuous density hidden Markov model - CD HMM ). Šiuo metu tai yra populiariausia kalbos signalų atpažinimo schema. Bet koks lingvistinis vienetas (žodis, skiemuo, fonema) yra aprašomas tam tikru skaičiumi būsenų ir perėjimo tikimybėmis. Daroma prielaida, kad tai kas ir kaip tariama niekada nėra tiksliai žinoma (paslėptas procesas), bet rezultatą visada stebime (girdime ) ir jį galime fiksuoti. Taigi automatinio atpažinimo įtaiso šerdis yra pagal stebėjimo rezultatus sukonstruotas paslėpto proceso modelis. Modelio parametrų įvertinimui naudojama Baum-Welch procedūra, atliekant iteracinius tiesioginių-atbulinių ( Forward - Backward ) tikimybių skaičiavimus. Sintaksė modeliuojama N-gramatikomis, kuriose yra sukaupiamos N paeiliui einančių žodžių statistikos. Atpažinimo procesas grindžiamas Viterbi algoritmu, kai su ištarta fraze dinaminio programavimo būdu lyginami žinomi CD HMM modeliai, surandant panašiausią.
Pašalinių garsų atmetimas ( out of vocabulary ). Klausydamas jį dominančios kalbinės informacijos, žmogus sugeba ignoruoti pašalinius pokalbius, triukšmus, muzikinius garsus ar panašiai, žinoma, jei pastarieji nėra pernelyg intensyvūs. Tai reiškia, kad reikia turėti galimybę atmesti įvairius akustinius garsus, kurių nėra kompiuterinio dialogo žodyne. Tinkamai parenkant atpažįstamų signalų panašumo slenkstį, tikrinama ar nagrinėjama komanda yra pakankamai panaši į kurią nors vieną iš leistinų komandų. Jei slenkstis pakankamai aukštas, tai atmetama ir dalis leistinų komandų, o jei šis slenkstis per žemas, atpažinimo įtaisas beprasmiškai reaguoja į pašalinius garsus. Kuo tikslesnis yra atpažinimo algoritmas, tuo efektyviau veikia ši procedūra.
Raktinių žodžių paieška ( key word spotting ). Tipinę žmogaus tariamą komandą galima pavaizduoti esminiais žodžiais: subjektas ( kas vykdo ), predikatas( kas vykdoma ), objektas( kas yra vykdymo objektas ), atributai ( kaip vykdoma ). Realioje frazėje esti funkcine prasme neesminių žodžių ( pvz. malonybės ), nekalbinių intarpų ( mikčiojimas, kostelėjimas ), o funkciškai esminių žodžių tvarka gali keistis, nors prasmė išlieka ta pati. Raktinių žodžių paieška yra funkciškai esminių žodžių suradimas.
Pasikliovimas atpažinimu ( confidence measure ). Vis labiau plinta procedūros, kai galutinis sprendimas priimamas pagal atpažįstamo vieneto panašumo mato reikšmę nebūtinai iš karto. Jei panašumas nėra pakankamai aukštas, automatas siūlo pakartoti užklausą, modeliuojant žmogaus elgesį, kai jis gali ne iš karto suprasti klausimo prasmę.
Akustinio aido slopinimas ( acoustical echo cancellation ). Dialogo tarp dviejų žmonių metu neretai vienas pašnekovas pertraukia kitą, nes jis suprato, ką turėtų atsakyti. Panašiai kompiuteris duoda ilgoką nuorodą ( prompt ), o vartotojas nelaukdamas nuorodos galo ištarią komandą, taigi į mikrofoną patenka nuorodos ir vartotojo komandos mišinys. Kompiuteriui reikia mokėti atskirti ką pasakė jis pats ( akustinis aidas ) ir ką pasakė vartotojas. Tam naudojamos įvairios adaptyvaus tiesinio filtravimo modifikacijos. Neseniai AT&T pareiškė, kad savo sukurtas 40 msek. akustinio aido slopinimo priemones priskiria prie svarbesnių pastarojo penkmečio kompanijos laimėjimų.
Triukšmų apdorojimas ( noise supression, speech enhancement ). Praktikoje naudingus signalus visada lydi triukšmai. Skiriama labai daug dėmesio triukšmų poveikiui susilpninti. Galima paminėti spektro atėmimo, Kahrunen - Loeve dekompozicijos, Vinerio filtravimo, Kalmano filtravimo, Markovo grandinių, vilnelių ir eilę kitų metodų triukšmams šalinti nuo signalų. Gaunamas iki 6-10 dB eilės triukšmo slopinimo lygis. Nuvalytas signalas kartais būna nemalonus klausai, bet atpažinimo prasme gaunami ir teigiami rezultatai.
Prisitaikymas prie akustinės aplinkos (adaptation). Seniai pastebėta, kad laboratorijose paruoštos atpažinimo priemonės blogai veikia realaus taikymo sąlygomis. Pvz., laboratorijose gaunama mažesnė nei 1% skaičių pavadinimų sekų atpažinimo klaida gali išaugti iki 75% telefono kanaluose [1]. Texas Instrument surado efektyvų adaptavimosi būdą [2], kai efektingai išnaudojami laboratoriniai duomenis ir atpažinimo klaida nesumažėja. Didelės apimties laboratoriniai duomenis atspindi žmonių balsų įvairovę bei lingvistines ypatybes, o santykinai nedidelė adaptavimo medžiaga leidžia prisitaikyti prie triukšmų, kanalo, reverberacijų ir kitų faktorių.
Literatūra
1)
H. Hirsch. HMM
Adaptation for Telephone Applications, Proc.
6th European Conf. on Speech Communication and Technology, September 5 - 9,
1999, Budapest, Hungary, pp. 9 12.
2)
Y. Gong and J.
Godfrey. Transforming HMMS for Speaker-independent Hands-free Speech
Recognition in the Car , Proc. 1999 IEEE
Int. Conf. on Acoustics, Speech and Signal Processing , pp. 1721 1724.
3.2 Kalbos sintezės metodai
3.2.1 Problemos
formulavimas.
Kalbos
sinteze vadinamas automatinis balsinio pranešimo generavimas iš pateikto teksto
ar kitos simbolių sekos, t.y. tekstu pateiktos informacijos skaitymas balsu.
Nekelia abejonių, kad sintezė labai nuo konkrečios kalbos savybių priklausanti
kalbos technologijų sritis. Generavimui reikia naudoti konkrečiai kalbai
paruoštus sintezės elementus (pastarieji dažnai vadinami sintezės vienetais)
bei atsižvelgti į duotos kalbos gramatines ypatybes (kirčiavimą, prozodines,
intonacines savybes ir pan.). Reiktų pažymėti, kad lietuvių kalba nėra sintezės
požiūriu lengva kalba.
Sintezės
iš teksto panaudojimo perspektyvos labai plačios - jos gali būti naudojamos
įvairiausiose informacinėse sistemose (ryšiuose, transporte, gal būt sveikatos
apsaugoje). Pasaulyje jau egzistuoja visa eilė kalbos sintezės taikymo
praktikoje pavyzdžių, dažniausiai orientuotų į didžiąsias pasaulio kalbas
(anglų, kinų, prancūzų, vokiečių, japonų). Jose naudojama pakankamai aukštos
kokybės balso sintezė, tačiau net ir geriausių šiuolaikinių sintezės sistemų
generuoto balso kokybė gerokai nusileidžia natūraliam balsui.
3.2.2 Sintezės kokybės vertinimo kriterijai.
Sintetinės kalbos kokybei apibūdinti naudojama eilė rodiklių, kurių svarbiausieji yra aiškumas (angl. inteligibillity) ir natūralumas (angl. naturalness). Aiškumu nusakoma, kokią lingvistinių vienetų (fonemų, skiemenų ar žodžių) dalį gali suprasti klausytojas. Natūralumas yra subjektyvesnis kriterijus, juo stengiamasi nustatyti kiek sintetinė kalba artima žmogaus kalbos. Eilę dešimtmečių aiškumo gerinimo pastangos buvo sintezės plėtros varomoji jėga, kadangi neaiški kalba yra praktiškai bevertė. Yra gauti aukšto aiškumo sintetinės kalbos pavyzdžiai ir ypač stengiamasi pagerinti natūralumą.
Šiuo metu formuojasi ir pragmatiškesni sintetinės kalbos kokybės vertinimo kriterijai. Skiriamos dvi sintetinės kalbos kokybės gradacijos: vartojimo kokybė (angl. customer quality) ir natūrali kokybė (angl. natural quality) [1]. Vartojimo kokybės sintetine kalba laikoma kalba, kai didelė vartotojų dalis moka už paslaugas, kai informacija pateikiama sintetine kalba. Natūralia kokybe suprantama tokia sintetinė kalba, kai specialiai nepasiruošęs vartotojas nesugeba jos atskirti nuo žmogaus kalbos. Nors visada buvo ir nenatūralios, bet aiškios, sintetinės kalbos praktinio panaudojimo sferų (tarkim nėra kitos galimybės informacijos pateikimui), tačiau, plintant automatizuotoms balso paslaugoms, nenatūrali kalba stabdo tokiomis paslaugomis besinaudojančių vartotojų skaičių. Kadangi natūralumas yra subjektyvus kriterijus, jis dažniausiai vertinamas balais: grupei klausytojų pateikiami sintezuotų įrašų pavyzdžiai ir pasiūloma įvertinti kokybę balu. Balso technologijų vertinimui dažniausiai naudojama penkiabalė sistema. Skirtingų klausytojų vertinimo rezultatai suvidurkinami.
3.2.3 Kalbos sintezatoriaus komponentės
Norint tekstą paversti balsu, reikia nuosekliai atlikti eilę procedūrų. Visų pirma tekstą reikia tinkamai paruošti, atlikti jo transkripciją (pvz. lietuvišką žodį gąsdina mes tariame gazdina ), nustatyti frazėje esančių žodžių kirčius, apibūdinti frazės tipą (paprasta, klausiamoji ar šaukiamoji intonacija). Šis etapas paprastai vadinamas teksto normalizavimu. Galiausiai tekstas paverčiamas fonemų seka su prozodijomis. Šią seką reikia paversti tinkama sintezės vienetų seka, o pastarąją paversti balsu. 1 pav. parodytas tipinis sintezatoriaus pavyzdys.
Nors visos sintezatoriaus komponentės yra svarbios, tačiau kol kas labiausiai sintetinės kalbos kokybę nulemia sintezės vienetų kokybė. Jais gali būti skiemuo, skiemens dalis, fonema, jos dalis ar jų junginys - difonas. Sintezės vienetai gali būti tiesiog iškirptos iš žmogaus balso signalo atkarpos arba tos
Žodynas ir taisyklės Sintezės vienetų
saugykla
![]()
![]()

![]()
tekstas
garsas
1 pav. Sintezės procesų diagrama
pačios atkarpos gali būti paverstos požymiais (kepstras, filtrai, Furje transformacija, tiesinės prognozės parametrai). Pirmuoju atveju turime taip vadinamą signalo bangos konkatenaciją, o antruoju parametrinę sintezę.
3.2.4 Kalbos sintezės metodai
Istoriškai ilgai dominavo parametriniai sintezės metodai, nes sintezatorius buvo atskiras įrenginys, kurį valdydavo kompiuteris. Be to tuometinių kompiuterių techniniai parametrai, sintezės požiūriu pirmiausia atmintis, buvo labai riboti. Maždaug prieš penkiolika metų buvo pasiūlytas [4], po to patobulintas [5], TD-PSOLA sintezės būdas.
PSOLA schemai būdingos trys
fazės: signalo analizė, jo modifikavimas ir sintezė. Ypač reikšminga yra
antroji, modifikavimo, fazė, kurios metu atliekami spektro pakeitimai, kad
vienetų sandūrose prisiderinti prie reikiamų prozodinių parametrų ( pagrindinis
tonas, energija, trukmė ). Analizės metu nustatomas signalo pagrindinio tono
žymės. Analizės langai parenkami taip, kad jie pakankamai persidengtų gretimoms
pagrindinio tono žymėms (OLA overlap-add principas). Kartu diskretinės Furje
transformacijos pagalba išskiriama globali spektro gaubtinė ir spektro dalis,
atitinkanti žadinimo funkciją. Sintezės metu keičiamas analizės žingsnis (SOLA),
jį sinchronizuojant su pagrindiniu tonu ( PSOLA )
Pastaraisiais metais įsigali požiūris, kad PSOLA metodas išsisemia. Tai argumentuojama tuo, kad naudojamas santykinai nedidelis sintezės vienetų skaičius (1000 ar kiek daugiau ), kurie neaprašo daugelio galimų fonetinių kontekstų. Nors sintezės vienetams saugoti pakanka gana nedidelės atminties (Mb eilės), tačiau sintetinė kalba nėra pakankamai natūrali. Todėl siekiama pakeisti klasikinę PSOLA schemą.
Vienas tokių bandymų yra sintezės vienetų pailginimas, t.y. pereinama nuo difono prie konstrukcijos balsis priebalsis balsis V-CV, tuo minimizuojant reikiamas pagrindinio tono modifikacijas bei sumažinant iškraipymus sandūrose [6]. Taip pastebimai pagerinamas priebalsių aiškumas lyginant su difonine CV sinteze ( nuo 94% iki 97% šiame darbe ). Viso buvo naudojama 7100 tipinių V-CV junginių, tačiau pažymėtina, kad tai taikoma japonų kalbai, teturinčiai 101 skiemenį.
Kitais atvejais stengiamasi iš ribotos žodžių atsargos formuoti naujus. Pavyzdžiui [7] yra sukaupta 2000 žodžių garsynas orų prognozės tikslams. Iš daugiaskiemenių žodžių imami skiemenis ir sudaromi nauji žodžiai, juos pritaikant kitokiems kontekstams, nei jie buvo įrašyti.
Perspektyviu
laikomas kombinuotos sintezės metodas [8], kai naudojami visų lygių sintezės
vienetų kombinacija: difonai, skiemenis ir žodžiai. Jis pritaikytas Vokietijoje
kelionių planavimo dialogams automatizuoti. Sintezės modulis pirmoje eilėje
ieško saugykloje pilnų žodžių, jei nerandamas pilnas žodis, tai antrame etape
bandoma jį sudaryti iš skiemenų. Jei ir tai nepavyko, atliekama difoninė
sintezė. Kadangi natūraliau skamba ilgesni vienetai, tai šiuo atveju kalbos
pranešimo kokybės prasme optimaliai išnaudojami sintezės vienetai
Geriausios šiandieninės sintezės sistemos naudoja konkatenacinę sintezę. Tokių sistemų pavyzdžiais galėtų būti harmonika plius triukšmas modelis (HMN) [14], japonų kalbos sintezės sistema, paremta kalbos modifikavimo algoritmu su harmonikų rekonstrukcija [13] bei kinų kalbos konkatenacinės sintezės schema su automatiniu sintezės vienetų ir prozodinės informacijos generavimu [13]. Pastaroji sistema orientuota į kinų kalbos mandarinų variantą (Chinese Mandarin). Tai toninė kalba, turinti 5 bazinius tonus. Kita ypatybė tai, kad šioje kalboje tėra apie 1300 fonologiškai leistinų skiemenų, todėl natūralu skiemenį pasirinkti baziniu sintezės vienetu. Siekiant kuo aukštesnio suvokiamumo ir natūralumo, autoriai pasiūlė automatinius vienetų parinkimo, jų trukmės nustatymo, prozodijos pritaikymo algoritmus. Kinų sintezės suprantamumo ir natūralumo testavimas pateikė tokius rezultatus [12]:
1 lentelė. Kinų kalbos sintezės sistemos suprantamumo ir natūralumo testavimo rezultatai
|
Testo tipas |
Suprantamumas |
Natūralumas |
||
|
|
Kiekis |
Suprantama |
Kiekis |
Balai |
|
Vienskiemeniai |
1313 |
93,3% |
-- |
-- |
|
Dviskiemeniai |
200 |
96.0% |
200 |
3.8 |
|
Triskiemeniai |
200 |
98.8% |
200 |
3.7 |
|
Keturskiemeniai |
200 |
99.2% |
200 |
3.7 |
|
Sakinys |
100 |
97.2% |
100 |
3.3 |
|
Trumpas tekstas |
-- |
-- |
100 |
3.4 |
Vidurkis |
|
96.9% |
|
3.6 |
Japonų kalbos sintezės sistemoje
[13] naudojami kelių rūšių sintezės vienetai: difonai, priebalsių balsių (CV)
sekos VCV, CVC, trifonai (fonemų realizacijos kontekstuose). Tokių elementų
panaudojimas leidžia gauti pakankamai suprantamą kalbą, tačiau ribotas vienetų
kiekis neaprašo natūralioje kalboje egzistuojančios tarimo įvairovės, todėl
sintetinė kalba nėra pakankamai natūrali. Natūralumui pagerinti panaudoti
nevienodo ilgio elementai (nonuniform units). Tačiau tai pareikalavo ypač
didelio sintezės vienetų skaičiaus (60000 vienetų išrinkta iš 45000sakinių).
Testai parodė, kad tokios sistemos vidutinis suvokiamumas siekė 95,1% (99,2% klausant žinomus
vardus ir 91% klausant nežinomus vardus). Vertindami natūralumą
91% klausytojų
teigė, kad sistema su nevienodo ilgio elementais generuoja natūralesnę kalbą nei
įprastinė sistema su vienodo ilgio vienetais. Reiktų pažymėti, kad toks metodas
reikalauja ypač daug paruošiamojo darbo, kartu ir didelių sąnaudų, todėl
panaudoti jį lietuvių kalbos sintezei sunku.
Harmonika plius triukšmas (HMN)
[14] modelis pasiūlytas siekiant pagerinti sintetinės kalbos kokybę, glotninant
perėjimus tarp sintezės vienetų. HMN modelyje naudojama prielaida, kad kalbos
signalas sudarytas iš harmoninės ir triukšminės dalių. Apatinė spektro dalis
modeliuojama sinusinėmis harmonikomis, kurios moduliuojamos triukšmo komponentu
(modeliuojančia viršutinę spektro dalį). [14] pateikiami harmoniniu plius
triukšmas (HMN) ir TD_PSOLA modeliu gautos sintezės kokybės vertinimo
rezultatai:
2 lentelė.
HMN ir TD-PSOLA sintezės metodų palyginimas
|
|
Sakiniai |
Bendras |
Beprasmės
frazės |
|
HNM |
3,05 |
3,00 |
2,95 |
|
TD-PSOLA |
2,84 |
2,75 |
2,66 |
3 lent.
pateikiamos HMN ir ATT kompanijos sekančios kartos sintezės (next-generation
TTS) palyginimo rezultatai, kuriuose pateikiama ne tik sintetinės kalbos
kokybės, bet ir suprantamumo testų rezultatai. ATT NGTTS naudoja sintezės
elementų išrinkimo sistemos CHATR išplėtimą.
3 lentelė.
HMN ir ATT NGTTS sintezės sistemų kokybės palyginimo rezultatai
|
|
ATT |
HMN |
|
Kokybė
(MOS) |
3,46 |
3,91 |
|
Suvokiamumas |
3,48 |
3,98 |
Literatūra
1)
R.V.Cox, C. A. Kamm,
L. R. Rabiner, J. Schroeter, and J. G. Wilpon. Speech and Language Processing
for Next-Millenium. Proceedings of the
IEEE, vol. 88, No. 8, August 2000, pp. 1314 - 1337
2)
P.Taylor. Lets not
make the same mistake twice
. Elsnews,
September 1999, vol. 8.3, pp.4 5.
3)
G. Sonntag et all.
Comparative Evaluation of Six German TTS Systems. Proc. 6th European Conf. on Speech Communication and Technology ,
September 5 - 9, 1999, Budapest, Hungary, pp. 251 254.
4)
F. Charpentier and
M. Stella. Diphone Synthesis Using an Overlap-Add Technique for Speech
Waveforms Concatenation. ICASSP-86,
Tokyo, Japan, 1986, pp. 2015 2018.
5)
E. Moulines and F.
Charpentier. Pitch-Synchronous Waveform Processing Techniques for
Text-to-Speech Synthesis Using Diphones Speech
Communication, 9 (5/6), 1990, pp. 453 - 467.
6)
T. Koyama and J.
Takahashi. A V-CV Waveform based Speech Synthesis Using Global Minimization of
Pitch Conversion and Concatenation Distortion in V-CV Unit Sequence. Proc. 6th European Conf. on Speech
Communication and Technology , September 5 - 9, 1999, Budapest, Hungary,
pp. 2311 2314.
7)
E. Lewis, M. Tatham.
Word and Syllable Concatenation in Text-to-Speech Synthesis. Proc. 6th European Conf. on Speech
Communication and Technology , September 5 - 9, 1999, Budapest, Hungary,
pp. 615 618.
8)
K. Stoeber et all.
Synthesis by Word Concatenation. Proc.
6th European Conf. on Speech Communication and Technology , September 5 -
9, 1999, Budapest, Hungary, pp.619 622
9)
Hunt and A. Black.
Unit Selection in a Concatenative Speech Synthesis System. ICASSP-96, Atlanta, GA, 1996, pp. 373 376.
10) M. Beutnagel et all. Rapid Unit Selection from a Large
Speech Corpus for Concatenative Speech Synthesis Proc. 6th European Conf. on Speech Communication and Technology ,
September 5 - 9, 1999, Budapest, Hungary, pp. 607 610.
11) M. Beutnagel and A. Conkie. Interaction of Units in a
Selection Database. Proc. 6th European
Conf. on Speech Communication and Technology , September 5 - 9, 1999,
Budapest, Hungary, pp. 607 610.
12) Chung-Hsien Wu, Jau-Hung Chen. Automatic Generation of
Synthesis Units and Prosodic Information for Chinese Concatenative Synthesis.
Speech Communication, vol 35 (3-4), pp. 219-238
13) S.Takano, K. Tanaka, H. Mizuno, M. Abe, S. Nakajina. A
Japanese TTS System Based on Multiform Units and a Speech Modification
Algorithm with Harmonics Reconstruction. IEEE Transactions on Speech and Audio
Processing, vol 9(1), January 2001, pp. 3-10
14) Y Stylianou. Applying the Harmonic Plus Noise Model in
Concatenative Speech Synthesis. IEEE Tra nsactions on Speech and Audio
Processing, vol 9(1), January 2001, pp. 21-29
3.3. Asmens vertinimas pagal jo balsą
3.3.1. Reynoldso eksperimentai
Problema ir jos sprendimas. Reikia turėti tam tikrus standartinius rezultatus pagal kuriuos būtų galima įvertinti asmens įvertinimo pagal jo balsą sistemą. Šiuose eksperimentuose panaudojami 4 garsynai TIMIT, NTIMIT, Switchboard ir YOHO. TIMIT garsyne yra sukaupti 630 diktorių įvairių JAV regionų diktorių studijiniai įrašai (po 10 frazių). NTIMIT duomenų bazė yra suformuota iš TIMIT bazės, perduodant signalus per JAV telefono kanalus, todėl gana gerai atspindi diktoriaus atpažinimo galimybes sudėtingomis sąlygomis. Apmokymui pateikiama apie 80 % medžiagos, o likę įrašai naudojami testams.
Rezultatai. Lentelėje pagal [1] pateiktos diktoriaus identifikavimo ir verifikavimo klaidos ( % ). NTIMIT pavyzdys rodo kiek pablogėja automatinis diktoriaus nustatymas telefono kanale lyginant su švariais įrašais.
|
|
TIMIT |
NTIMIT |
Switchboard |
YOHO |
|
Identifikavimas |
0.5 |
39.3 |
17.2 |
-- |
|
Verifikavimas |
0.45 |
7.2 |
5.1 |
0.51 |
Darbo reikšmė. Šie rezultatai gali būti naudojami tiekiamos diktoriaus atpažinimo sistemos kokybės įvertinimui.
Literatūra
1) D.A. Reynolds, "Speaker identification and verification using Gaussian mixture speaker models" Speech Communication 17 (1995) 91-108