Lietuviškų kirčiuotų raidžių ir kitų rašto ženklų aibės sudarymas bei kodavimas
Turinys
1. Lietuviškų
kirčiuotų raidžių aibė
2. Kirčiuotų raidžių
kodavimas 8-iais bitais
3. Kirčiuotų
raidžių kodavimas Unikode
3.1. Kirčiuotų
raidžių problema Europos standartizacijos komitete (CEN) ir
Tarptautinėje
standartizacijos organizacijoje (ISO)
3.2. Kirčiuotų
raidžių sąrašas pagal Unikode
4. Neturinčių
Unikode kodų raidžių problematika
4.1. Kirčiuotų raidžių kodavimas, panaudojant USI
4.1.1. Kirčiuotų raidžių su
taškais ypatumai
4.1.2.
Kirčiuotų raidžių vaizdavimas (vizualizavimas) Word'e
4.1.3.
Kirčiuotų raidžių vaizdavimas (vizualizavimas) internete
4.2. Kirčiuotų raidžių kodavimas, panaudojant PUA
5. Kirčiuotų raidžių įvedimas
(klaviatūros tvarkyklės metmenys)
1 priedas. Kompozicinių sekų vaizdavimas USI
2 priedas. Dotting the i’s
3 priedas. HTML
dokumentas su kirčiuotomis raidėmis (failas „LithUSI.htm.txt“)
4 priedas. Raidžių vaizdai internete (failas „LithUSI.htm“)
5 priedas. Raidžių vaizdai Notepad'e (failas „ AccRendering.txt“)
Kaip žinoma, be pagrindinių
ženklų lietuvių kalbos tekstuose vartojamos ir kirčiuotos raidės (o taip pat
fonetiniai, senųjų raštų ir kiti filologinėje literatūroje pasitaikantys
ženklai). Nesant valstybiniu mastu reglamentuotos šių ženklų sistemos,
vartotojai juos kuria patys. Tuos pačius ženklus vieni vartotojai koduoja
vienaip, kiti – kitaip. Dėl to Lietuvoje yra atsiradusios net kelios rašmenų
sistemos su skirtingais kodais ir netgi skirtingu ženklų rinkiniu (aibe). Tokia
rašto įvairovė sukelia daug kliūčių: neįmanoma keistis duomenimis tarp
skirtingų vartotojų, naudotis tekstinių duomenų bazėmis, automatizuoti
lingvistinį apdorojimą, publikuoti internete ir pan. Šio darbo tikslas yra
minėtų ženklų vartojimo kompiuteriuose norminimas, kaip tai padaryta įprastiems
rašto ženklams.
1. Lietuviškų kirčiuotų
raidžių aibė
Kaip žinoma. kirčiuotos
raidės vartojamos žodynuose, mokykliniuose vadovėliuose, enciklopedijose.
Numatoma taip pat sukirčiuoti visus vietovardžius Lietuvos administracinio
suskirstymo įstatyme. Būtų gerai taip pat, kad būtų įmanomos publikacijos
internete.
Atlikus ganą išsamų tyrimą,
apsitarus su kalbininkais, buvo nustatyta, jog lietuvių kalboje yra 68
kirčiuotos raidės: 34 didžiosios ir 34 mažosios. Išvardinsime jas, suteikdami
daugmaž nusistovėjusius jį vardus (kažkokių tai reglamentuotų kirčiuotų raidžių
vardų lyg ir nėra).
|
Nr. |
Pavadinimas |
Nr. |
Pavadinimas |
|
1 |
Didžioji raidė A su kairiniu kirčiu |
35 |
Mažoji raidė į su dešininiu kirčiu |
|
2 |
Didžioji raidė A su dešininiu kirčiu |
36 |
Mažoji raidė į su riestiniu kirčiu |
|
3 |
Didžioji raidė A su riestiniu kirčiu |
37 |
Mažoji raidė y su dešininiu kirčiu |
|
4 |
Didžioji raidė Ą su dešininiu kirčiu |
38 |
Mažoji raidė y su riestiniu kirčiu |
|
5 |
Didžioji raidė Ą su riestiniu kirčiu |
39 |
Didžioji raidė J su riestiniu kirčiu |
|
6 |
Mažoji raidė a su kairiniu kirčiu |
40 |
Mažoji raidė j su riestiniu kirčiu |
|
7 |
Mažoji raidė a su dešininiu kirčiu |
41 |
Didžioji raidė L su riestiniu kirčiu |
|
8 |
Mažoji raidė a su riestiniu kirčiu |
42 |
Mažoji raidė l su riestiniu kirčiu |
|
9 |
Mažoji raidė ą su dešininiu kirčiu |
43 |
Didžioji raidė M su riestiniu kirčiu |
|
10 |
Mažoji raidė ą su riestiniu kirčiu |
44 |
Mažoji raidė m su riestiniu kirčiu |
|
11 |
Didžioji raidė E su kairiniu kirčiu |
45 |
Didžioji raidė N su riestiniu kirčiu |
|
12 |
Didžioji raidė E su dešininiu kirčiu |
46 |
Mažoji raidė n su riestiniu kirčiu |
|
13 |
Didžioji raidė E su riestiniu kirčiu |
47 |
Didžioji raidė O su kairiniu kirčiu |
|
14 |
Didžioji raidė Ę su dešininiu kirčiu |
48 |
Didžioji raidė O su dešininiu kirčiu |
|
15 |
Didžioji raidė Ę su riestiniu kirčiu |
49 |
Didžioji raidė O su riestiniu kirčiu |
|
16 |
Didžioji raidė Ė su dešininiu kirčiu |
50 |
Mažoji raidė o su kairiniu kirčiu |
|
17 |
Didžioji raidė Ė su riestiniu kirčiu |
51 |
Mažoji raidė o su dešininiu kirčiu |
|
18 |
Mažoji raidė e su kairiniu kirčiu |
52 |
Mažoji raidė o su riestiniu kirčiu |
|
19 |
Mažoji raidė e su dešininiu kirčiu |
53 |
Didžioji raidė R su riestiniu kirčiu |
|
20 |
Mažoji raidė e su riestiniu kirčiu |
54 |
Mažoji raidė r su riestiniu kirčiu |
|
21 |
Mažoji raidė ę su dešininiu kirčiu |
55 |
Didžioji raidė U su kairiniu kirčiu |
|
22 |
Mažoji raidė ę su riestiniu kirčiu |
56 |
Didžioji raidė U su dešininiu kirčiu |
|
23 |
Mažoji raidė ė su dešininiu kirčiu |
57 |
Didžioji raidė U su riestiniu kirčiu |
|
24 |
Mažoji raidė ė su riestiniu kirčiu |
58 |
Didžioji raidė Ų su dešininiu kirčiu |
|
25 |
Didžioji raidė I su kairiniu kirčiu |
59 |
Didžioji raidė Ų su riestiniu kirčiu |
|
26 |
Didžioji raidė I su dešininiu kirčiu |
60 |
Didžioji raidė Ū su dešininiu kirčiu |
|
27 |
Didžioji raidė I su riestiniu kirčiu |
61 |
Didžioji raidė Ū su riestiniu kirčiu |
|
28 |
Didžioji raidė Į su dešininiu kirčiu |
62 |
Mažoji raidė u su kairiniu kirčiu |
|
29 |
Didžioji raidė Į su riestiniu kirčiu |
63 |
Mažoji raidė u su dešininiu kirčiu |
|
30 |
Didžioji raidė Y su dešininiu kirčiu |
64 |
Mažoji raidė u su riestiniu kirčiu |
|
31 |
Didžioji raidė Y su riestiniu kirčiu |
65 |
Mažoji raidė ų su dešininiu kirčiu |
|
32 |
Mažoji raidė i su kairiniu kirčiu |
66 |
Mažoji raidė ų su riestiniu kirčiu |
|
33 |
Mažoji raidė i su dešininiu kirčiu |
67 |
Mažoji raidė ū su dešininiu kirčiu |
|
34 |
Mažoji raidė i su riestiniu kirčiu |
68 |
Mažoji raidė ū su riestiniu kirčiu |
2. Kirčiuotų raidžių kodavimas 8-iais bitais
Yra trys Lietuvos
standartai, skirti koduoti lietuviškoms kirčiuotoms raidėms.
Standartas
LST 1564:2000 Informacijos technologija.
Ženklų kodavimas 8 bitais. Lietuviškų kirčiuotų raidžių rinkinys apibrėžia
pagrindinę kirčiuotų raidžių kodavimo lentelė (žr. žemiau pateiktą lentelę). Ši
lentelė nusako pagrindinį raidžių rinkinį, įskaitant kirčiuotas raides. Kodų
lentelė yra suderinta su ISO-8859-13 lentele, t.y. įprastų lietuviškų
(nekirčiuotų) raidžių kodai abiejose lentelėse sutampa. Šio lentelės ženklų
rinkinys yra optimalus lingvistinių tekstų apdorojimo požiūriu.
Pastaba. Visose minėtais standartais apibrėžtose
lentelėse nėra „Didžiosios raidės J su riestiniu kirčiu“ ir „Mažosios raidės j
su riestiniu kirčiu“.
Pagrindinė kirčiuotų raidžių kodavimo lentelė
Standartas LST 1590-4:2000 Informacijos technologija. Ženklų kodavimas
8 bitais. 4 dalis. Lietuviškų kirčiuotų raidžių ir transkripcijos ženklų
rinkinys Windows terpei apibrėžia kodų lentelė Windows terpei. Ji turi
visus bazinio rinkinio ženklus ir papildomus fonetinius ženklus 8 ir 9
stulpeliuose. Ši lentelė yra suderinta su Windows-1257 lentele.
Kirčiuotų raidžių kodavimo lentelė Windows terpei
Standartas LST 1590-2:2000 Informacijos technologija. Ženklų kodavimas
8 bitais. 2 dalis. Lietuviškų kirčiuotų raidžių ir transkripcijos ženklų
rinkinys DOS terpei apibrėžia kodų lentelė DOS terpei. Ji turi visus
bazinio rinkinio ženklus ir pseudografikos simbolius. Ši lentelė yra suderinta su
IBM 775 lentele, naudojamoje Lietuvoje DOS terpėje.
Kirčiuotų raidžių kodavimo lentelė DOS terpei
3. Kirčiuotų raidžių kodavimas Unikode
Unicode (lietuviškai
vadinsime Unikodas) apibrėžia ženklų kodavimą 16 bitų (2 baitų) kodais. Juo
galima užkoduoti apie 65 tūkstančius ženklų, todėl į Unikodą telpa ir yra
įtraukti visų tautų kalbų abėcėlių simboliai, tarp jų ir hieroglifai.
Lietuvių kalba turi 68
kirčiuotas raides (34 didžiąsias ir tiek pat mažųjų). Iš jų 33 jau yra Unikode
(jos vartojamos kitose kalbose), o 35 nėra.
Apie lietuviškas kirčiuotas
raides ir mūsų pageidavimą jas visas įtraukti į Unikodą Lietuvos
standartizacijos departamento Technikos komiteto TK 4 pirmininkas V. Tumasonis
kalbėjosi su Europos standartizacijos komiteto Technikos komiteto TC 304
nariais šio komiteto plenariniuose posėdžiuose, vykusiuose 1999 m. balandžio
19–23 d. Tiubingene ir aptarė pasiūlymo pateikimo detales.
1999 m. vasarą V. Tumasonis
parengė oficialų pasiūlymą, kuriame Lietuvos standartizacijos departamento
vardu buvo kreipiamasi į ISO Jungtinio technikos komiteto Nr.1 (JTC1) darbo
grupę SC2/WG2, tvarkančią tarptautinį standartą ISO/IEC 10646 (Unicode), dėl
trūkstamų lietuviškų kirčiuotų raidžių įtraukimo į jį[1]).
Pasiūlymas (žr. http://uosis.mif.vu.lt/katedros/informat/STAFF/tk4/lithacc/default.htm
) buvo pateiktas ir apsvarstytas per minėtos darbo grupės pasitarimą 1999 m.
rugsėjo 13–16 d. Kopenhagoje. Pasiūlymas nebuvo priimtas. Buvo keletas motyvų.
Tai ir noras stabilizuoti koduotų ženklų aibę (užšaldyti ją), abejonės dėl
kirčiuotų raidžių visuotino reikalingumo. Ko gero pagrindinis motyvas –
lietuviškas kirčiuotas raides, kurių nėra Unikode, yra kompozicinės, t.y. jas
galima išreikšti ten esančių ženklų vadinamosiomis kompozicinėmis sekomis
(raidė + diakritinis ženklas). Teoriškai kompozicinė seka yra lygiavertė iš jos
komponentų sudarytam vienam ženklui, tačiau praktiškai dauguma iki šiol
vartojamų programų kompozicinės sekos dar negali pakeisti vienu ženklu.
1999 m. birželio 21 d.
komiteto TC 304 sekretorius Þorgeir Sigurðsson pateikė Lietuvos pasiūlymą kaip
šio komiteto dokumentą N906 komiteto nariams.
Spalio 20–22 dienomis
Briuselyje vyko komiteto TC 304 plenariniai posėdžiai. Juose dalyvavo 9
valstybių — CEN komiteto narių (Airijos, Graikijos, Jungtinės Karalystės,
Norvegijos, Olandijos, Prancūzijos, Suomijos, Švedijos ir Vokietijos) ir 2
asocijuotų narių (Lenkijos ir Lietuvos) atstovai. Jame atskiru klausimu buvo
svarstomas lietuviškų kirčiuotų raidžių įtraukimas į Unikodą ir tarptautinį
standartą ISO/IEC 10646.
Komitetas priėmė
rezoliuciją, rekomenduojančią visas lietuviškas kirčiuotas raides įtraukti į
Unikodą.
Komitetas TC 304 nesprendžia
Unikodo klausimų. Jo rezoliucija yra tik rekomendacija Tarptautinei standartų
organizacijai. Tačiau jo palaikymas yra svarbi parama mums.
Pasiūlymas buvo pakartotinai
pateiktas minėto ISO jungtinio technikos komiteto JTC1 darbo grupės SC2/WG2
pasitarimą 2001 metų balandžio mėn. Mountain View (JAV). Pasiūlymas buvo
nepriimtas, motyvuojant tuo, kad dabartiniu metu į Unikodą neįtraukiamos
vadinamosios kompozicinės raidės. Be to, Unikode konsorciumas nusprendė į naujų
ženklų priėmimo taisykles įtraukti nuostatą, kad įtraukti galima tik
nekompozicinius ženklus. Vadinasi, reikėjo ieškoti kitų būdų, kaip su
kompiuteriu įvesti, apdoroti ir atspausdinti lietuviškas kirčiuotas raides.
Šiame darbe kaip tik ir siūlomi du metodai.
3.2. Kirčiuotų raidžių sąrašas pagal Unikode
Kodavimas 8-iais bitais
(vienu baitu) turi trūkumą, jog koduojamų ženklų aibė neviršija 255 simbolių.
Todėl pastaruoju metu populiarėja kodavimas dviem ar daugiau baitais – Unikode.
Tokiu būdu užkodavus lietuviškas kirčiuotas raides, galimos būtų ir
internetinės publikacijos.
Buvo ištirtas kirčiuotų
raidžių kodavimas Unikode. Kai kurios lietuviškos kirčiuotos raidės yra taip
pat kitų kalbų įprastos abėcėlės raidės. Pvz., „raidė A su dešininiu kirčiu“
yra taip pat airių, islandų, portugalų, slovakų ir t.t. kalbose, „raidė N su
riestiniu kirčiu“ yra baskų, bretonų ir ispanų kalbose. Taigi, jos turi
atskirus Unikodo kodus. Buvo nustatyta, jog suma
summarum 33 lietuviškos kirčiuotos raidės turi Unikodo kodus, o 35 –
neturi. Žemiau pateiktas visų raidžių sąrašas su atitinkamomis atžymomis.
Raidžių, neturinčių Unikodo kodų (taigi, ir Unikodo vardų), Unikodo vardai
anglų kalba sudaryti, prisilaikant oficialių vardų sudarymo taisyklių.
|
Nr. |
Raidė |
Pavadinimas |
Unicode kodas |
Pavadinimas pagal Unicode |
|
1 |
À |
Didžioji raidė A su kairiniu kirčiu |
00C0 |
LATIN CAPITAL LETTER A WITH GRAVE |
|
2 |
Á |
Didžioji raidė A su dešininiu kirčiu |
00C1 |
LATIN CAPITAL LETTER A WITH ACUTE |
|
3 |
à |
Didžioji raidė A su riestiniu kirčiu |
00C3 |
LATIN CAPITAL LETTER A WITH TILDE |
|
4 |
|
Didžioji raidė Ą su dešininiu kirčiu |
|
LATIN CAPITAL LETTER A WITH OGONEK + COMBINING
ACUTE ACCENT |
|
5 |
|
Didžioji raidė Ą su riestiniu kirčiu |
|
LATIN CAPITAL LETTER A WITH OGONEK + COMBINING
TILDE |
|
6 |
à |
Mažoji raidė a su kairiniu kirčiu |
00E0 |
LATIN SMALL LETTER A WITH GRAVE |
|
7 |
á |
Mažoji raidė a su dešininiu kirčiu |
00E1 |
LATIN SMALL LETTER A WITH ACUTE |
|
8 |
ã |
Mažoji raidė a su riestiniu kirčiu |
00E3 |
LATIN SMALL LETTER A WITH TILDE |
|
9 |
|
Mažoji raidė ą su dešininiu kirčiu |
|
LATIN SMALL LETTER A WITH OGONEK + COMBINING ACUTE
ACCENT |
|
10 |
|
Mažoji raidė ą su riestiniu kirčiu |
|
LATIN SMALL LETTER A WITH OGONEK + COMBINING TILDE |
|
11 |
È |
Didžioji raidė E su kairiniu kirčiu |
00C8 |
LATIN CAPITAL LETTER E WITH GRAVE |
|
12 |
É |
Didžioji raidė E su dešininiu kirčiu |
00C9 |
LATIN CAPITAL LETTER E WITH ACUTE |
|
13 |
Ẽ |
Didžioji raidė E su riestiniu kirčiu |
1EBC |
LATIN CAPITAL LETTER E WITH TILDE |
|
14 |
|
Didžioji raidė Ę su dešininiu kirčiu |
|
LATIN CAPITAL LETTER E WITH OGONEK + COMBINING
ACUTE ACCENT |
|
15 |
|
Didžioji raidė Ę su riestiniu kirčiu |
|
LATIN CAPITAL LETTER E WITH OGONEK + COMBINING
TILDE |
|
16 |
|
Didžioji raidė Ė su dešininiu kirčiu |
|
LATIN CAPITAL LETTER E WITH DOT ABOVE + COMBINING
ACUTE ACCENT |
|
17 |
|
Didžioji raidė Ė su riestiniu kirčiu |
|
LATIN CAPITAL LETTER E WITH DOT ABOVE + COMBINING
TILDE |
|
18 |
è |
Mažoji raidė e su kairiniu kirčiu |
00E8 |
LATIN SMALL LETTER E WITH GRAVE |
|
19 |
é |
Mažoji raidė e su dešininiu kirčiu |
00E9 |
LATIN SMALL LETTER E WITH ACUTE |
|
20 |
ẽ |
Mažoji raidė e su riestiniu kirčiu |
1EBD |
LATIN SMALL LETTER E WITH TILDE |
|
21 |
|
Mažoji raidė ę su dešininiu kirčiu |
|
LATIN SMALL LETTER E WITH OGONEK + COMBINING ACUTE ACCENT |
|
22 |
|
Mažoji raidė ę su riestiniu kirčiu |
|
LATIN SMALL LETTER E WITH OGONEK + COMBINING TILDE |
|
23 |
|
Mažoji raidė ė su dešininiu kirčiu |
|
LATIN SMALL LETTER E WITH DOT ABOVE + COMBINING
ACUTE ACCENT |
|
24 |
|
Mažoji raidė ė su riestiniu kirčiu |
|
LATIN SMALL LETTER E WITH DOT ABOVE + COMBINING
TILDE |
|
25 |
Ì |
Didžioji raidė I su kairiniu kirčiu |
00CC |
LATIN CAPITAL LETTER I WITH GRAVE |
|
26 |
Í |
Didžioji raidė I su dešininiu kirčiu |
00CD |
LATIN CAPITAL LETTER I WITH ACUTE |
|
27 |
Ĩ |
Didžioji raidė I su riestiniu kirčiu |
0128 |
LATIN CAPITAL LETTER I WITH TILDE |
|
28 |
|
Didžioji raidė Į su dešininiu kirčiu |
|
LATIN CAPITAL LETTER I WITH OGONEK + COMBINING
ACUTE ACCENT |
|
29 |
|
Didžioji raidė Į su riestiniu kirčiu |
|
LATIN CAPITAL LETTER I WITH OGONEK + COMBINING
TILDE |
|
30 |
Ý |
Didžioji raidė Y su dešininiu kirčiu |
00DD |
LATIN CAPITAL LETTER Y WITH ACUTE |
|
31 |
Ỹ |
Didžioji raidė Y su riestiniu kirčiu |
1EF8 |
LATIN CAPITAL LETTER Y WITH TILDE |
|
32 |
|
Mažoji raidė i su kairiniu kirčiu |
|
LATIN SMALL LETTER I + COMBINING GRAVE ACCENT LATIN SMALL LETTER I + COMBINING DOT ABOVE +
COMBINING GRAVE ACCENT |
|
33 |
|
Mažoji raidė i su dešininiu kirčiu |
|
LATIN SMALL LETTER I + COMBINING ACUTE ACCENT LATIN SMALL LETTER I + COMBINING DOT ABOVE +
COMBINING ACUTE ACCENT |
|
34 |
|
Mažoji raidė i su riestiniu kirčiu |
|
LATIN SMALL LETTER I + COMBINING TILDE LATIN SMALL LETTER I + COMBINING DOT ABOVE +
COMBINING TILDE |
|
35 |
|
Mažoji raidė į su dešininiu kirčiu |
|
LATIN SMALL LETTER I WITH OGONEK + COMBINING ACUTE
ACCENT LATIN SMALL LETTER I WITH OGONEK + COMBINING DOT
ABOVE + COMBINING ACUTE ACCENT |
|
36 |
|
Mažoji raidė į su riestiniu kirčiu |
|
LATIN SMALL LETTER I WITH OGONEK + COMBINING TILDE LATIN SMALL LETTER I WITH OGONEK + COMBINING DOT
ABOVE + COMBINING TILDE |
|
37 |
ý |
Mažoji raidė y su dešininiu kirčiu |
00FD |
LATIN SMALL LETTER Y WITH ACUTE |
|
38 |
ỹ |
Mažoji raidė y su riestiniu kirčiu |
1EF9 |
LATIN SMALL LETTER Y WITH TILDE |
|
39 |
|
Didžioji raidė J su riestiniu kirčiu |
|
LATIN CAPITAL LETTER J + COMBINING TILDE |
|
40 |
|
Mažoji raidė j su riestiniu kirčiu |
|
LATIN SMALL LETTER J + COMBINING TILDE |
|
41 |
|
Didžioji raidė L su riestiniu kirčiu |
|
LATIN CAPITAL LETTER L + COMBINING TILDE |
|
42 |
|
Mažoji raidė l su riestiniu kirčiu |
|
LATIN SMALL LETTER L + COMBINING TILDE |
|
43 |
|
Didžioji raidė M su riestiniu kirčiu |
|
LATIN CAPITAL LETTER M + COMBINING TILDE |
|
44 |
|
Mažoji raidė m su riestiniu kirčiu |
|
LATIN SMALL LETTER M + COMBINING TILDE |
|
45 |
Ñ |
Didžioji raidė N su riestiniu kirčiu |
00D1 |
LATIN CAPITAL LETTER N WITH TILDE |
|
46 |
ñ |
Mažoji raidė n su riestiniu kirčiu |
00F1 |
LATIN SMALL LETTER N WITH TILDE |
|
47 |
Ò |
Didžioji raidė O su kairiniu kirčiu |
00D2 |
LATIN CAPITAL LETTER O WITH GRAVE |
|
48 |
Ó |
Didžioji raidė O su dešininiu kirčiu |
00D3 |
LATIN CAPITAL LETTER O WITH ACUTE |
|
49 |
Õ |
Didžioji raidė O su riestiniu kirčiu |
00D5 |
LATIN CAPITAL LETTER O WITH TILDE |
|
50 |
ò |
Mažoji raidė o su kairiniu kirčiu |
00F2 |
LATIN SMALL LETTER O WITH GRAVE |
|
51 |
ó |
Mažoji raidė o su dešininiu kirčiu |
00F3 |
LATIN SMALL LETTER O WITH ACUTE |
|
52 |
õ |
Mažoji raidė o su riestiniu kirčiu |
00F5 |
LATIN SMALL LETTER O WITH TILDE |
|
53 |
|
Didžioji raidė R su riestiniu kirčiu |
|
LATIN CAPITAL LETTER R + COMBINING TILDE |
|
54 |
|
Mažoji raidė r su riestiniu kirčiu |
|
LATIN SMALL LETTER R + COMBINING TILDE |
|
55 |
Ù |
Didžioji raidė U su kairiniu kirčiu |
00D9 |
LATIN CAPITAL LETTER U WITH GRAVE |
|
56 |
Ú |
Didžioji raidė U su dešininiu kirčiu |
00DA |
LATIN CAPITAL LETTER U WITH ACUTE |
|
57 |
Ũ |
Didžioji raidė U su riestiniu kirčiu |
0168 |
LATIN CAPITAL LETTER U WITH TILDE |
|
58 |
|
Didžioji raidė Ų su dešininiu kirčiu |
|
LATIN CAPITAL LETTER U WITH OGONEK + COMBINING
ACUTE ACCENT |
|
59 |
|
Didžioji raidė Ų su riestiniu kirčiu |
|
LATIN CAPITAL LETTER U WITH OGONEK + COMBINING
TILDE |
|
60 |
|
Didžioji raidė Ū su dešininiu kirčiu |
|
LATIN CAPITAL LETTER U WITH MACRON + COMBINING
ACUTE ACCENT |
|
61 |
|
Didžioji raidė Ū su riestiniu kirčiu |
|
LATIN CAPITAL LETTER U WITH MACRON + COMBINING
TILDE |
|
62 |
ù |
Mažoji raidė u su kairiniu kirčiu |
00F9 |
LATIN SMALL LETTER U WITH GRAVE |
|
63 |
ú |
Mažoji raidė u su dešininiu kirčiu |
00FA |
LATIN SMALL LETTER U WITH ACUTE |
|
64 |
ũ |
Mažoji raidė u su riestiniu kirčiu |
0169 |
LATIN SMALL LETTER U WITH TILDE |
|
65 |
|
Mažoji raidė ų su dešininiu kirčiu |
|
LATIN SMALL LETTER U WITH OGONEK + COMBINING ACUTE
ACCENT |
|
66 |
|
Mažoji raidė ų su riestiniu kirčiu |
|
LATIN SMALL LETTER U WITH OGONEK + COMBINING TILDE |
|
67 |
|
Mažoji raidė ū su dešininiu kirčiu |
|
LATIN SMALL LETTER U WITH MACRON + COMBINING ACUTE
ACCENT |
|
68 |
|
Mažoji raidė ū su riestiniu kirčiu |
|
LATIN SMALL LETTER U WITH MACRON + COMBINING TILDE |
4. Neturinčių Unicode kodų raidžių problematika
Taigi, matome, kad 35 raidės
neturi Unikodo kodų. Vadinasi, šių raidžių negalima nei įvesti, nei išvesti,
nei apdoroti. Ką daryti?
Galimi du sprendimo
variantai. Pirmasis, naudojant kompozicinių sekų identifikatorius (USI), ir
antrasis, naudojant privačią sritį (PUA).
4.1. Kirčiuotų raidžių kodavimas, panaudojant USI
Kai kurios raidės (tiksliau,
jų vaizdai) yra lygtai sudarytos iš dviejų ar daugiau dalių. Pvz., „raidę ą su
dešininiu kirčiu“ galima laikyti sudaryta iš „raidės ą“ ir „dešininio kirčio“.
Tokios raidės vadinamos kompozicinėmis raidėmis, o atitinkama ženklų seka
vadinama kompozicine seka. Mūsų raidės iš principo yra kompozicinės, todėl
neturinčias Unikodo kodo galima išreikšti kompozicinėmis sekomis. Kairinis
kirtis, dešininis kirtis ir riestinis kirtis kompozicinėse sekose vaizduojami
specialiais „kombinuojamaisiais“ kirčio ženklais, skirtingais nuo įprastojo
kairinio, dešininio ir riestinio kirčių.
Oficialūs mums reikalingų
kombinuojamųjų kirčių vardai yra:COMBINING
GRAVE ACCENT, COMBINING ACUTE ACCENT ir COMBINING TILDE.
Pati
kompozicinė seka pagal Unikode reikalavimus yra pateikiama vadinamuoju USI (UCS
Sequence Identifier). USI gramatika pateikta 1 priede. Pavyzdžiui, jau minėta „mažoji raidę ą su
dešininiu kirčiu“ USI notacija pateikiama kaip <U+0105, U+0301>. Žemiau
pateiktas lietuviškų raidžių, neturinčių Unikodo kodų, kodavimas USI sekomis.
|
Nr. |
Raidė |
Pavadinimas |
Kodas (USI) |
Pavadinimas pagal Unikodą |
|
1 |
|
Didžioji raidė Ą su dešininiu kirčiu |
<0104, 0301> |
LATIN CAPITAL LETTER A WITH OGONEK + COMBINING ACUTE
ACCENT |
|
2 |
|
Didžioji raidė Ą su riestiniu kirčiu |
<0104, 0303> |
LATIN CAPITAL LETTER A WITH OGONEK + COMBINING
TILDE |
|
3 |
|
Mažoji raidė ą su dešininiu kirčiu |
<0105, 0301> |
LATIN SMALL LETTER A WITH OGONEK + COMBINING ACUTE
ACCENT |
|
4 |
|
Mažoji raidė ą su riestiniu kirčiu |
<0105, 0303> |
LATIN SMALL LETTER A WITH OGONEK + COMBINING TILDE |
|
5 |
|
Didžioji raidė Ę su dešininiu kirčiu |
<0118, 0301> |
LATIN CAPITAL LETTER E WITH OGONEK + COMBINING
ACUTE ACCENT |
|
6 |
|
Didžioji raidė Ę su riestiniu kirčiu |
<0118, 0303> |
LATIN CAPITAL LETTER E WITH OGONEK + COMBINING
TILDE |
|
7 |
|
Didžioji raidė Ė su dešininiu kirčiu |
<0116, 0301> |
LATIN CAPITAL LETTER E WITH DOT ABOVE + COMBINING
ACUTE ACCENT |
|
8 |
|
Didžioji raidė Ė su riestiniu kirčiu |
<0116, 0303> |
LATIN CAPITAL LETTER E WITH DOT ABOVE + COMBINING
TILDE |
|
9 |
|
Mažoji raidė ę su dešininiu kirčiu |
<0119, 0301> |
LATIN SMALL LETTER E WITH OGONEK + COMBINING ACUTE
ACCENT |
|
10 |
|
Mažoji raidė ę su riestiniu kirčiu |
<0119, 0303> |
LATIN SMALL LETTER E WITH OGONEK + COMBINING TILDE |
|
11 |
|
Mažoji raidė ė su dešininiu kirčiu |
<0117, 0301> |
LATIN SMALL LETTER E WITH DOT ABOVE + COMBINING
ACUTE ACCENT |
|
12 |
|
Mažoji raidė ė su riestiniu kirčiu |
<0117, 0303> |
LATIN SMALL LETTER E WITH DOT ABOVE + COMBINING
TILDE |
|
13 |
|
Didžioji raidė Į su dešininiu kirčiu |
<012E, 0301> |
LATIN CAPITAL LETTER I WITH OGONEK + COMBINING
ACUTE ACCENT |
|
14 |
|
Didžioji raidė Į su riestiniu kirčiu |
<012E, 0303> |
LATIN CAPITAL LETTER I WITH OGONEK + COMBINING
TILDE |
|
15 |
|
Mažoji raidė i su kairiniu kirčiu |
<0069, 0300> arba <0069, 0307, 0300> |
LATIN SMALL LETTER I + COMBINING GRAVE ACCENT LATIN SMALL LETTER I + COMBINING DOT ABOVE +
COMBINING GRAVE ACCENT |
|
16 |
|
Mažoji raidė i su dešininiu kirčiu |
<0069, 0301> arba <0069, 0307, 0301> |
LATIN SMALL LETTER I + COMBINING ACUTE ACCENT LATIN SMALL LETTER I + COMBINING DOT ABOVE +
COMBINING ACUTE ACCENT |
|
17 |
|
Mažoji raidė i su riestiniu kirčiu |
<0069, 0303> arba <0069, 0307, 0303> |
LATIN SMALL LETTER I + COMBINING TILDE LATIN SMALL LETTER I + COMBINING DOT ABOVE +
COMBINING TILDE |
|
18 |
|
Mažoji raidė į su dešininiu kirčiu |
<012F, 0301> arba <012F, 0307, 0301> |
LATIN SMALL LETTER I WITH OGONEK + COMBINING ACUTE
ACCENT LATIN SMALL LETTER I WITH OGONEK + COMBINING DOT
ABOVE + COMBINING ACUTE ACCENT |
|
19 |
|
Mažoji raidė į su riestiniu kirčiu |
<012F, 0303> arba <012F, 0307, 0303> |
LATIN SMALL LETTER I WITH OGONEK + COMBINING TILDE LATIN SMALL LETTER I WITH OGONEK + COMBINING DOT
ABOVE + COMBINING TILDE |
|
20 |
|
Didžioji raidė J su riestiniu kirčiu |
<004A, 0303> |
LATIN CAPITAL LETTER J + COMBINING TILDE |
|
21 |
|
Mažoji raidė j su riestiniu kirčiu |
<006A, 0303> |
LATIN SMALL LETTER J + COMBINING TILDE |
|
22 |
|
Didžioji raidė L su riestiniu kirčiu |
<004C, 0303> |
LATIN CAPITAL LETTER L + COMBINING TILDE |
|
23 |
|
Mažoji raidė l su riestiniu kirčiu |
<006C, 0303> |
LATIN SMALL LETTER L + COMBINING TILDE |
|
24 |
|
Didžioji raidė M su riestiniu kirčiu |
<004D, 0303> |
LATIN CAPITAL LETTER M + COMBINING TILDE |
|
25 |
|
Mažoji raidė m su riestiniu kirčiu |
<006D, 0303> |
LATIN SMALL LETTER M + COMBINING TILDE |
|
26 |
|
Didžioji raidė R su riestiniu kirčiu |
<0052, 0303> |
LATIN CAPITAL LETTER R + COMBINING TILDE |
|
27 |
|
Mažoji raidė r su riestiniu kirčiu |
<0072, 0303> |
LATIN SMALL LETTER R + COMBINING TILDE |
|
28 |
|
Didžioji raidė Ų su dešininiu kirčiu |
<0172, 0301> |
LATIN CAPITAL LETTER U WITH OGONEK + COMBINING
ACUTE ACCENT |
|
29 |
|
Didžioji raidė Ų su riestiniu kirčiu |
<0172, 0303> |
LATIN CAPITAL LETTER U WITH OGONEK + COMBINING
TILDE |
|
30 |
|
Didžioji raidė Ū su dešininiu kirčiu |
<016A, 0301> |
LATIN CAPITAL LETTER U WITH MACRON + COMBINING
ACUTE ACCENT |
|
31 |
|
Didžioji raidė Ū su riestiniu kirčiu |
<016A, 0303> |
LATIN CAPITAL LETTER U WITH MACRON + COMBINING
TILDE |
|
32 |
|
Mažoji raidė ų su dešininiu kirčiu |
<0173, 0301> |
LATIN SMALL LETTER U WITH OGONEK + COMBINING ACUTE
ACCENT |
|
33 |
|
Mažoji raidė ų su riestiniu kirčiu |
<0173, 0303> |
LATIN SMALL LETTER U WITH OGONEK + COMBINING TILDE |
|
34 |
|
Mažoji raidė ū su dešininiu kirčiu |
<016B, 0301> |
LATIN SMALL LETTER U WITH MACRON + COMBINING ACUTE
ACCENT |
|
35 |
|
Mažoji raidė ū su riestiniu kirčiu |
<016B, 0303> |
LATIN SMALL LETTER U WITH MACRON + COMBINING TILDE |
Viskas iš pirmo žvilgsnio
atrodo gerai (dabar nekalbame apie įvedimą iš klaviatūros). Tačiau tik iš pirmo
žvilgsnio. Esmė ta, kad egzistuoja trys Unikodo diegimo lygiai:
0-is lygis (Implementation level 0). Kompozicinės
sekos nerealizuojamos;
1-is lygis (Implementation level 1). Kompozicinės
sekos realizuojamos su tam tikru ribotu kombinuojamųjų ženklų rinkiniu (į šį
rinkinį įeina mūsų visi terys kirčio ženklai);
2-is lygis (Implementation level 2). Kompozicinės
sekos realizuojamos su visais kombinuojamaisiais ženklais.
4.1.1. Kirčiuotų raidžių su
taškais ypatumai
Lietuviškos kirčiuotos
raidės turi dar vieną ypatumą, susijusį su mažųjų raidžių i (o taip pat ir į
bei j) kirčiavimu, tiksliau su kirčiuotų i grafiniu vaizdu (glyph), t.y
simboliu. Vakarų Europos kalbose, pavyzdžiui „i su kairiniu kirčiu“
vaizduojamas be taško, o lietuvių kalbos taisyklės reikalauja taško:
ì –
Vakarų Europos kalbose;
– lietuvių kalboje.
Pagal įprastas komponavimo
taisykles „mažoji raidė i“ + „kairinis kirtis“ pateiks raidę „i su
kombinuojamuoju kairiniu kirčiu“ be taško. Norint gauti tašką, jį reikia uždėti
specialiai per kompozicinę seką. Todėl USI lentelėje matome, jog mūsų tikslams
„mažoji raidė su kairiniu kirčiu“ išreškiama kaip LATIN SMALL LETTER I + COMBINING DOT ABOVE + COMBINING GRAVE ACCENT, t.y.
trijų ženklų kombinacija.
Ką tik suminėta ypatybė
sukelia dar vieną problemą. Unikode yra apibrėžtos aiškios ženklų poros:
didžioji raidė (upper case) ir mažoji raidė (lower case)
(griežtai kalbant dar yra ir vadinamosios antraštinės raidės (title case)).
Pagal šias taisykles raidės „mažoji i su kairiniu kirčiu“ (be taško) didžioji
forma yra „didžioji raidė I su kairiniu kirčiu“ irgi be taško. Tuo tarpu mūsų
„tautinei“ raidei ši atitinkamybė negalioja: mažajai su tašku atitinka didžioji
be taško. Taškas turi dingti. Vadinasi, mums (lietuvių kalbai) netinka
bendrosios Unikodo mažųjų ir didžiųjų raidžių formų atitinkamybės taisyklės.
Unikode yra galimybė suformuluoti išimtis iš taisyklių. Šiuo atveju šios
išimtys lietuvių kalbai (įdomumo dėlei galima pasakyti, kad kitokias
atitinkamybių taisykles turi ir turkų kalba) buvo suformuluotos ISO dokumente
L2/01-191R, kurį parengė Švedijos atstovas Kent Karlsson ir Vladas Tumasonis.
Šis dokumentas yra pateiktas 2 priede. Tai yra pasiūlymas atnaujinti Unikode
duomenų bazės failą SpecialCasing.txt. Teksto apdorojimo programų autoriai,
realizuodami funkciją gauti raidės didžiąja formą ir gauti raidės mažąją formą
kaip tik ir naudojasi šiuo failu. Įtraukus į jį lietuvių kalbos kirčiuotų
raidžių savybes, bus galima jomis ir naudotis. Tai labai vertingas kalbinis
servisas.
4.1.2. Kirčiuotų raidžių
vaizdavimas (vizualizavimas) Word'e
Buvo patyrinėtos kelios
tekstų apdorojimo programos. Ne visos jos palaiko 1-jį lygį, o jei ir palaiko,
tai nelabai kokybiškai. Automatinis vieno ženklo vaizdo iš dviejų ženklų
sukūrimas (raidės vizualizavimas) yra pakankamai sudėtinga problema. MS Word
2000 palaiko 1-jį lygį, tačiau gaunamas vaizdas (angliškai tai vadinama rendering) gana prastas („vėjas pučia“).
Žemiau pateikti pavyzdžiai tai rodo (kompozicinės raidės pirmame pavyzdyje yra
tamsiame fone). Kompozicinės sekos buvo įvestos, panaudojant Insert Symbol.
à è ì ò ù
à è Ì ò ù
á é í ý ó ú ą́ ę́ ė́ į́ ų́ ū́ á é Í ý ó ú Ą́ Ę́ Ė́ Į́ Ų́ Ū́
ã ẽ ĩ ỹ j̃ l̃ m̃ ñ õ r̃ ũ ą̃ ę̃ ė̃ į̃ ų̃ ū̃ ã Ẽ Ĩ Ỹ J̃ L̃ M̃ Ñ Õ R̃ Ũ Ą̃ Ę̃ Ė̃ Į̃ Ų̃ Ū̃
à è ì ò
ù à è Ì ò ù
á é í ý ó ú
ą́ ę́ ė́ į́ ų́ ū́ á é Í ý ó ú Ą́ Ę́ Ė́ Į́
Ų́ Ū́
ã ẽ ĩ ỹ j̃ l̃
m̃ ñ õ r̃ ũ ą̃ ę̃ ė̃ į̃ ų̃
ū̃ ã Ẽ Ĩ Ỹ J̃ L̃ M̃ Ñ Õ R̃ Ũ Ą̃ Ę̃ Ė̃
Į̃ Ų̃ Ū̃
à è ì ò ù à è Ì ò ù
á é í ý ó ú ą́ ę́ ė́ į́ ų́ ū́ á é Í ý ó
ú Ą́ Ę́ Ė́
Į́ Ų́ Ū́
ã ẽ ĩ ỹ j̃ l̃ m̃ ñ õ r̃ ũ ą̃ ę̃ ė̃ į̃ ų̃ ū̃ ã
Ẽ Ĩ Ỹ J̃ L̃ M̃
Ñ Õ R̃ Ũ Ą̃ Ę̃
Ė̃ Į̃ Ų̃
Ū̃
à è ì ò ù à è Ì ò ù
á é í ý ó ú ą́ ę́ ė́ į́ ų́ ū́ á é Í ý ó ú Ą́ Ę́ Ė́ Į́
Ų́ Ū́
ã ẽ ĩ ỹ j̃ l̃ m̃ ñ õ r̃ ũ ą̃ ę̃ ė̃
į̃ ų̃ ū̃ ã
Ẽ Ĩ Ỹ J̃ L̃ M̃
Ñ Õ R̃ Ũ Ą̃ Ę̃
Ė̃ Į̃ Ų̃
Ū̃
Arial 20
à è ì ò ù à è Ì ò ù
á é í ý ó ú ą́ ę́ ė́ į́ ų́ ū́ á é Í ý ó ú Ą́ Ę́ Ė́ Į́
Ų́ Ū́
ã ẽ ĩ ỹ j̃ l̃ m̃ ñ õ r̃ ũ ą̃ ę̃ ė̃ į̃ ų̃ ū̃
ã Ẽ Ĩ Ỹ J̃ L̃ M̃ Ñ Õ R̃ Ũ Ą̃ Ę̃ Ė̃
Į̃ Ų̃ Ū̃
4.1.3. Kirčiuotų raidžių
vaizdavimas (vizualizavimas) internete
Nepakankamai kokybiškai
formuoja kompozicinių raidžių vaizdus ir pagrindinės interneto naršyklės. Verta
pastebėti, kad skirtingos naršyklės skirtingai ir vaizduoja. Faile
„LithUSIhtm.txt“ (žr. 3 priedą) pateiktas documentas HTML kalba, kuriame
reikiamu būdu aprašytos visos kirčiuotos raidės. kompozicinės sekos. Jis buvo tikrintas
su Netscape 4.7 ir su Internet Explor 5.5 naršyklėmis Vizualizavimo rezultatai
pateikti faile „LithUSI.htm“ (žr. 4 priedą).. Faile „LithUSI.txt“ pateiktas
tekstinis dokumentas su kirčiuotomis raidėmis, skirtas tekstų apdorojimo
programai Notepad (žr. 5 priedą). Suformuoti vaizdai irgi nėra kokybiški.
Kaip matosi iš pateiktų
testų, automatinis kirčiuotų raidžių vaizdo formavimas neatsižvelgia į kai
kurias ypatybes. Pavyzdžiui, dešininio kirtis mažosioms ir didžiosioms raidėms
piešiamas tame pačiame aukštyje. Gaunasi, kad mažosioms raidėms jis yra per
aukštai. Pagaliau ir jo „horizontali“ padėtis pagrindinės raidės atžvilgiu
turėtų būti skirtinga (žr. raides Į ir Ū su dešiniaisiais kirčiais). Dar vienas
pavyzdys: raidžių Ė ir Ū riestinis kirtis susilieja su tašku ir brūkšniu.
Manytume, kad vienas iš
galimų būdų kurti kokybiškus raidžių vaizdus iš kelių dalių yra vadinamosios
OpenType technologijos panaudojimas. Ši technologija taikoma kompleksinių kalbų
(kai raidės vaizdas priklauso nuo gretimų raidžių, t.y. konteksto) šriftams
kurti. Mūsų atveju, kirčio „pripaišymas“ priklausytų nuo to, kuri raidė yra
kirčiuojama.
4.2. Kirčiuotų raidžių kodavimas, panaudojant PUA
Kaip matėme 3.1 skyr.,
automatinis vaizdo generavimas yra nepatenkinamas. Galimas dar vienas problemos
sprendimo būdas, panaudojant vadinamąją privačią sritį (PUA – Private Use Area). PUA sritis skirta
vartotojams savo ženklams išdėstyti. Šios srities statusas yra visiškai
privatus: negalima naudotis jokiu standartiniu lingvistiniu servisu, pvz.,
ženklų rikiavimu. PUA sritis yra nuo U+E000 iki U+F8FF.
Žemiau siūlomas kirčiuotų
raidžių, neturinčių Unocode kodų, kodavimo variantas PUA srityje.
|
Nr. |
Raidė |
Pavadinimas |
Kodas (PUA) |
Pavadinimas pagal Unicode |
|
1 |
|
Didžioji raidė Ą su dešininiu kirčiu |
E000 |
LATIN CAPITAL LETTER A WITH OGONEK + COMBINING
ACUTE ACCENT |
|
2 |
|
Didžioji raidė Ą su riestiniu kirčiu |
E002 |
LATIN CAPITAL LETTER A WITH OGONEK + COMBINING
TILDE |
|
3 |
|
Mažoji raidė ą su dešininiu kirčiu |
E001 |
LATIN SMALL LETTER A WITH OGONEK + COMBINING ACUTE
ACCENT |
|
4 |
|
Mažoji raidė ą su riestiniu kirčiu |
E003 |
LATIN SMALL LETTER A WITH OGONEK + COMBINING TILDE |
|
5 |
|
Didžioji raidė Ę su dešininiu kirčiu |
E006 |
LATIN CAPITAL LETTER E WITH OGONEK + COMBINING
ACUTE ACCENT |
|
6 |
|
Didžioji raidė Ę su riestiniu kirčiu |
E008 |
LATIN CAPITAL LETTER E WITH OGONEK + COMBINING
TILDE |
|
7 |
|
Didžioji raidė Ė su dešininiu kirčiu |
E00A |
LATIN CAPITAL LETTER E WITH DOT ABOVE + COMBINING
ACUTE ACCENT |
|
8 |
|
Didžioji raidė Ė su riestiniu kirčiu |
E00C |
LATIN CAPITAL LETTER E WITH DOT ABOVE + COMBINING
TILDE |
|
9 |
|
Mažoji raidė ę su dešininiu kirčiu |
E007 |
LATIN SMALL LETTER E WITH OGONEK + COMBINING ACUTE
ACCENT |
|
10 |
|
Mažoji raidė ę su riestiniu kirčiu |
E009 |
LATIN SMALL LETTER E WITH OGONEK + COMBINING TILDE |
|
11 |
|
Mažoji raidė ė su dešininiu kirčiu |
E00B |
LATIN SMALL LETTER E WITH DOT ABOVE + COMBINING
ACUTE ACCENT |
|
12 |
|
Mažoji raidė ė su riestiniu kirčiu |
E00D |
LATIN SMALL LETTER E WITH DOT ABOVE + COMBINING
TILDE |
|
13 |
|
Didžioji raidė Į su dešininiu kirčiu |
E011 |
LATIN CAPITAL LETTER I WITH OGONEK + COMBINING
ACUTE ACCENT |
|
14 |
|
Didžioji raidė Į su riestiniu kirčiu |
E013 |
LATIN CAPITAL LETTER I WITH OGONEK + COMBINING
TILDE |
|
15 |
|
Mažoji raidė i su kairiniu kirčiu |
E00E |
LATIN SMALL LETTER I + COMBINING GRAVE ACCENT LATIN SMALL LETTER I + COMBINING DOT ABOVE +
COMBINING GRAVE ACCENT |
|
16 |
|
Mažoji raidė i su dešininiu kirčiu |
E00F |
LATIN SMALL LETTER I + COMBINING ACUTE ACCENT LATIN SMALL LETTER I + COMBINING DOT ABOVE +
COMBINING ACUTE ACCENT |
|
17 |
|
Mažoji raidė i su riestiniu kirčiu |
E010 |
LATIN SMALL LETTER I + COMBINING TILDE LATIN SMALL LETTER I + COMBINING DOT ABOVE +
COMBINING TILDE |
|
18 |
|
Mažoji raidė į su dešininiu kirčiu |
E012 |
LATIN SMALL LETTER I WITH OGONEK + COMBINING ACUTE
ACCENT LATIN SMALL LETTER I WITH OGONEK + COMBINING DOT
ABOVE + COMBINING ACUTE ACCENT |
|
19 |
|
Mažoji raidė į su riestiniu kirčiu |
E014 |
LATIN SMALL LETTER I WITH OGONEK + COMBINING TILDE LATIN SMALL LETTER I WITH OGONEK + COMBINING DOT
ABOVE + COMBINING TILDE |
|
20 |
|
Didžioji raidė J su riestiniu kirčiu |
E025 |
LATIN CAPITAL LETTER J + COMBINING TILDE |
|
21 |
|
Mažoji raidė j su riestiniu kirčiu |
E026 |
LATIN SMALL LETTER J + COMBINING TILDE |
|
22 |
|
Didžioji raidė L su riestiniu kirčiu |
E017 |
LATIN CAPITAL LETTER L + COMBINING TILDE |
|
23 |
|
Mažoji raidė l su riestiniu kirčiu |
E018 |
LATIN SMALL LETTER L + COMBINING TILDE |
|
24 |
|
Didžioji raidė M su riestiniu kirčiu |
E019 |
LATIN CAPITAL LETTER M + COMBINING TILDE |
|
25 |
|
Mažoji raidė m su riestiniu kirčiu |
E01A |
LATIN SMALL LETTER M + COMBINING TILDE |
|
26 |
|
Didžioji raidė R su riestiniu kirčiu |
E01B |
LATIN CAPITAL LETTER R + COMBINING TILDE |
|
27 |
|
Mažoji raidė r su riestiniu kirčiu |
E01C |
LATIN SMALL LETTER R + COMBINING TILDE |
|
28 |
|
Didžioji raidė Ų su dešininiu kirčiu |
E01D |
LATIN CAPITAL LETTER U WITH OGONEK + COMBINING
ACUTE ACCENT |
|
29 |
|
Didžioji raidė Ų su riestiniu kirčiu |
E01F |
LATIN CAPITAL LETTER U WITH OGONEK + COMBINING
TILDE |
|
30 |
|
Didžioji raidė Ū su dešininiu kirčiu |
E021 |
LATIN CAPITAL LETTER U WITH MACRON + COMBINING
ACUTE ACCENT |
|
31 |
|
Didžioji raidė Ū su riestiniu kirčiu |
E023 |
LATIN CAPITAL LETTER U WITH MACRON + COMBINING
TILDE |
|
32 |
|
Mažoji raidė ų su dešininiu kirčiu |
E01E |
LATIN SMALL LETTER U WITH OGONEK + COMBINING ACUTE
ACCENT |
|
33 |
|
Mažoji raidė ų su riestiniu kirčiu |
E020 |
LATIN SMALL LETTER U WITH OGONEK + COMBINING TILDE |
|
34 |
|
Mažoji raidė ū su dešininiu kirčiu |
E022 |
LATIN SMALL LETTER U WITH MACRON + COMBINING ACUTE
ACCENT |
|
35 |
|
Mažoji raidė ū su riestiniu kirčiu |
E024 |
LATIN SMALL LETTER U WITH MACRON + COMBINING TILDE |
PUA kodų paskirstymas turėtų būti įteisintas
Lietuvos standartu.
Buvo eksperimentinis šriftas, kuriame lietuviškos kirčiuotos
raidės turėjo pateiktus PUA šriftus. Testavimo rezultatai parodė, kad gaunasi
įprasti raidžių vaizdai, nesugadinti jokių automatinių komponavimo algoritmų.
Ryšium su raidžių kodavimu
PUA srityje iškyla vadinamojo kalbinio serviso problema. Panagrinėkime,
pavyzdžiui, raidžių rikiavimą. Atsiradus iš esmės naujoms raidėms, reikia
vienareikšmiškai apibrėžti jų eilę ar tvarką (tai ir apsprendžia žodžių
rikiavimą).
Lietuvių kalba turi keletą
„vienodų“ rikiavimo prasme raidžių. Pavyzdžiui, raidė A ir raidė A-nosinė yra
vienodos. Tačiau realiai vistiek reikia apibrėžti, kuri yra „pirmesnė“. Tai
reikalinga kad ir žodynuose, telefonų knygose ir pan. Todėl įvedamas antrasis
rikiavimo lygmuo raidėms, kurios yra lygios pirmojo lygmens požiūriu. Pagal
antrąjį lygmenį raidė A yra pirmesnė už raidę A-nosinė.
Kirčio ženklai savo ruožtu
įveda naują rikiavimo lygmenį. Laikoma, kad jų tvarka tokia: kairinio kirčio
ženklas, dešininio kirčio ženklas ir riestinio kirčio ženklas. Taigi,
pavyzdžiui, raidė „A su kairiniu kirčiu“ yra pirmesnė už „A su riestiniu kirčiu“.
Panaši problema šiuo atveju
yra ir su funkcija uppercase. Reikia deklaruoti, kad, pavyzdžiui, raidei
„mažoji raidė r su riestiniu kirčiu“ (kodas E01C) atitinka „didžioji raidė R su
riestiniu kirčiu“ (E01B).
5.
Kirčiuotų raidžių įvedimas (klaviatūros tvarkyklės metmenys)
Kaip žinoma, vienas iš
tinkamiausių būdų įvesti kirčiuotas raides (faktiškai raides su diakritiniais
ženklais) yra „mirusio ženklo“ metodas. Deklaruojami tokiais trys kirčio
ženklai (kairinis kirtis, dešininis kirtis ir riestinis kirtis), kurie, beje,
yra lietuviškoje standartinėje klaviatūroje. Žr. pateiktą klaviatūros grafinių
ženklų išdėstymą.

Tada kirčiuota raidė
įvedama, panaudojant reikiamą klavišų kombinaciją. Pvz., „a-nosinė su dešininiu
kirčiu“ įvedama, nuspaudus klavišą su „mirusiu“ ženklu „dešininis kirtis“ ir
klavišą su „a-nosine“.
Žemiau pateikiamas standartinės
lietuviškos (pagal Lietuvos standartą LST 1582) ir išplėstinės (su kirčiuotomis
raidėmis) klaviatūrų funkcinis ženklų išdėstymas, palyginant jį su amerikine
klaviatūra. Taip paprastai daroma, pristatant nacionalines klaviatūras
Europoje. Teikiamas būdas yra pagrindas būsimai išplėstinės klaviatūros
tvarkyklei sukurti, naudojant kodavimą PUA srityje.
|
Lygis 1 |
Lygis 2 (Shift) |
Lygis 3 (AltGr) |
||||||
|
US |
LT |
Unicode |
US |
LT |
Unicode |
US |
LT |
Unicode |
|
` |
` |
|
~ |
~ |
|
|
´ |
U+00b4 |
|
1 |
! |
U+0021 |
! |
1 |
U+0031 |
|
@ |
U+0040 |
|
2 |
- |
U+002d |
@ |
2 |
U+0032 |
|
_ |
U+005f |
|
3 |
/ |
U+002f |
# |
3 |
U+0033 |
|
# |
U+0023 |
|
4 |
; |
U+003b |
$ |
4 |
U+0034 |
|
$ |
U+0024 |
|
5 |
: |
U+003a |
% |
5 |
U+0035 |
|
§ |
U+00a7 |
|
6 |
, |
U+002c |
^ |
6 |
U+0036 |
|
^ |
U+005e |
|
7 |
. |
U+002e |
& |
7 |
U+0037 |
|
& |
U+0026 |
|
8 |
= |
U+003d |
* |
8 |
U+0038 |
|
* |
U+002a |
|
9 |
( |
U+0028 |
( |
9 |
U+0039 |
|
[ |
U+005b |
|
0 |
) |
U+0029 |
) |
0 |
U+0030 |
|
] |
U+005d |
|
- |
? |
U+003f |
_ |
+ |
U+002b |
|
' |
U+0027 |
|
= |
x |
U+0078 |
+ |
X |
U+0058 |
|
% |
U+0025 |
|
q |
ą |
U+0105 |
Q |
Ą |
U+0104 |
|
|
|
|
w |
ž |
U+017e |
W |
Ž |
U+017d |
|
|
|
|
e |
e |
|
E |
E |
|
|
€ |
U+20ac |
|
r |
r |
|
R |
R |
|
|
|
|
|
t |
t |
|
T |
T |
|
|
|
|
|
y |
y |
|
Y |
Y |
|
|
|
|
|
u |
u |
|
U |
U |
|
|
|
|
|
i |
I |
|
I |
I |
|
|
|
|
|
o |
o |
|
O |
O |
|
|
|
|
|
p |
p |
|
P |
P |
|
|
|
|
|
[ |
į |
U+012f |
{ |
Į |
U+012e |
|
{ |
U+007b |
|
] |
w |
U+0077 |
} |
W |
U+0057 |
|
} |
U+007d |
|
a |
a |
|
A |
A |
|
|
|
|
|
s |
s |
|
S |
S |
|
|
|
|
|
d |
d |
|
D |
D |
|
|
|
|
|
f |
š |
U+0161 |
F |
Š |
U+0160 |
|
|
|
|
g |
g |
|
G |
G |
|
|
|
|
|
h |
h |
|
H |
H |
|
|
|
|
|
j |
j |
|
J |
J |
|
|
|
|
|
k |
k |
|
K |
K |
|
|
|
|
|
l |
l |
|
L |
L |
|
|
|
|
|
; |
ų |
U+0173 |
: |
Ų |
U+0172 |
|
|
|
|
' |
ė |
U+0117 |
" |
Ė |
U+0116 |
|
" |
U+0022 |
|
\ |
q |
U+0071 |
| |
Q |
U+0051 |
|
| |
U+007c |
|
z |
z |
|
Z |
Z |
|
|
|
|
|
x |
ū |
U+016b |
X |
Ū |
U+016a |
|
|
|
|
c |
c |
|
C |
C |
|
|
|
|
|
v |
v |
|
V |
V |
|
|
|
|
|
b |
b |
|
B |
B |
|
|
|
|
|
n |
n |
|
N |
N |
|
|
|
|
|
m |
m |
|
M |
M |
|
|
|
|
|
, |
č |
U+010d |
< |
Č |
U+010c |
|
„ |
U+201e |
|
. |
f |
U+0066 |
> |
F |
U+0046 |
|
“ |
U+201c |
|
/ |
ę |
U+0119 |
? |
Ę |
U+0118 |
|
\ |
U+005c |
|
K_oE2 |
< |
U+003c |
|
> |
U+003e |
|
– |
U+2013 |
Turi papildomai galimybę įvesti visas lietuviškas kirčiuotas raides. Raidėms, neturinčioms Unikodo kodų, priskirtas reikšmes iš Privačiosios srities PUA (pradedant nuo U+E000) arba išreikštos USI (Unique UCS Sequence) sekomis (žr. ankstesnius skyrius). Pateikiamoje lentelėje kairinio kirčio ženklas pavadintas grave, dešininio – acute, o riestinio – tilde. Tai irgi yra duoklė būsimam nacionalinės klaviatūros pristatymui ir registracijai Europos klaviatūrų registre.
|
Kombinacija |
US |
LT |
Unicode, PUA |
Kombinacija |
US |
LT |
Unicode, PUA |
|
grave + a |
|
à |
U+00E0 |
grave + A |
|
À |
U+00C0 |
|
grave + e |
|
è |
U+00E8 |
grave + E |
|
È |
U+00C8 |
|
grave + i |
|
|
U+E00E |
grave + I |
|
Ì |
U+00CC |
|
grave + o |
|
ò |
U+00F2 |
grave + O |
|
Ò |
U+00D2 |
|
grave + u |
|
ù |
U+00F9 |
grave + U |
|
Ù |
U+00D9 |
|
acute + a |
|
á |
U+00E1 |
acute + A |
|
Á |
U+00C1 |
|
acute + e |
|
é |
U+00E9 |
acute + E |
|
É |
U+00C9 |
|
acute + i |
|
|
U+E00F |
acute + I |
|
Í |
U+00CD |
|
acute + y |
|
ý |
U+00FD |
acute + Y |
|
Ý |
U+00DD |
|
acute + o |
|
ó |
U+00F3 |
acute + O |
|
Ó |
U+00D3 |
|
acute + u |
|
ú |
U+00FA |
acute + U |
|
Ú |
U+00DA |
|
acute + ą |
q |
|
U+E001 |
acute + Ą |
Q |
|
U+E000 |
|
acute + ę |
/ |
|
U+E007 |
acute + Ę |
? |
|
U+E006 |
|
acute + ė |
' |
|
U+E00B |
acute + Ė |
" |
|
U+E00A |
|
acute + į |
[ |
|
U+E012 |
acute + Į |
{ |
|
U+E011 |
|
acute + ų |
; |
|
U+E01E |
acute + Ų |
: |
|
U+E01D |
|
acute + ū |
x |
|
U+E022 |
acute + Ū |
X |
|
U+E021 |
|
tilde + a |
|
ã |
U+00E3 |
tilde + A |
|
à |
U+00C3 |
|
tilde + e |
|
ẽ |
U+1EBD |
tilde + E |
|
Ẽ |
U+1EBC |
|
tilde + i |
|
|
U+E010 |
tilde + I |
|
Ĩ |
U+0128 |
|
tilde + y |
|
ỹ |
U+1EF9 |
tilde + Y |
|
Ỹ |
U+1EF8 |
|
tilde + j |
|
|
U+E026 |
tilde + J |
|
|
U+E025 |
|
tilde + l |
|
|
U+E018 |
tilde + L |
|
|
U+E017 |
|
tilde + m |
|
|
U+E01A |
tilde + M |
|
|
U+E019 |
|
tilde + n |
|
ñ |
U+00F1 |
tilde + N |
|
Ñ |
U+00D1 |
|
tilde + o |
|
õ |
U+00F5 |
tilde + O |
|
Õ |
U+00D5 |
|
tilde + r |
|
|
U+E01C |
tilde + R |
|
|
U+E01B |
|
tilde + u |
|
ũ |
U+0169 |
tilde + U |
|
Ũ |
U+0168 |
|
tilde + ą |
q |
|
U+E003 |
tilde + Ą |
Q |
|
U+E002 |
|
tilde + ę |
/ |
|
U+E009 |
tilde + Ę |
? |
|
U+E008 |
|
tilde + ė |
' |
|
U+E00D |
tilde + Ė |
" |
|
U+E00C |
|
tilde + į |
[ |
|
U+E014 |
tilde + Į |
{ |
|
U+E013 |
|
tilde + ų |
; |
|
U+E020 |
tilde + Ų |
: |
|
U+E01F |
|
tilde + ū |
x |
|
U+E024 |
tilde + Ū |
X |
|
U+E023 |
1. V.Tumasonis.
Encoding of Lithuanian Accented Letters. Proceedings of GLDV’99.
Multilingual Corpora: Encoding, Structuring, Analysis. Frankfurtas prie Maino,
P.15-20. 1999.
2. LST
1564. Informacijos technologija. Ženklų kodavimas 8 bitais. Lietuviškų kirčiuotų raidžių rinkinys. 16
p
3. LST
1590-2 Informacijos technologija. Ženklų
kodavimas 8 bitais. Lietuviškų kirčiuotų raidžių ir fonetinių ženklų rinkinys
DOS terpei.
4. LST
1590-4. Informacijos technologija. Ženklų
kodavimas 8 bitais. Lietuviškų kirčiuotų raidžių ir fonetinių ženklų rinkinys
Windows terpei.
5. LST ISO/IEC 10646-1 Informacijos technologija. Universalus keliais baitais koduotų ženklų
rinkinys. 1 dalis. Sandara ir pagrindinė daugiakalbė lentelė (tapatus
ISO/IEC 10646-1:2000 Information
technology – Universal Multiple-Octet Coded Character Set (UCS) – Part1:
Architecture and Basic Multilingual Plane (BMP)).
6. V.Tumasonis.
Proposal to add Lithuanian accented letters to ISO/IEC10646-1 (ISO/IEC
JTC1/SC2/WG2
N2075R
dokumentas – oficialus pasiūlymas įtraukti lietuviškas kirčiuotas raides į
tarptautinį standartą ISO/IEC 10646-1). Žr.:http://uosis.mif.vu.lt/katedros/informat/STAFF/tk4/lithacc/default.htm.
7. Kent
Karlsson, Vladas Tumasonis. Dotting the i’s (ISO/IEC JTC/SC2/WG2
dokumentas L2/01-191R – oficialus pasiūlymas atnaujinti Unikodo duomenų bazę,
atsižvelgiant į lietuviškų raidžių ypatybes). Žr. 2 priedą..
8. 10. LST
1582:2000. Informacijos technologija.
Lietuviška kompiuterio klaviatūra. Ženklų išdėstymas
[1] Standartas ISO/IEC 10646 yra Unicode viršaibis. Jis apibrėžia ženklų kodavimą 32 bitais (4 baitais). Visi Unicode ženklai yra standarte ISO/IEC 10646, visų jų kodų pirmieji 16 bitų lygūs nuliui, o kitų 16 bitų Unikodo kodai sutampa su ISO/IEC 10646 kodais. Todėl nėra esminių skirtumų tarp šių dviejų kodavimų. Unicode kuria Unicode konsorciumas, kuris nepriklauso Tarptautinei standartų organizacijai. Todėl Unicode nelaikomas tarptautiniu standartu. Tačiau abi organizacijos glaudžiai bendradarbiauja. Dėl to ženklų kodavimas standarte ISO/IEC 10646 ir Unicode yra suderintas