Lietuviškų kirčiuotų raidžių ir kitų rašto ženklų aibės sudarymas bei kodavimas


  • MS Word dokumentas (ZIP 524 KB)
  •  

    Turinys

     

     

    Įvadas 

     

    1. Lietuviškų kirčiuotų raidžių aibė

     

    2. Kirčiuotų raidžių kodavimas 8-iais bitais

     

    3. Kirčiuotų raidžių kodavimas Unikode

    3.1. Kirčiuotų raidžių problema Europos standartizacijos komitete (CEN) ir

    Tarptautinėje standartizacijos organizacijoje (ISO)        

    3.2. Kirčiuotų raidžių sąrašas pagal Unikode    

     

    4. Neturinčių Unikode kodų raidžių problematika

    4.1. Kirčiuotų raidžių kodavimas, panaudojant USI      

                            4.1.1. Kirčiuotų raidžių su taškais ypatumai

    4.1.2. Kirčiuotų raidžių vaizdavimas (vizualizavimas) Word'e

    4.1.3. Kirčiuotų raidžių vaizdavimas (vizualizavimas) internete

    4.2. Kirčiuotų raidžių kodavimas, panaudojant PUA     

     

    5. Kirčiuotų raidžių įvedimas (klaviatūros tvarkyklės metmenys)

    5.1. Standartinės lietuviškos klaviatūros ženklai

    5.2. Išplėstinė lietuviška klaviatūra        

     

    Literatūra

     

    1 priedas. Kompozicinių sekų vaizdavimas USI

    2 priedas. Dotting the i’s

    3 priedas. HTML dokumentas su kirčiuotomis raidėmis (failas „LithUSI.htm.txt“)         

    4 priedas. Raidžių vaizdai internete (failas „LithUSI.htm“)         

    5 priedas. Raidžių vaizdai Notepad'e (failas „ AccRendering.txt“)

     

    Įvadas

     

    Kaip žinoma, be pagrindinių ženklų lietuvių kalbos tekstuose vartojamos ir kirčiuotos raidės (o taip pat fonetiniai, senųjų raštų ir kiti filologinėje literatūroje pasitaikantys ženklai). Nesant valstybiniu mastu reglamentuotos šių ženklų sistemos, vartotojai juos kuria patys. Tuos pačius ženklus vieni vartotojai koduoja vienaip, kiti – kitaip. Dėl to Lietuvoje yra atsiradusios net kelios rašmenų sistemos su skirtingais kodais ir netgi skirtingu ženklų rinkiniu (aibe). Tokia rašto įvairovė sukelia daug kliūčių: neįmanoma keistis duomenimis tarp skirtingų vartotojų, naudotis tekstinių duomenų bazėmis, automatizuoti lingvistinį apdorojimą, publikuoti internete ir pan. Šio darbo tikslas yra minėtų ženklų vartojimo kompiuteriuose norminimas, kaip tai padaryta įprastiems rašto ženklams.

     

    1. Lietuviškų kirčiuotų raidžių aibė

     

    Kaip žinoma. kirčiuotos raidės vartojamos žodynuose, mokykliniuose vadovėliuose, enciklopedijose. Numatoma taip pat sukirčiuoti visus vietovardžius Lietuvos administracinio suskirstymo įstatyme. Būtų gerai taip pat, kad būtų įmanomos publikacijos internete.

    Atlikus ganą išsamų tyrimą, apsitarus su kalbininkais, buvo nustatyta, jog lietuvių kalboje yra 68 kirčiuotos raidės: 34 didžiosios ir 34 mažosios. Išvardinsime jas, suteikdami daugmaž nusistovėjusius jį vardus (kažkokių tai reglamentuotų kirčiuotų raidžių vardų lyg ir nėra).

     

    Nr.

    Pavadinimas

    Nr.

    Pavadinimas

    1

    Didžioji raidė A su kairiniu kirčiu

    35

    Mažoji raidė į su dešininiu kirčiu

    2

    Didžioji raidė A su dešininiu kirčiu

    36

    Mažoji raidė į su riestiniu kirčiu

    3

    Didžioji raidė A su riestiniu kirčiu

    37

    Mažoji raidė y su dešininiu kirčiu

    4

    Didžioji raidė Ą su dešininiu kirčiu

    38

    Mažoji raidė y su riestiniu kirčiu

    5

    Didžioji raidė Ą su riestiniu kirčiu

    39

    Didžioji raidė J su riestiniu kirčiu

    6

    Mažoji raidė a su kairiniu kirčiu

    40

    Mažoji raidė j su riestiniu kirčiu

    7

    Mažoji raidė a su dešininiu kirčiu

    41

    Didžioji raidė L su riestiniu kirčiu

    8

    Mažoji raidė a su riestiniu kirčiu

    42

    Mažoji raidė l su riestiniu kirčiu

    9

    Mažoji raidė ą su dešininiu kirčiu

    43

    Didžioji raidė M su riestiniu kirčiu

    10

    Mažoji raidė ą su riestiniu kirčiu

    44

    Mažoji raidė m su riestiniu kirčiu

    11

    Didžioji raidė E su kairiniu kirčiu

    45

    Didžioji raidė N su riestiniu kirčiu

    12

    Didžioji raidė E su dešininiu kirčiu

    46

    Mažoji raidė n su riestiniu kirčiu

    13

    Didžioji raidė E su riestiniu kirčiu

    47

    Didžioji raidė O su kairiniu kirčiu

    14

    Didžioji raidė Ę su dešininiu kirčiu

    48

    Didžioji raidė O su dešininiu kirčiu

    15

    Didžioji raidė Ę su riestiniu kirčiu

    49

    Didžioji raidė O su riestiniu kirčiu

    16

    Didžioji raidė Ė su dešininiu kirčiu

    50

    Mažoji raidė o su kairiniu kirčiu

    17

    Didžioji raidė Ė su riestiniu kirčiu

    51

    Mažoji raidė o su dešininiu kirčiu

    18

    Mažoji raidė e su kairiniu kirčiu

    52

    Mažoji raidė o su riestiniu kirčiu

    19

    Mažoji raidė e su dešininiu kirčiu

    53

    Didžioji raidė R su riestiniu kirčiu

    20

    Mažoji raidė e su riestiniu kirčiu

    54

    Mažoji raidė r su riestiniu kirčiu

    21

    Mažoji raidė ę su dešininiu kirčiu

    55

    Didžioji raidė U su kairiniu kirčiu

    22

    Mažoji raidė ę su riestiniu kirčiu

    56

    Didžioji raidė U su dešininiu kirčiu

    23

    Mažoji raidė ė su dešininiu kirčiu

    57

    Didžioji raidė U su riestiniu kirčiu

    24

    Mažoji raidė ė su riestiniu kirčiu

    58

    Didžioji raidė Ų su dešininiu kirčiu

    25

    Didžioji raidė I su kairiniu kirčiu

    59

    Didžioji raidė Ų su riestiniu kirčiu

    26

    Didžioji raidė I su dešininiu kirčiu

    60

    Didžioji raidė Ū su dešininiu kirčiu

    27

    Didžioji raidė I su riestiniu kirčiu

    61

    Didžioji raidė Ū su riestiniu kirčiu

    28

    Didžioji raidė Į su dešininiu kirčiu

    62

    Mažoji raidė u su kairiniu kirčiu

    29

    Didžioji raidė Į su riestiniu kirčiu

    63

    Mažoji raidė u su dešininiu kirčiu

    30

    Didžioji raidė Y su dešininiu kirčiu

    64

    Mažoji raidė u su riestiniu kirčiu

    31

    Didžioji raidė Y su riestiniu kirčiu

    65

    Mažoji raidė ų su dešininiu kirčiu

    32

    Mažoji raidė i su kairiniu kirčiu

    66

    Mažoji raidė ų su riestiniu kirčiu

    33

    Mažoji raidė i su dešininiu kirčiu

    67

    Mažoji raidė ū su dešininiu kirčiu

    34

    Mažoji raidė i su riestiniu kirčiu

    68

    Mažoji raidė ū su riestiniu kirčiu

     

    2. Kirčiuotų raidžių kodavimas 8-iais bitais

     

    Yra trys Lietuvos standartai, skirti koduoti lietuviškoms kirčiuotoms raidėms.

    Standartas LST 1564:2000 Informacijos technologija. Ženklų kodavimas 8 bitais. Lietuviškų kirčiuotų raidžių rinkinys apibrėžia pagrindinę kirčiuotų raidžių kodavimo lentelė (žr. žemiau pateiktą lentelę). Ši lentelė nusako pagrindinį raidžių rinkinį, įskaitant kirčiuotas raides. Kodų lentelė yra suderinta su ISO-8859-13 lentele, t.y. įprastų lietuviškų (nekirčiuotų) raidžių kodai abiejose lentelėse sutampa. Šio lentelės ženklų rinkinys yra optimalus lingvistinių tekstų apdorojimo požiūriu.

     

    Pastaba. Visose minėtais standartais apibrėžtose lentelėse nėra „Didžiosios raidės J su riestiniu kirčiu“ ir „Mažosios raidės j su riestiniu kirčiu“.

    Pagrindinė kirčiuotų raidžių kodavimo lentelė


    Standartas LST 1590-4:2000 Informacijos technologija. Ženklų kodavimas 8 bitais. 4 dalis. Lietuviškų kirčiuotų raidžių ir transkripcijos ženklų rinkinys Windows terpei apibrėžia kodų lentelė Windows terpei. Ji turi visus bazinio rinkinio ženklus ir papildomus fonetinius ženklus 8 ir 9 stulpeliuose. Ši lentelė yra suderinta su Windows-1257 lentele.

    Kirčiuotų raidžių kodavimo lentelė Windows terpei


    Standartas LST 1590-2:2000 Informacijos technologija. Ženklų kodavimas 8 bitais. 2 dalis. Lietuviškų kirčiuotų raidžių ir transkripcijos ženklų rinkinys DOS terpei apibrėžia kodų lentelė DOS terpei. Ji turi visus bazinio rinkinio ženklus ir pseudografikos simbolius. Ši lentelė yra suderinta su IBM 775 lentele, naudojamoje Lietuvoje DOS terpėje.

    Kirčiuotų raidžių kodavimo lentelė DOS terpei


    3. Kirčiuotų raidžių kodavimas Unikode

     

    3.1 Kirčiuotų raidžių problema Europos standartizacijos komitete (CEN) ir Tarptautinėje standartizacijos organizacijoje (ISO)

     

    Unicode (lietuviškai vadinsime Unikodas) apibrėžia ženklų kodavimą 16 bitų (2 baitų) kodais. Juo galima užkoduoti apie 65 tūkstančius ženklų, todėl į Unikodą telpa ir yra įtraukti visų tautų kalbų abėcėlių simboliai, tarp jų ir hieroglifai.

    Lietuvių kalba turi 68 kirčiuotas raides (34 didžiąsias ir tiek pat mažųjų). Iš jų 33 jau yra Unikode (jos vartojamos kitose kalbose), o 35 nėra.

    Apie lietuviškas kirčiuotas raides ir mūsų pageidavimą jas visas įtraukti į Unikodą Lietuvos standartizacijos departamento Technikos komiteto TK 4 pirmininkas V. Tumasonis kalbėjosi su Europos standartizacijos komiteto Technikos komiteto TC 304 nariais šio komiteto plenariniuose posėdžiuose, vykusiuose 1999 m. balandžio 19–23 d. Tiubingene ir aptarė pasiūlymo pateikimo detales.

    1999 m. vasarą V. Tumasonis parengė oficialų pasiūlymą, kuriame Lietuvos standartizacijos departamento vardu buvo kreipiamasi į ISO Jungtinio technikos komiteto Nr.1 (JTC1) darbo grupę SC2/WG2, tvarkančią tarptautinį standartą ISO/IEC 10646 (Unicode), dėl trūkstamų lietuviškų kirčiuotų raidžių įtraukimo į jį[1]).

    Pasiūlymas (žr. http://uosis.mif.vu.lt/katedros/informat/STAFF/tk4/lithacc/default.htm ) buvo pateiktas ir apsvarstytas per minėtos darbo grupės pasitarimą 1999 m. rugsėjo 13–16 d. Kopenhagoje. Pasiūlymas nebuvo priimtas. Buvo keletas motyvų. Tai ir noras stabilizuoti koduotų ženklų aibę (užšaldyti ją), abejonės dėl kirčiuotų raidžių visuotino reikalingumo. Ko gero pagrindinis motyvas – lietuviškas kirčiuotas raides, kurių nėra Unikode, yra kompozicinės, t.y. jas galima išreikšti ten esančių ženklų vadinamosiomis kompozicinėmis sekomis (raidė + diakritinis ženklas). Teoriškai kompozicinė seka yra lygiavertė iš jos komponentų sudarytam vienam ženklui, tačiau praktiškai dauguma iki šiol vartojamų programų kompozicinės sekos dar negali pakeisti vienu ženklu.

    1999 m. birželio 21 d. komiteto TC 304 sekretorius Þorgeir Sigurðsson pateikė Lietuvos pasiūlymą kaip šio komiteto dokumentą N906 komiteto nariams.

    Spalio 20–22 dienomis Briuselyje vyko komiteto TC 304 plenariniai posėdžiai. Juose dalyvavo 9 valstybių — CEN komiteto narių (Airijos, Graikijos, Jungtinės Karalystės, Norvegijos, Olandijos, Prancūzijos, Suomijos, Švedijos ir Vokietijos) ir 2 asocijuotų narių (Lenkijos ir Lietuvos) atstovai. Jame atskiru klausimu buvo svarstomas lietuviškų kirčiuotų raidžių įtraukimas į Unikodą ir tarptautinį standartą ISO/IEC 10646.

    Komitetas priėmė rezoliuciją, rekomenduojančią visas lietuviškas kirčiuotas raides įtraukti į Unikodą.

    Komitetas TC 304 nesprendžia Unikodo klausimų. Jo rezoliucija yra tik rekomendacija Tarptautinei standartų organizacijai. Tačiau jo palaikymas yra svarbi parama mums.

    Pasiūlymas buvo pakartotinai pateiktas minėto ISO jungtinio technikos komiteto JTC1 darbo grupės SC2/WG2 pasitarimą 2001 metų balandžio mėn. Mountain View (JAV). Pasiūlymas buvo nepriimtas, motyvuojant tuo, kad dabartiniu metu į Unikodą neįtraukiamos vadinamosios kompozicinės raidės. Be to, Unikode konsorciumas nusprendė į naujų ženklų priėmimo taisykles įtraukti nuostatą, kad įtraukti galima tik nekompozicinius ženklus. Vadinasi, reikėjo ieškoti kitų būdų, kaip su kompiuteriu įvesti, apdoroti ir atspausdinti lietuviškas kirčiuotas raides. Šiame darbe kaip tik ir siūlomi du metodai.

     

    3.2. Kirčiuotų raidžių sąrašas pagal Unikode

     

    Kodavimas 8-iais bitais (vienu baitu) turi trūkumą, jog koduojamų ženklų aibė neviršija 255 simbolių. Todėl pastaruoju metu populiarėja kodavimas dviem ar daugiau baitais – Unikode. Tokiu būdu užkodavus lietuviškas kirčiuotas raides, galimos būtų ir internetinės publikacijos.

    Buvo ištirtas kirčiuotų raidžių kodavimas Unikode. Kai kurios lietuviškos kirčiuotos raidės yra taip pat kitų kalbų įprastos abėcėlės raidės. Pvz., „raidė A su dešininiu kirčiu“ yra taip pat airių, islandų, portugalų, slovakų ir t.t. kalbose, „raidė N su riestiniu kirčiu“ yra baskų, bretonų ir ispanų kalbose. Taigi, jos turi atskirus Unikodo kodus. Buvo nustatyta, jog suma summarum 33 lietuviškos kirčiuotos raidės turi Unikodo kodus, o 35 – neturi. Žemiau pateiktas visų raidžių sąrašas su atitinkamomis atžymomis. Raidžių, neturinčių Unikodo kodų (taigi, ir Unikodo vardų), Unikodo vardai anglų kalba sudaryti, prisilaikant oficialių vardų sudarymo taisyklių.

     

    Nr.

    Raidė

    Pavadinimas

    Unicode kodas

    Pavadinimas pagal Unicode

    1

    À

    Didžioji raidė A su kairiniu kirčiu

    00C0

    LATIN CAPITAL LETTER A WITH GRAVE

    2

    Á

    Didžioji raidė A su dešininiu kirčiu

    00C1

    LATIN CAPITAL LETTER A WITH ACUTE

    3

    Ã

    Didžioji raidė A su riestiniu kirčiu

    00C3

    LATIN CAPITAL LETTER A WITH TILDE

    4

    Didžioji raidė Ą su dešininiu kirčiu

             

    LATIN CAPITAL LETTER A WITH OGONEK + COMBINING ACUTE ACCENT

    5

    Didžioji raidė Ą su riestiniu kirčiu

                 

    LATIN CAPITAL LETTER A WITH OGONEK + COMBINING TILDE

    6

    à

    Mažoji raidė a su kairiniu kirčiu

    00E0

    LATIN SMALL LETTER A WITH GRAVE

    7

    á

    Mažoji raidė a su dešininiu kirčiu

    00E1

    LATIN SMALL LETTER A WITH ACUTE

    8

    ã

    Mažoji raidė a su riestiniu kirčiu

    00E3

    LATIN SMALL LETTER A WITH TILDE

    9

    Mažoji raidė ą su dešininiu kirčiu

                 

    LATIN SMALL LETTER A WITH OGONEK + COMBINING ACUTE ACCENT

    10

    Mažoji raidė ą su riestiniu kirčiu

                 

    LATIN SMALL LETTER A WITH OGONEK + COMBINING TILDE

    11

    È

    Didžioji raidė E su kairiniu kirčiu

    00C8

    LATIN CAPITAL LETTER E WITH GRAVE

    12

    É

    Didžioji raidė E su dešininiu kirčiu

    00C9

    LATIN CAPITAL LETTER E WITH ACUTE

    13

    Didžioji raidė E su riestiniu kirčiu

    1EBC

    LATIN CAPITAL LETTER E WITH TILDE

    14

    Didžioji raidė Ę su dešininiu kirčiu

                 

    LATIN CAPITAL LETTER E WITH OGONEK + COMBINING ACUTE ACCENT

    15

    Didžioji raidė Ę su riestiniu kirčiu

                 

    LATIN CAPITAL LETTER E WITH OGONEK + COMBINING TILDE

    16

    Didžioji raidė Ė su dešininiu kirčiu

                 

    LATIN CAPITAL LETTER E WITH DOT ABOVE + COMBINING ACUTE ACCENT

    17

    Didžioji raidė Ė su riestiniu kirčiu

                 

    LATIN CAPITAL LETTER E WITH DOT ABOVE + COMBINING TILDE

    18

    è

    Mažoji raidė e su kairiniu kirčiu

    00E8

    LATIN SMALL LETTER E WITH GRAVE

    19

    é

    Mažoji raidė e su dešininiu kirčiu

    00E9

    LATIN SMALL LETTER E WITH ACUTE

    20

    Mažoji raidė e su riestiniu kirčiu

    1EBD

    LATIN SMALL LETTER E WITH TILDE

    21

    Mažoji raidė ę su dešininiu kirčiu

                 

    LATIN SMALL LETTER E WITH OGONEK + COMBINING ACUTE ACCENT

    22

    Mažoji raidė ę su riestiniu kirčiu

                 

    LATIN SMALL LETTER E WITH OGONEK + COMBINING TILDE

    23

    Mažoji raidė ė su dešininiu kirčiu

                 

    LATIN SMALL LETTER E WITH DOT ABOVE + COMBINING ACUTE ACCENT

    24

    Mažoji raidė ė su riestiniu kirčiu

                 

    LATIN SMALL LETTER E WITH DOT ABOVE + COMBINING TILDE

    25

    Ì

    Didžioji raidė I su kairiniu kirčiu

    00CC

    LATIN CAPITAL LETTER I WITH GRAVE

    26

    Í

    Didžioji raidė I su dešininiu kirčiu

    00CD

    LATIN CAPITAL LETTER I WITH ACUTE

    27

    Ĩ

    Didžioji raidė I su riestiniu kirčiu

    0128

    LATIN CAPITAL LETTER I WITH TILDE

    28

    Didžioji raidė Į su dešininiu kirčiu

                 

    LATIN CAPITAL LETTER I WITH OGONEK + COMBINING ACUTE ACCENT

    29

    Didžioji raidė Į su riestiniu kirčiu

                 

    LATIN CAPITAL LETTER I WITH OGONEK + COMBINING TILDE

    30

    Ý

    Didžioji raidė Y su dešininiu kirčiu

    00DD

    LATIN CAPITAL LETTER Y WITH ACUTE

    31

    Didžioji raidė Y su riestiniu kirčiu

    1EF8

    LATIN CAPITAL LETTER Y WITH TILDE

    32

    Mažoji raidė i su kairiniu kirčiu

                  

    LATIN SMALL LETTER I + COMBINING GRAVE ACCENT

    LATIN SMALL LETTER I + COMBINING DOT ABOVE + COMBINING GRAVE ACCENT

    33

    Mažoji raidė i su dešininiu kirčiu

                 

    LATIN SMALL LETTER I + COMBINING ACUTE ACCENT

    LATIN SMALL LETTER I + COMBINING DOT ABOVE + COMBINING ACUTE ACCENT

    34

    Mažoji raidė i su riestiniu kirčiu

                 

    LATIN SMALL LETTER I + COMBINING TILDE

    LATIN SMALL LETTER I + COMBINING DOT ABOVE + COMBINING TILDE

    35

    Mažoji raidė į su dešininiu kirčiu

                 

    LATIN SMALL LETTER I WITH OGONEK + COMBINING ACUTE ACCENT

    LATIN SMALL LETTER I WITH OGONEK + COMBINING DOT ABOVE + COMBINING ACUTE ACCENT

    36

    Mažoji raidė į su riestiniu kirčiu

                 

    LATIN SMALL LETTER I WITH OGONEK + COMBINING TILDE

    LATIN SMALL LETTER I WITH OGONEK + COMBINING DOT ABOVE + COMBINING TILDE

    37

    ý

    Mažoji raidė y su dešininiu kirčiu

    00FD

    LATIN SMALL LETTER Y WITH ACUTE

    38

    Mažoji raidė y su riestiniu kirčiu

    1EF9

    LATIN SMALL LETTER Y WITH TILDE

    39

    Didžioji raidė J su riestiniu kirčiu

                 

    LATIN CAPITAL LETTER J + COMBINING TILDE

    40

    Mažoji raidė j su riestiniu kirčiu

                 

    LATIN SMALL LETTER J + COMBINING TILDE

    41

    Didžioji raidė L su riestiniu kirčiu

                 

    LATIN CAPITAL LETTER L + COMBINING TILDE

    42

    Mažoji raidė l su riestiniu kirčiu

                 

    LATIN SMALL LETTER L + COMBINING TILDE

    43

    Didžioji raidė M su riestiniu kirčiu

                 

    LATIN CAPITAL LETTER M + COMBINING TILDE

    44

    Mažoji raidė m su riestiniu kirčiu

                 

    LATIN SMALL LETTER M + COMBINING TILDE

    45

    Ñ

    Didžioji raidė N su riestiniu kirčiu

    00D1

    LATIN CAPITAL LETTER N WITH TILDE

    46

    ñ

    Mažoji raidė n su riestiniu kirčiu

    00F1

    LATIN SMALL LETTER N WITH TILDE

    47

    Ò

    Didžioji raidė O su kairiniu kirčiu

    00D2

    LATIN CAPITAL LETTER O WITH GRAVE

    48

    Ó

    Didžioji raidė O su dešininiu kirčiu

    00D3

    LATIN CAPITAL LETTER O WITH ACUTE

    49

    Õ

    Didžioji raidė O su riestiniu kirčiu

    00D5

    LATIN CAPITAL LETTER O WITH TILDE

    50

    ò

    Mažoji raidė o su kairiniu kirčiu

    00F2

    LATIN SMALL LETTER O WITH GRAVE

    51

    ó

    Mažoji raidė o su dešininiu kirčiu

    00F3

    LATIN SMALL LETTER O WITH ACUTE

    52

    õ

    Mažoji raidė o su riestiniu kirčiu

    00F5

    LATIN SMALL LETTER O WITH TILDE

    53

    Didžioji raidė R su riestiniu kirčiu

                 

    LATIN CAPITAL LETTER R + COMBINING TILDE

    54

    Mažoji raidė r su riestiniu kirčiu

                 

    LATIN SMALL LETTER R + COMBINING TILDE

    55

    Ù

    Didžioji raidė U su kairiniu kirčiu

    00D9

    LATIN CAPITAL LETTER U WITH GRAVE

    56

    Ú

    Didžioji raidė U su dešininiu kirčiu

    00DA

    LATIN CAPITAL LETTER U WITH ACUTE

    57

    Ũ

    Didžioji raidė U su riestiniu kirčiu

    0168

    LATIN CAPITAL LETTER U WITH TILDE

    58

    Didžioji raidė Ų su dešininiu kirčiu

                 

    LATIN CAPITAL LETTER U WITH OGONEK + COMBINING ACUTE ACCENT

    59

    Didžioji raidė Ų su riestiniu kirčiu

                 

    LATIN CAPITAL LETTER U WITH OGONEK + COMBINING TILDE

    60

    Didžioji raidė Ū su dešininiu kirčiu

                 

    LATIN CAPITAL LETTER U WITH MACRON + COMBINING ACUTE ACCENT

    61

    Didžioji raidė Ū su riestiniu kirčiu

                 

    LATIN CAPITAL LETTER U WITH MACRON + COMBINING TILDE

    62

    ù

    Mažoji raidė u su kairiniu kirčiu

    00F9

    LATIN SMALL LETTER U WITH GRAVE

    63

    ú

    Mažoji raidė u su dešininiu kirčiu

    00FA

    LATIN SMALL LETTER U WITH ACUTE

    64

    ũ

    Mažoji raidė u su riestiniu kirčiu

    0169

    LATIN SMALL LETTER U WITH TILDE

    65

    Mažoji raidė ų su dešininiu kirčiu

                 

    LATIN SMALL LETTER U WITH OGONEK + COMBINING ACUTE ACCENT

    66

    Mažoji raidė ų su riestiniu kirčiu

                 

    LATIN SMALL LETTER U WITH OGONEK + COMBINING TILDE

    67

    Mažoji raidė ū su dešininiu kirčiu

                 

    LATIN SMALL LETTER U WITH MACRON + COMBINING ACUTE ACCENT

    68

    Mažoji raidė ū su riestiniu kirčiu

                 

    LATIN SMALL LETTER U WITH MACRON + COMBINING TILDE

     

    4. Neturinčių Unicode kodų raidžių problematika

     

    Taigi, matome, kad 35 raidės neturi Unikodo kodų. Vadinasi, šių raidžių negalima nei įvesti, nei išvesti, nei apdoroti. Ką daryti?

    Galimi du sprendimo variantai. Pirmasis, naudojant kompozicinių sekų identifikatorius (USI), ir antrasis, naudojant privačią sritį (PUA).

     

    4.1. Kirčiuotų raidžių kodavimas, panaudojant USI

     

    Kai kurios raidės (tiksliau, jų vaizdai) yra lygtai sudarytos iš dviejų ar daugiau dalių. Pvz., „raidę ą su dešininiu kirčiu“ galima laikyti sudaryta iš „raidės ą“ ir „dešininio kirčio“. Tokios raidės vadinamos kompozicinėmis raidėmis, o atitinkama ženklų seka vadinama kompozicine seka. Mūsų raidės iš principo yra kompozicinės, todėl neturinčias Unikodo kodo galima išreikšti kompozicinėmis sekomis. Kairinis kirtis, dešininis kirtis ir riestinis kirtis kompozicinėse sekose vaizduojami specialiais „kombinuojamaisiais“ kirčio ženklais, skirtingais nuo įprastojo kairinio, dešininio ir riestinio kirčių.

    Oficialūs mums reikalingų kombinuojamųjų kirčių vardai yra:COMBINING GRAVE ACCENT, COMBINING ACUTE ACCENT ir COMBINING TILDE.

    Pati kompozicinė seka pagal Unikode reikalavimus yra pateikiama vadinamuoju USI (UCS Sequence Identifier). USI gramatika pateikta 1 priede. Pavyzdžiui, jau minėta „mažoji raidę ą su dešininiu kirčiu“ USI notacija pateikiama kaip <U+0105, U+0301>. Žemiau pateiktas lietuviškų raidžių, neturinčių Unikodo kodų, kodavimas USI sekomis.

     

    Nr.

    Raidė

    Pavadinimas

    Kodas (USI)

    Pavadinimas pagal Unikodą

    1

    Didžioji raidė Ą su dešininiu kirčiu

    <0104, 0301>

    LATIN CAPITAL LETTER A WITH OGONEK + COMBINING ACUTE ACCENT

    2

    Didžioji raidė Ą su riestiniu kirčiu

    <0104, 0303>

    LATIN CAPITAL LETTER A WITH OGONEK + COMBINING TILDE

    3

    Mažoji raidė ą su dešininiu kirčiu

    <0105, 0301>

    LATIN SMALL LETTER A WITH OGONEK + COMBINING ACUTE ACCENT

    4

    Mažoji raidė ą su riestiniu kirčiu

    <0105, 0303>

    LATIN SMALL LETTER A WITH OGONEK + COMBINING TILDE

    5

    Didžioji raidė Ę su dešininiu kirčiu

    <0118, 0301>

    LATIN CAPITAL LETTER E WITH OGONEK + COMBINING ACUTE ACCENT

    6

    Didžioji raidė Ę su riestiniu kirčiu

    <0118, 0303>

    LATIN CAPITAL LETTER E WITH OGONEK + COMBINING TILDE

    7

    Didžioji raidė Ė su dešininiu kirčiu

    <0116, 0301>

    LATIN CAPITAL LETTER E WITH DOT ABOVE + COMBINING ACUTE ACCENT

    8

    Didžioji raidė Ė su riestiniu kirčiu

    <0116, 0303>

    LATIN CAPITAL LETTER E WITH DOT ABOVE + COMBINING TILDE

    9

    Mažoji raidė ę su dešininiu kirčiu

    <0119, 0301>

    LATIN SMALL LETTER E WITH OGONEK + COMBINING ACUTE ACCENT

    10

    Mažoji raidė ę su riestiniu kirčiu

    <0119, 0303>

    LATIN SMALL LETTER E WITH OGONEK + COMBINING TILDE

    11

    Mažoji raidė ė su dešininiu kirčiu

    <0117, 0301>

    LATIN SMALL LETTER E WITH DOT ABOVE + COMBINING ACUTE ACCENT

    12

    Mažoji raidė ė su riestiniu kirčiu

    <0117, 0303>

    LATIN SMALL LETTER E WITH DOT ABOVE + COMBINING TILDE

    13

    Didžioji raidė Į su dešininiu kirčiu

    <012E, 0301>

    LATIN CAPITAL LETTER I WITH OGONEK + COMBINING ACUTE ACCENT

    14

    Didžioji raidė Į su riestiniu kirčiu

    <012E, 0303>

    LATIN CAPITAL LETTER I WITH OGONEK + COMBINING TILDE

    15

    Mažoji raidė i su kairiniu kirčiu

    <0069, 0300>

    arba

    <0069, 0307, 0300>

    LATIN SMALL LETTER I + COMBINING GRAVE ACCENT

    LATIN SMALL LETTER I + COMBINING DOT ABOVE + COMBINING GRAVE ACCENT

    16

    Mažoji raidė i su dešininiu kirčiu

    <0069, 0301>

    arba

    <0069, 0307, 0301>

    LATIN SMALL LETTER I + COMBINING ACUTE ACCENT

    LATIN SMALL LETTER I + COMBINING DOT ABOVE + COMBINING ACUTE ACCENT

    17

    Mažoji raidė i su riestiniu kirčiu

    <0069, 0303>

    arba

    <0069, 0307, 0303>

    LATIN SMALL LETTER I + COMBINING TILDE

    LATIN SMALL LETTER I + COMBINING DOT ABOVE + COMBINING TILDE

    18

    Mažoji raidė į su dešininiu kirčiu

    <012F, 0301>

    arba

    <012F, 0307, 0301>

    LATIN SMALL LETTER I WITH OGONEK + COMBINING ACUTE ACCENT

    LATIN SMALL LETTER I WITH OGONEK + COMBINING DOT ABOVE + COMBINING ACUTE ACCENT

    19

    Mažoji raidė į su riestiniu kirčiu

    <012F, 0303>

    arba

    <012F, 0307, 0303>

    LATIN SMALL LETTER I WITH OGONEK + COMBINING TILDE

    LATIN SMALL LETTER I WITH OGONEK + COMBINING DOT ABOVE + COMBINING TILDE

    20

    Didžioji raidė J su riestiniu kirčiu

    <004A, 0303>

    LATIN CAPITAL LETTER J + COMBINING TILDE

    21

    Mažoji raidė j su riestiniu kirčiu

    <006A, 0303>

    LATIN SMALL LETTER J + COMBINING TILDE

    22

    Didžioji raidė L su riestiniu kirčiu

    <004C, 0303>

    LATIN CAPITAL LETTER L + COMBINING TILDE

    23

    Mažoji raidė l su riestiniu kirčiu

    <006C, 0303>

    LATIN SMALL LETTER L + COMBINING TILDE

    24

    Didžioji raidė M su riestiniu kirčiu

    <004D, 0303>

    LATIN CAPITAL LETTER M + COMBINING TILDE

    25

    Mažoji raidė m su riestiniu kirčiu

    <006D, 0303>

    LATIN SMALL LETTER M + COMBINING TILDE

    26

    Didžioji raidė R su riestiniu kirčiu

    <0052, 0303>

    LATIN CAPITAL LETTER R + COMBINING TILDE

    27

    Mažoji raidė r su riestiniu kirčiu

    <0072, 0303>

    LATIN SMALL LETTER R + COMBINING TILDE

    28

    Didžioji raidė Ų su dešininiu kirčiu

    <0172, 0301>

    LATIN CAPITAL LETTER U WITH OGONEK + COMBINING ACUTE ACCENT

    29

    Didžioji raidė Ų su riestiniu kirčiu

    <0172, 0303>

    LATIN CAPITAL LETTER U WITH OGONEK + COMBINING TILDE

    30

    Didžioji raidė Ū su dešininiu kirčiu

    <016A, 0301>

    LATIN CAPITAL LETTER U WITH MACRON + COMBINING ACUTE ACCENT

    31

    Didžioji raidė Ū su riestiniu kirčiu

    <016A, 0303>

    LATIN CAPITAL LETTER U WITH MACRON + COMBINING TILDE

    32

    Mažoji raidė ų su dešininiu kirčiu

    <0173, 0301>

    LATIN SMALL LETTER U WITH OGONEK + COMBINING ACUTE ACCENT

    33

    Mažoji raidė ų su riestiniu kirčiu

    <0173, 0303>

    LATIN SMALL LETTER U WITH OGONEK + COMBINING TILDE

    34

    Mažoji raidė ū su dešininiu kirčiu

    <016B, 0301>

    LATIN SMALL LETTER U WITH MACRON + COMBINING ACUTE ACCENT

    35

    Mažoji raidė ū su riestiniu kirčiu

    <016B, 0303>

    LATIN SMALL LETTER U WITH MACRON + COMBINING TILDE

     

    Viskas iš pirmo žvilgsnio atrodo gerai (dabar nekalbame apie įvedimą iš klaviatūros). Tačiau tik iš pirmo žvilgsnio. Esmė ta, kad egzistuoja trys Unikodo diegimo lygiai:

    0-is lygis (Implementation level 0). Kompozicinės sekos nerealizuojamos;

    1-is lygis (Implementation level 1). Kompozicinės sekos realizuojamos su tam tikru ribotu kombinuojamųjų ženklų rinkiniu (į šį rinkinį įeina mūsų visi terys kirčio ženklai);

    2-is lygis (Implementation level 2). Kompozicinės sekos realizuojamos su visais kombinuojamaisiais ženklais.


     

    4.1.1. Kirčiuotų raidžių su taškais ypatumai

     

    Lietuviškos kirčiuotos raidės turi dar vieną ypatumą, susijusį su mažųjų raidžių i (o taip pat ir į bei j) kirčiavimu, tiksliau su kirčiuotų i grafiniu vaizdu (glyph), t.y simboliu. Vakarų Europos kalbose, pavyzdžiui „i su kairiniu kirčiu“ vaizduojamas be taško, o lietuvių kalbos taisyklės reikalauja taško:

                            ì – Vakarų Europos kalbose;

     – lietuvių kalboje.

     

    Pagal įprastas komponavimo taisykles „mažoji raidė i“ + „kairinis kirtis“ pateiks raidę „i su kombinuojamuoju kairiniu kirčiu“ be taško. Norint gauti tašką, jį reikia uždėti specialiai per kompozicinę seką. Todėl USI lentelėje matome, jog mūsų tikslams „mažoji raidė su kairiniu kirčiu“ išreškiama kaip LATIN SMALL LETTER I + COMBINING DOT ABOVE + COMBINING GRAVE ACCENT, t.y. trijų ženklų kombinacija.

    Ką tik suminėta ypatybė sukelia dar vieną problemą. Unikode yra apibrėžtos aiškios ženklų poros: didžioji raidė (upper case) ir mažoji raidė (lower case) (griežtai kalbant dar yra ir vadinamosios antraštinės raidės (title case)). Pagal šias taisykles raidės „mažoji i su kairiniu kirčiu“ (be taško) didžioji forma yra „didžioji raidė I su kairiniu kirčiu“ irgi be taško. Tuo tarpu mūsų „tautinei“ raidei ši atitinkamybė negalioja: mažajai su tašku atitinka didžioji be taško. Taškas turi dingti. Vadinasi, mums (lietuvių kalbai) netinka bendrosios Unikodo mažųjų ir didžiųjų raidžių formų atitinkamybės taisyklės. Unikode yra galimybė suformuluoti išimtis iš taisyklių. Šiuo atveju šios išimtys lietuvių kalbai (įdomumo dėlei galima pasakyti, kad kitokias atitinkamybių taisykles turi ir turkų kalba) buvo suformuluotos ISO dokumente L2/01-191R, kurį parengė Švedijos atstovas Kent Karlsson ir Vladas Tumasonis. Šis dokumentas yra pateiktas 2 priede. Tai yra pasiūlymas atnaujinti Unikode duomenų bazės failą SpecialCasing.txt. Teksto apdorojimo programų autoriai, realizuodami funkciją gauti raidės didžiąja formą ir gauti raidės mažąją formą kaip tik ir naudojasi šiuo failu. Įtraukus į jį lietuvių kalbos kirčiuotų raidžių savybes, bus galima jomis ir naudotis. Tai labai vertingas kalbinis servisas.

     

    4.1.2. Kirčiuotų raidžių vaizdavimas (vizualizavimas) Word'e

     

    Buvo patyrinėtos kelios tekstų apdorojimo programos. Ne visos jos palaiko 1-jį lygį, o jei ir palaiko, tai nelabai kokybiškai. Automatinis vieno ženklo vaizdo iš dviejų ženklų sukūrimas (raidės vizualizavimas) yra pakankamai sudėtinga problema. MS Word 2000 palaiko 1-jį lygį, tačiau gaunamas vaizdas (angliškai tai vadinama rendering) gana prastas („vėjas pučia“). Žemiau pateikti pavyzdžiai tai rodo (kompozicinės raidės pirmame pavyzdyje yra tamsiame fone). Kompozicinės sekos buvo įvestos, panaudojant Insert Symbol.

     

    Arial 12

     

    à è ì ò ù                                                          à è Ì ò ù

     

    á é í ý ó ú ą́ ę́ ė́ į́ ų́ ū́                          á é Í ý ó ú Ą́ Ę́ Ė́ Į́ Ų́ Ū́

     

    ã ẽ ĩ ỹ j̃ l̃ m̃ ñ õ r̃ ũ ą̃ ę̃ ė̃ į̃ ų̃ ū̃                         ã Ẽ Ĩ Ỹ J̃ L̃ M̃ Ñ Õ R̃ Ũ Ą̃ Ę̃ Ė̃ Į̃ Ų̃ Ū̃

     

     

    Arial 12 Bold

     

    à è ì ò ù                                                          à è Ì ò ù

     

    á é í ý ó ú ą́ ę́ ė́ į́ ų́ ū́                                    á é Í ý ó ú Ą́ Ę́ Ė́ Į́ Ų́ Ū́

     

    ã ẽ ĩ ỹ j̃ l̃ m̃ ñ õ r̃ ũ ą̃ ę̃ ė̃ į̃ ų̃ ū̃         ã Ẽ Ĩ Ỹ J̃ L̃ M̃ Ñ Õ R̃ Ũ Ą̃ Ę̃ Ė̃ Į̃ Ų̃ Ū̃

     

     

    Arial 12 Italic

     

    à è ì ò ù                                                          à è Ì ò ù

     

    á é í ý ó ú ą́ ę́ ė́ į́ ų́ ū́                         á é Í ý ó ú Ą́ Ę́ Ė́ Į́ Ų́ Ū́

     

    ã ẽ ĩ ỹ j̃ l̃ m̃ ñ õ r̃ ũ ą̃ ę̃ ė̃ į̃ ų̃ ū̃           ã Ẽ Ĩ Ỹ J̃ L̃ M̃ Ñ Õ R̃ Ũ Ą̃ Ę̃ Ė̃ Į̃ Ų̃ Ū̃

     

    Arial 14

     

    à è ì ò ù                                            à è Ì ò ù

     

    á é í ý ó ú ą́ ę́ ė́ į́ ų́ ū́                        á é Í ý ó ú Ą́ Ę́ Ė́ Į́ Ų́ Ū́

     

    ã ẽ ĩ ỹ j̃ l̃ m̃ ñ õ r̃ ũ ą̃ ę̃ ė̃ į̃ ų̃ ū̃           ã Ẽ Ĩ Ỹ J̃ L̃ M̃ Ñ Õ R̃ Ũ Ą̃ Ę̃ Ė̃ Į̃ Ų̃ Ū̃

     

    Arial 20

     

    à è ì ò ù                        à è Ì ò ù

     

    á é í ý ó ú ą́ ę́ ė́ į́ ų́ ū́     á é Í ý ó ú Ą́ Ę́ Ė́ Į́ Ų́ Ū́

     

    ã ẽ ĩ ỹ j̃ l̃ m̃ ñ õ r̃ ũ ą̃ ę̃ ė̃ į̃ ų̃ ū̃

    ã Ẽ Ĩ Ỹ J̃ L̃ M̃ Ñ Õ R̃ Ũ Ą̃ Ę̃ Ė̃ Į̃ Ų̃ Ū̃

     

     

    4.1.3. Kirčiuotų raidžių vaizdavimas (vizualizavimas) internete

     

    Nepakankamai kokybiškai formuoja kompozicinių raidžių vaizdus ir pagrindinės interneto naršyklės. Verta pastebėti, kad skirtingos naršyklės skirtingai ir vaizduoja. Faile „LithUSIhtm.txt“ (žr. 3 priedą) pateiktas documentas HTML kalba, kuriame reikiamu būdu aprašytos visos kirčiuotos raidės. kompozicinės sekos. Jis buvo tikrintas su Netscape 4.7 ir su Internet Explor 5.5 naršyklėmis Vizualizavimo rezultatai pateikti faile „LithUSI.htm“ (žr. 4 priedą).. Faile „LithUSI.txt“ pateiktas tekstinis dokumentas su kirčiuotomis raidėmis, skirtas tekstų apdorojimo programai Notepad (žr. 5 priedą). Suformuoti vaizdai irgi nėra kokybiški.

    Kaip matosi iš pateiktų testų, automatinis kirčiuotų raidžių vaizdo formavimas neatsižvelgia į kai kurias ypatybes. Pavyzdžiui, dešininio kirtis mažosioms ir didžiosioms raidėms piešiamas tame pačiame aukštyje. Gaunasi, kad mažosioms raidėms jis yra per aukštai. Pagaliau ir jo „horizontali“ padėtis pagrindinės raidės atžvilgiu turėtų būti skirtinga (žr. raides Į ir Ū su dešiniaisiais kirčiais). Dar vienas pavyzdys: raidžių Ė ir Ū riestinis kirtis susilieja su tašku ir brūkšniu.

    Manytume, kad vienas iš galimų būdų kurti kokybiškus raidžių vaizdus iš kelių dalių yra vadinamosios OpenType technologijos panaudojimas. Ši technologija taikoma kompleksinių kalbų (kai raidės vaizdas priklauso nuo gretimų raidžių, t.y. konteksto) šriftams kurti. Mūsų atveju, kirčio „pripaišymas“ priklausytų nuo to, kuri raidė yra kirčiuojama.

     

     

    4.2. Kirčiuotų raidžių kodavimas, panaudojant PUA

     

    Kaip matėme 3.1 skyr., automatinis vaizdo generavimas yra nepatenkinamas. Galimas dar vienas problemos sprendimo būdas, panaudojant vadinamąją privačią sritį (PUA – Private Use Area). PUA sritis skirta vartotojams savo ženklams išdėstyti. Šios srities statusas yra visiškai privatus: negalima naudotis jokiu standartiniu lingvistiniu servisu, pvz., ženklų rikiavimu. PUA sritis yra nuo U+E000 iki U+F8FF.

    Žemiau siūlomas kirčiuotų raidžių, neturinčių Unocode kodų, kodavimo variantas PUA srityje.

     

    Nr.

    Raidė

    Pavadinimas

    Kodas (PUA)

    Pavadinimas pagal Unicode

    1

    Didžioji raidė Ą su dešininiu kirčiu

    E000

    LATIN CAPITAL LETTER A WITH OGONEK + COMBINING ACUTE ACCENT

    2

    Didžioji raidė Ą su riestiniu kirčiu

    E002

    LATIN CAPITAL LETTER A WITH OGONEK + COMBINING TILDE

    3

    Mažoji raidė ą su dešininiu kirčiu

    E001

    LATIN SMALL LETTER A WITH OGONEK + COMBINING ACUTE ACCENT

    4

    Mažoji raidė ą su riestiniu kirčiu

    E003

    LATIN SMALL LETTER A WITH OGONEK + COMBINING TILDE

    5

    Didžioji raidė Ę su dešininiu kirčiu

    E006

    LATIN CAPITAL LETTER E WITH OGONEK + COMBINING ACUTE ACCENT

    6

    Didžioji raidė Ę su riestiniu kirčiu

    E008

    LATIN CAPITAL LETTER E WITH OGONEK + COMBINING TILDE

    7

    Didžioji raidė Ė su dešininiu kirčiu

    E00A

    LATIN CAPITAL LETTER E WITH DOT ABOVE + COMBINING ACUTE ACCENT

    8

    Didžioji raidė Ė su riestiniu kirčiu

    E00C

    LATIN CAPITAL LETTER E WITH DOT ABOVE + COMBINING TILDE

    9

    Mažoji raidė ę su dešininiu kirčiu

    E007

    LATIN SMALL LETTER E WITH OGONEK + COMBINING ACUTE ACCENT

    10

    Mažoji raidė ę su riestiniu kirčiu

    E009

    LATIN SMALL LETTER E WITH OGONEK + COMBINING TILDE

    11

    Mažoji raidė ė su dešininiu kirčiu

    E00B

    LATIN SMALL LETTER E WITH DOT ABOVE + COMBINING ACUTE ACCENT

    12

    Mažoji raidė ė su riestiniu kirčiu

    E00D

    LATIN SMALL LETTER E WITH DOT ABOVE + COMBINING TILDE

    13

    Didžioji raidė Į su dešininiu kirčiu

    E011

    LATIN CAPITAL LETTER I WITH OGONEK + COMBINING ACUTE ACCENT

    14

    Didžioji raidė Į su riestiniu kirčiu

    E013

    LATIN CAPITAL LETTER I WITH OGONEK + COMBINING TILDE

    15

    Mažoji raidė i su kairiniu kirčiu

    E00E

    LATIN SMALL LETTER I + COMBINING GRAVE ACCENT

    LATIN SMALL LETTER I + COMBINING DOT ABOVE + COMBINING GRAVE ACCENT

    16

    Mažoji raidė i su dešininiu kirčiu

    E00F

    LATIN SMALL LETTER I + COMBINING ACUTE ACCENT

    LATIN SMALL LETTER I + COMBINING DOT ABOVE + COMBINING ACUTE ACCENT

    17

    Mažoji raidė i su riestiniu kirčiu

    E010

    LATIN SMALL LETTER I + COMBINING TILDE

    LATIN SMALL LETTER I + COMBINING DOT ABOVE + COMBINING TILDE

    18

    Mažoji raidė į su dešininiu kirčiu

    E012

    LATIN SMALL LETTER I WITH OGONEK + COMBINING ACUTE ACCENT

    LATIN SMALL LETTER I WITH OGONEK + COMBINING DOT ABOVE + COMBINING ACUTE ACCENT

    19

    Mažoji raidė į su riestiniu kirčiu

    E014

    LATIN SMALL LETTER I WITH OGONEK + COMBINING TILDE

    LATIN SMALL LETTER I WITH OGONEK + COMBINING DOT ABOVE + COMBINING TILDE

    20

    Didžioji raidė J su riestiniu kirčiu

    E025

    LATIN CAPITAL LETTER J + COMBINING TILDE

    21

    Mažoji raidė j su riestiniu kirčiu

    E026

    LATIN SMALL LETTER J + COMBINING TILDE

    22

    Didžioji raidė L su riestiniu kirčiu

    E017

    LATIN CAPITAL LETTER L + COMBINING TILDE

    23

    Mažoji raidė l su riestiniu kirčiu

    E018

    LATIN SMALL LETTER L + COMBINING TILDE

    24

    Didžioji raidė M su riestiniu kirčiu

    E019

    LATIN CAPITAL LETTER M + COMBINING TILDE

    25

    Mažoji raidė m su riestiniu kirčiu

    E01A

    LATIN SMALL LETTER M + COMBINING TILDE

    26

    Didžioji raidė R su riestiniu kirčiu

    E01B

    LATIN CAPITAL LETTER R + COMBINING TILDE

    27

    Mažoji raidė r su riestiniu kirčiu

    E01C

    LATIN SMALL LETTER R + COMBINING TILDE

    28

    Didžioji raidė Ų su dešininiu kirčiu

    E01D

    LATIN CAPITAL LETTER U WITH OGONEK + COMBINING ACUTE ACCENT

    29

    Didžioji raidė Ų su riestiniu kirčiu

    E01F

    LATIN CAPITAL LETTER U WITH OGONEK + COMBINING TILDE

    30

    Didžioji raidė Ū su dešininiu kirčiu

    E021

    LATIN CAPITAL LETTER U WITH MACRON + COMBINING ACUTE ACCENT

    31

    Didžioji raidė Ū su riestiniu kirčiu

    E023

    LATIN CAPITAL LETTER U WITH MACRON + COMBINING TILDE

    32

    Mažoji raidė ų su dešininiu kirčiu

    E01E

    LATIN SMALL LETTER U WITH OGONEK + COMBINING ACUTE ACCENT

    33

    Mažoji raidė ų su riestiniu kirčiu

    E020

    LATIN SMALL LETTER U WITH OGONEK + COMBINING TILDE

    34

    Mažoji raidė ū su dešininiu kirčiu

    E022

    LATIN SMALL LETTER U WITH MACRON + COMBINING ACUTE ACCENT

    35

    Mažoji raidė ū su riestiniu kirčiu

    E024

    LATIN SMALL LETTER U WITH MACRON + COMBINING TILDE

     

    PUA kodų paskirstymas turėtų būti įteisintas Lietuvos standartu.

     

     Buvo eksperimentinis šriftas, kuriame lietuviškos kirčiuotos raidės turėjo pateiktus PUA šriftus. Testavimo rezultatai parodė, kad gaunasi įprasti raidžių vaizdai, nesugadinti jokių automatinių komponavimo algoritmų.

     

    Ryšium su raidžių kodavimu PUA srityje iškyla vadinamojo kalbinio serviso problema. Panagrinėkime, pavyzdžiui, raidžių rikiavimą. Atsiradus iš esmės naujoms raidėms, reikia vienareikšmiškai apibrėžti jų eilę ar tvarką (tai ir apsprendžia žodžių rikiavimą).

    Lietuvių kalba turi keletą „vienodų“ rikiavimo prasme raidžių. Pavyzdžiui, raidė A ir raidė A-nosinė yra vienodos. Tačiau realiai vistiek reikia apibrėžti, kuri yra „pirmesnė“. Tai reikalinga kad ir žodynuose, telefonų knygose ir pan. Todėl įvedamas antrasis rikiavimo lygmuo raidėms, kurios yra lygios pirmojo lygmens požiūriu. Pagal antrąjį lygmenį raidė A yra pirmesnė už raidę A-nosinė.

    Kirčio ženklai savo ruožtu įveda naują rikiavimo lygmenį. Laikoma, kad jų tvarka tokia: kairinio kirčio ženklas, dešininio kirčio ženklas ir riestinio kirčio ženklas. Taigi, pavyzdžiui, raidė „A su kairiniu kirčiu“ yra pirmesnė už  „A su riestiniu kirčiu“.

    Panaši problema šiuo atveju yra ir su funkcija uppercase. Reikia deklaruoti, kad, pavyzdžiui, raidei „mažoji raidė r su riestiniu kirčiu“ (kodas E01C) atitinka „didžioji raidė R su riestiniu kirčiu“ (E01B).

     

     

    5. Kirčiuotų raidžių įvedimas (klaviatūros tvarkyklės metmenys)

     

    Kaip žinoma, vienas iš tinkamiausių būdų įvesti kirčiuotas raides (faktiškai raides su diakritiniais ženklais) yra „mirusio ženklo“ metodas. Deklaruojami tokiais trys kirčio ženklai (kairinis kirtis, dešininis kirtis ir riestinis kirtis), kurie, beje, yra lietuviškoje standartinėje klaviatūroje. Žr. pateiktą klaviatūros grafinių ženklų išdėstymą.

     

     

    Tada kirčiuota raidė įvedama, panaudojant reikiamą klavišų kombinaciją. Pvz., „a-nosinė su dešininiu kirčiu“ įvedama, nuspaudus klavišą su „mirusiu“ ženklu „dešininis kirtis“ ir klavišą su „a-nosine“.

    Žemiau pateikiamas standartinės lietuviškos (pagal Lietuvos standartą LST 1582) ir išplėstinės (su kirčiuotomis raidėmis) klaviatūrų funkcinis ženklų išdėstymas, palyginant jį su amerikine klaviatūra. Taip paprastai daroma, pristatant nacionalines klaviatūras Europoje. Teikiamas būdas yra pagrindas būsimai išplėstinės klaviatūros tvarkyklei sukurti, naudojant kodavimą PUA srityje.

     

    5.1. Standartinės lietuviškos klaviatūros ženklai

     

    Unikodo kodai pateikti tik ten, kur lietuviška klaviatūra skiriasi nuo amerikinės (English (United States)). K_oE2 nurodo 102 klavišą (kartais jis vadinamas 48-uoju klavišu) Europinėse klaviatūrose.

     

    Lygis 1

    Lygis 2 (Shift)

    Lygis 3 (AltGr)

    US

    LT

    Unicode

    US

    LT

    Unicode

    US

    LT

    Unicode

    `

    `

     

    ~

    ~

     

     

    ´

    U+00b4

    1

    !

    U+0021

    !

    1

    U+0031

     

    @

    U+0040

    2

    -

    U+002d

    @

    2

    U+0032

     

    _

    U+005f

    3

    /

    U+002f

    #

    3

    U+0033

     

    #

    U+0023

    4

    ;

    U+003b

    $

    4

    U+0034

     

    $

    U+0024

    5

    :

    U+003a

    %

    5

    U+0035

     

    §

    U+00a7

    6

    ,

    U+002c

    ^

    6

    U+0036

     

    ^

    U+005e

    7

    .

    U+002e

    &

    7

    U+0037

     

    &

    U+0026

    8

    =

    U+003d

    *

    8

    U+0038

     

    *

    U+002a

    9

    (

    U+0028

    (

    9

    U+0039

     

    [

    U+005b

    0

    )

    U+0029

    )

    0

    U+0030

     

    ]

    U+005d

    -

    ?

    U+003f

    _

    +

    U+002b

     

    '

    U+0027

    =

    x

    U+0078

    +

    X

    U+0058

     

    %

    U+0025

    q

    ą

    U+0105

    Q

    Ą

    U+0104

     

     

     

    w

    ž

    U+017e

    W

    Ž

    U+017d

     

     

     

    e

    e

     

    E

    E

     

     

    U+20ac

    r

    r

     

    R

    R

     

     

     

     

    t

    t

     

    T

    T

     

     

     

     

    y

    y

     

    Y

    Y

     

     

     

     

    u

    u

     

    U

    U

     

     

     

     

    i

    I

     

    I

    I

     

     

     

     

    o

    o

     

    O

    O

     

     

     

     

    p

    p

     

    P

    P

     

     

     

     

    [

    į

    U+012f

    {

    Į

    U+012e

     

    {

    U+007b

    ]

    w

    U+0077

    }

    W

    U+0057

     

    }

    U+007d

    a

    a

     

    A

    A

     

     

     

     

    s

    s

     

    S

    S

     

     

     

     

    d

    d

     

    D

    D

     

     

     

     

    f

    š

    U+0161

    F

    Š

    U+0160

     

     

     

    g

    g

     

    G

    G

     

     

     

     

    h

    h

     

    H

    H

     

     

     

     

    j

    j

     

    J

    J

     

     

     

     

    k

    k

     

    K

    K

     

     

     

     

    l

    l

     

    L

    L

     

     

     

     

    ;

    ų

    U+0173

    :

    Ų

    U+0172

     

     

     

    '

    ė

    U+0117

    "

    Ė

    U+0116

     

    "

    U+0022

    \

    q

    U+0071

    |

    Q

    U+0051

     

    |

    U+007c

    z

    z

     

    Z

    Z

     

     

     

     

    x

    ū

    U+016b

    X

    Ū

    U+016a

     

     

     

    c

    c

     

    C

    C

     

     

     

     

    v

    v

     

    V

    V

     

     

     

     

    b

    b

     

    B

    B

     

     

     

     

    n

    n

     

    N

    N

     

     

     

     

    m

    m

     

    M

    M

     

     

     

     

    ,

    č

    U+010d

    <

    Č

    U+010c

     

    U+201e

    .

    f

    U+0066

    >

    F

    U+0046

     

    U+201c

    /

    ę

    U+0119

    ?

    Ę

    U+0118

     

    \

    U+005c

    K_oE2

    <

    U+003c

     

    >

    U+003e

     

    U+2013

     

     

    5.2. Išplėstinė lietuviška klaviatūra

     

    Turi papildomai galimybę įvesti visas lietuviškas kirčiuotas raides. Raidėms, neturinčioms Unikodo kodų, priskirtas reikšmes iš Privačiosios srities PUA (pradedant nuo U+E000) arba išreikštos USI (Unique UCS Sequence) sekomis (žr. ankstesnius skyrius). Pateikiamoje lentelėje kairinio kirčio ženklas pavadintas grave, dešininio – acute, o riestinio – tilde. Tai irgi yra duoklė būsimam nacionalinės klaviatūros pristatymui ir registracijai Europos klaviatūrų registre.

     

    Kombinacija

    US

    LT

    Unicode, PUA

    Kombinacija

    US

    LT

    Unicode, PUA

    grave + a

     

    à

    U+00E0

    grave + A

     

    À

    U+00C0

    grave + e

     

    è

    U+00E8

    grave + E

     

    È

    U+00C8

    grave + i

     

    *

    U+E00E

    grave + I

     

    Ì

    U+00CC

    grave + o

     

    ò

    U+00F2

    grave + O

     

    Ò

    U+00D2

    grave + u

     

    ù

    U+00F9

    grave + U

     

    Ù

    U+00D9

    acute + a

     

    á

    U+00E1

    acute + A

     

    Á

    U+00C1

    acute + e

     

    é

    U+00E9

    acute + E

     

    É

    U+00C9

    acute + i

     

    *

    U+E00F

    acute + I

     

    Í

    U+00CD

    acute + y

     

    ý

    U+00FD

    acute + Y

     

    Ý

    U+00DD

    acute + o

     

    ó

    U+00F3

    acute + O

     

    Ó

    U+00D3

    acute + u

     

    ú

    U+00FA

    acute + U

     

    Ú

    U+00DA

    acute + ą

    q

    *

    U+E001

    acute + Ą

    Q

    U+E000

    acute + ę

    /

    *

    U+E007

    acute + Ę

    ?

    U+E006

    acute + ė

    '

    U+E00B

    acute + Ė

    "

    U+E00A

    acute + į

    [

    U+E012

    acute + Į

    {

    U+E011

    acute + ų

    ;

    U+E01E

    acute + Ų

    :

    U+E01D

    acute + ū

    x

    U+E022

    acute + Ū

    X

    U+E021

    tilde + a

     

    ã

    U+00E3

    tilde + A

     

    Ã

    U+00C3

    tilde + e

     

    U+1EBD

    tilde + E

     

    U+1EBC

    tilde + i

     

    U+E010

    tilde + I

     

    Ĩ

    U+0128

    tilde + y

     

    U+1EF9

    tilde + Y

     

    U+1EF8

    tilde + j

     

    U+E026

    tilde + J

     

    U+E025

    tilde + l

     

    U+E018

    tilde + L

     

    U+E017

    tilde + m

     

    U+E01A

    tilde + M

     

    U+E019

    tilde + n

     

    ñ

    U+00F1

    tilde + N

     

    Ñ

    U+00D1

    tilde + o

     

    õ

    U+00F5

    tilde + O

     

    Õ

    U+00D5

    tilde + r

     

    U+E01C

    tilde + R

     

    U+E01B

    tilde + u

     

    ũ

    U+0169

    tilde + U

     

    Ũ

    U+0168

    tilde + ą

    q

    U+E003

    tilde + Ą

    Q

    U+E002

    tilde + ę

    /

    U+E009

    tilde + Ę

    ?

    U+E008

    tilde + ė

    '

    U+E00D

    tilde + Ė

    "

    U+E00C

    tilde + į

    [

    U+E014

    tilde + Į

    {

    U+E013

    tilde + ų

    ;

    U+E020

    tilde + Ų

    :

    U+E01F

    tilde + ū

    x

    U+E024

    tilde + Ū

    X

    U+E023

     


    Literatūra

     

    1. V.Tumasonis. Encoding of Lithuanian Accented Letters. Proceedings of GLDV’99. Multilingual Corpora: Encoding, Structuring, Analysis. Frankfurtas prie Maino, P.15-20. 1999.

    2. LST 1564. Informacijos technologija. Ženklų kodavimas 8 bitais. Lietuviškų kirčiuotų raidžių rinkinys. 16 p

    3. LST 1590-2 Informacijos technologija. Ženklų kodavimas 8 bitais. Lietuviškų kirčiuotų raidžių ir fonetinių ženklų rinkinys DOS terpei.

    4. LST 1590-4. Informacijos technologija. Ženklų kodavimas 8 bitais. Lietuviškų kirčiuotų raidžių ir fonetinių ženklų rinkinys Windows  terpei.

    5. LST ISO/IEC 10646-1 Informacijos technologija. Universalus keliais baitais koduotų ženklų rinkinys. 1 dalis. Sandara ir pagrindinė daugiakalbė lentelė (tapatus ISO/IEC 10646-1:2000 Information technology – Universal Multiple-Octet Coded Character Set (UCS) – Part1: Architecture and Basic Multilingual Plane (BMP)).

    6. V.Tumasonis. Proposal to add Lithuanian accented letters to ISO/IEC10646-1 (ISO/IEC JTC1/SC2/WG2 N2075R dokumentas – oficialus pasiūlymas įtraukti lietuviškas kirčiuotas raides į tarptautinį standartą ISO/IEC 10646-1). Žr.:http://uosis.mif.vu.lt/katedros/informat/STAFF/tk4/lithacc/default.htm.

    7. Kent Karlsson, Vladas Tumasonis. Dotting the i’s (ISO/IEC JTC/SC2/WG2 dokumentas L2/01-191R – oficialus pasiūlymas atnaujinti Unikodo duomenų bazę, atsižvelgiant į lietuviškų raidžių ypatybes). Žr. 2 priedą..

    8. 10. LST 1582:2000. Informacijos technologija. Lietuviška kompiuterio klaviatūra. Ženklų išdėstymas



    [1] Standartas ISO/IEC 10646 yra Unicode viršaibis. Jis apibrėžia ženklų kodavimą 32 bitais (4 baitais). Visi Unicode ženklai yra standarte ISO/IEC 10646, visų jų kodų pirmieji 16 bitų lygūs nuliui, o kitų 16 bitų Unikodo kodai sutampa su ISO/IEC 10646 kodais. Todėl nėra esminių skirtumų tarp šių dviejų kodavimų. Unicode kuria Unicode konsorciumas, kuris nepriklauso Tarptautinei standartų organizacijai. Todėl Unicode nelaikomas tarptautiniu standartu. Tačiau abi organizacijos glaudžiai bendradarbiauja. Dėl to ženklų kodavimas standarte ISO/IEC 10646 ir Unicode yra suderintas