Mis on Kreutzwaldil pistmist keeletehnoloogiaga?

3. mai 2019 Kadri Vider Tartu ülikooli arvutiteaduse instituudi keeletehnoloogia teadur, Eesti keeleressursside keskuse tegevjuht - Kommenteeri artiklit
Kadri Vider.

Kas teate, et oma eestikeelse jutu saab suurema vaevata täitsa kobedaks eestikeelseks tekstiks teha? Või et kui pole endal mahti digiraamatut lugeda, võib selle ette lugeda eestikeelne sünteeskõne kasvõi lapsehäälega? Ja kuigi masintõlke tulemus jääb huumoriallikaks veel ilmselt aastateks, on võimalik juba praegu võrrelda vähemalt kolme tõlkesüsteemi tööd nii eesti-inglise kui ka inglise-eesti suunal.

Ühe väikse kõnelejaskonnaga kultuurkeele kohta polegi seda moodsas digimaailmas nii vähe! Ülalmainitud edevaid asju teeb keeletehnoloogia (language technology), mis rakendab inimkeele töötlemise (natural language processing ehk NLP) tehnikaid muu hulgas selleks, et arvuti ja teised nutikad seadmed suudaksid üha paremini ja loomulikumalt inimestega suhelda, neile infot otsida ja soovitusi jagada.

Ja selleks kõigeks peab arvuti oskama eesti keelt sama hästi kui inglise keelt. Keelereeglid, mida digitehnoloogiad „õpivad“, on veidi teistsugused kui koolis õpitavad, kuid tulemus peab ideaaljuhul olema sama ladus kui emakeelsel kõnelejal.

Ladusat eneseväljendust saavutada pole teps lihtne inimeselgi ja ega me ju peensusteni tea, kuidas ja millest täpselt mõjusad ja targad laused meie peades kokku pannakse. Samamoodi hakkab üha enam olema kiiresti arenevas tehisintellekti (artificial intelligence) maailmas, kus tehisnärvivõrkudel iseõppivad süsteemid suudavad üha loomulikumalt ja keerukamalt end mis tahes keeles ja vormis väljendada, kuid kirjeldada ja põhjendada iga üksiku lause moodustamise protsessi suudavad nad sama vähe kui keelt omandav laps. Samas sellisedki süsteemid, millele on ette antud nii tohutu sõnavara kui keeleteadlaste loodud ja programmeerijate ümberkirjutatud grammatikareeglid, teevad pealtnäha jaburaid vigu. Ning vead on ühe keeletehnoloogilise süsteemi arendamisel ja parandamisel kuldaväärt info.

Tahtmata kasutajaskonna ehk turu väiksusega välja vabandada küsimusi, miks eesti keelele või eesti keeles pole üht või teist keelel põhinevat nutirakendust, võib tunnustavalt välja tuua Eesti digiriigi panuse selles, et eesti keelel on paljude teiste väikeste keeltega võrreldes lootust siiski digiajastul ellu jääda. Sest eesti keeletehnoloogia arendamist toetatakse lausa riigieelarvest omaette teadus- ja arendusprogrammi kaudu. Ning kõik programmi tulemused on vabavara kasutamiseks ja edasiarendamiseks (kui muud piirangud, nagu autoriõigus või isikuandmete kaitse, seda ei takista).

Digitaalsed keeleandmestikud ehk keeleressursid

Tööpõhimõttest olenemata ei saa keeletehnoloogiline rakendus läbi eestikeelsete digitaalsete andmeteta. Keeletehnoloogia arendamiseks on hea iga bitike, mis sisaldab eesti keelt, kuid erinevalt inimesest ei suuda arvutiprogramm pildina digiteeritud käsikirjaleheküljelt eestikeelset teksti välja lugeda. Ka bittidena talletatud jutt võib automaatsel töötlemisel jääda tuvastamatuks helisignaaliks või müraks, kuigi eestikeelse kõnetuvastuse tulemus paraneb üha.

Seepärast pannakse rõhku ka digitaalse eesti keele andmestike kogumisele ja talletamisele Eesti keeleressursside keskuse juures.

Digitaalset keelevara ei vaja ainult keeletehnoloogilised süsteemid, hoopis tuntavamat kasu võib sel olla nii emakeelsetele huvilistele kui ka keeleõppijatele. Pean tunnistama, et ilukirjandust meeldib mulle endiselt lugeda paberilt, kuid näiteks sõnastikke, mis koosnevad sisuliselt andmetest, lappan juba ammu ainult digikujul. Eesti Keele Instituut on teinud selles osas tänuväärset tööd ja küllap vähemalt emakeeleõpetajatele on tuttavad nii e-keelenõu kui uus sõnavaraportaal Sõnaveeb.

Lisaks leksikograafide ja sõnavarauurijate hoolika töö tulemustele on aga hea olla kursis ka sellega, kuidas inimesed, meie kõik, oma emakeelt kasutame.

Jah, guugeldades („Eesti keele sõnaraamatus 2019“ on selline sõna täiesti olemas!) leiame näiteid sõnade rohkem või vähem korrektsetest esinemisvormidest nii ametlikes tekstides kui ka kommentaariumides. Kuid sel moel keelekasutuse kohta infot otsides jääb puudu kokkuvõtlik teadmine tendentsidest keeles – kes ja millises olukorras või millal või millise murdetaustaga üht või teist väljendit või konstruktsiooni kasutab. Abiks on digitaalsed teksti- ja helikorpused ja korpuslingvistika, millega tegelevad peamiselt Tartu ülikooli keeleteadlased. Keelehuvilisele inimesele julgen tekstikorpuste iseseisvaks uurimiseks soovitada Keeleveebi ja Eesti keeleressursside keskuse korpuste päringusüsteemi Korp. Korpist leiab lisaks tänapäevasele ajakirjanduse, ilukirjanduse, teaduskirjanduse, seadusandluse ja tarbetekstide keelele ja massiivsele eesti veebikorpusele ka rohkem kui sajandi lõikes (1890-ndatest alates) ilu- ja ajakirjanduse keelt. Keeleõppijale ja -õpetajale kulub marjaks ära ka õpikute korpus, milles keeleõpikute laused on märgendatud (annotated) vastavalt keeleoskustasemele.

Kui aga huvitab, kuidas inimesed päriselt üht või teist sõna hääldavad või häälikuid venitavad, tasub otsida helikorpuste ühispäringust.

Kuid eesti keele rikkus pole tallel vaid keeleteadlaste huvides. Eesti kirjandusmuuseumi rahvaluule ja kultuuriloo varadest on samuti suur osa juba digiteeritud andmestikuks tehtud. Folkloristide mitmekesised andmebaasid sisaldavad nii esivanemate pärandust kui ka tänapäevase rahvaluulekogumise varandust. Kirjandusõpetajad aga võiksid olla tuttavad portaaliga „Kreutzwaldi sajand“, kus on võimalik tutvuda nii eesti kirjanike digiteeritud algupäranditega kui uurida ka nende kultuuriloolist tausta.

Keelemängud

Küllap on eesti keele õpetajatel hulgaliselt teadmisi interaktiivsete õppevahendite kohta nii emakeelsetele kui ka muukeelsetele õppuritele.

Vahel on aga lihtsalt huvitav mängida keelega seotud interaktiivseid mänge või lõimida keeleõppesse keeletehnoloogiat ja -ressursse kasutavaid ülesandeid.

Näiteks arvutipõhise statistika õpe aitab arvuti abil elulisi probleeme lahendada, püüdes ühes õppemoodulis leida ka vastust küsimusele „Kui palju eesti keele sõnu ma tean?“. Uues moodulis „Kes mulle kirjutab?“, mis lähtub põhikooli ja gümnaasiumi eesti keele ja kirjanduse õppekava pädevustest ja on mõeldud toetama andmepõhist uurimuslikku mõtteviisi, saab uurida eesti keele sõnavara, tekstiliike ja stiile digitaalsete andmestike ehk sõnastike ja tekstikorpuste põhjal.

Eesti keeleressursside keskuse kodulehel on kohe eraldi alamleht „Keelemängud“, kuhu oleme aastate jooksul linkinud teadmist toredate ja sageli ka keeleõppimist toetavate mängude kohta. Minu enda lemmikuid on sõnaseletusmäng, mis kasutab ära eesti Wordneti andmeid (ehk enam kui 86 000 eestikeelset mõistet!) ja üritab nii sünonüümide, sõnaseletuste kui lünknäidete abiga vihjata mõnele sõnale, järgides enam-vähem sarnaseid mängureegleid nagu kuulsas „Aliases“. Mängija saab valida sõnade raskusastet, kuid seletatavate sõnade loendit ette anda ei ole võimalik ja seega sobib mäng pigem hasartseks avastamiseks kui kontrollitud keeleõppeks.

Koolis kasutamiseks kõlblik tundub olevat ka 2016. aastal tudengitööna valminud käändeõppemäng, mille abil saab kontrollida nii eesti keele käänete nimetuste tundmist kui ka oma oskust sõnu vastavat viisi käänata. Laused selle mängu jaoks on võetud peamiselt ilukirjanduskorpusest.

Mõneti keeletehnoloogilise rakendusena, kuid peamiselt uudse õppevõimalusena võib käsitada ka Eesti Keele Instituudis valminud viipekeele sõnastiku põhjal loodud eesti viipekeele õppeprogrammi.

Saami keeltele keeletehnoloogiat arendavas Tromsø ülikooli Giellatekno uurimisrühmas on loodud väikeste soome-ugri keelte õppimiseks portaal
oahpa.no, milles automaatseid keeletöötluse vahendeid kasutades antakse õppuritele tagasisidet sõnade, morfoloogia ja grammatika tundmise kohta. Teiste hulgas saab edendada oma võru keele oskust, harjutades käänamist ja pööramist (ka lausetes) ning sõnade tõlkimist eesti keelde ja vastupidi.

Ja lõpetuseks: ma ei bluffinud loo alguses. Kõne teevad tekstiks TTÜ kõnetehnoloogia laboris loodud rakendused, nagu Dikteeri! ja Kõnele!. Teksti loevad ette Eesti Keele Instituudis loodud sünteeshääled ja tõlkesüsteemide headust saab hinnata ja võrrelda TÜ neurotõlkemasina veebilehel.


Klikka, tutvu, kasuta


Kirjuta kommentaar

Õpetajate Lehel on õigus avaldada teie kirjutatud kommentaar paberväljaandes. Kommentaari pikkus ei tohi ületada 3000 tähemärki. Õpetajate Lehe kodulehe kommentaarid on modereeritavad ja avaldatakse pärast toimetamist hiljemalt kommentaari saatmisele järgneva tööpäeva hommikuks. Lehel on õigus jätta saadetud kommentaar kodulehel avaldamata. Iga kommentaari edastaja arvuti IP-aadress, sessiooni identifikaator ja kommenteerimise aeg salvestatakse andmebaasis. Õpetajate Leht ei vastuta kommentaaride sisu eest!