Kas keeletehnoloogia toetab piisavalt eesti keele õppimist?

15. nov. 2019 Raivo Juurak toimetaja - Kommenteeri artiklit
Soomeugri keelte masintõlke võimalusi tutvustasid konverentsil „Prototüübist teostuseni“ Niko Partanen, Jack Rueter Helsingi ülikoolist ning Sulev Iva ja Andre Tättar Tartu ülikoolist. Fotod: Raivo Juurak

Speller parandab meil tähevigu, e-sõnaraamat aitab leida vajalikke sõnu, digiõpikud loevad tekste ette. Kas siit saab veel edasi minna?

Edasiminekuvõimalustest räägiti 5. novembril Tallinnas Telliskivi loomelinnakus keeletehnoloogide konverentsil „Prototüübist teostuseni“. Selgus, et ühelt poolt on võimalusi juurde tulnud ja neid on juba kasutusele ka võetud, teisalt on aga vana hea Google mõneski asjas meist veel ees ja küsimus eesti keele eksistentsi kindlustamisest digimaailmas pole kaugeltki päevakorrast maas.

Lauseehituse kontrollija

Spellerist on palju abi nii õpilastel kui ka õpetajatel, kuid praeguseni pole meil eesti keeles veel korralikku lauseparandajat. Inglise keeles annab arvuti kirjutajale ka lause osas nõu, märkides, et lause on liiga pikk, sõnastus keeruline, sõnakordust üleliia jms. Eesti keele jaoks niisugust lausekontrollijat alles tehakse. Konverentsil „Prototüübist teostuseni“ märkisid Tartu ülikooli keeletehnoloogid Kaili Müürisep ja Heiki-Jaan Kaalep, et ollakse prototüübi väljatöötamise faasis. Neil on taanlaste vabavara, millele pannakse praegu eesti keelt peale. Komade puudumisele osutab prototüüp juba hästi. Kui „sest“ ees koma puudub, tõmbab masin sinna kohta joone alla. „Tahan minema“ asemele kirjutab ta „tahan minna“. Aga palju on veel teha.

Kas õpilase kirjandi saaks selle programmiga üle vaadata? Kaili Müürisepa arvates ei saa kirjandit selle programmiga üldse hinnata, sest jutu sisust ei tea masin ju midagi. Kuid seos kirjandiga programmil siiski on – eesti keele lauseid on sinna kogutud eesti ja vene õpilaste lõpukirjanditest.

Kas lausekontrollija parandab ära suure ja väikse algustähe vead? Näiteks raamatute pealkirjad, firmanimed jne. Veel mitte. Heiki-Jaan Kaalep märgib, et töö praeguses etapis huvitavad neid õpilaste vigased laused õigetest isegi rohkem, sest vigadega lausete korpus pole veel piisavalt suur. Praegu kasutab nende lausekontrolli prototüüp 9000 lauset, aga inglise keele väikese lausekontrollija jaoks on kogutud üle 45 000 lause.

Kas lausekontrollija kantseliiti parandab? Tartu ülikoolis on kirjutatud bakalaureusetöö, mis uurib kantseliidi äratundmise ja parandamise võimalusi. Tundub olevat võimatu idee, sest salvestada tuleks meeletult palju kantseliitlikke lauseid ning linkida need korrektsete lausetega.

Vox Populi loeb teile tekstid ette

Kes veel ei ta, siis eesti keele instituudi Sõnaveeb ja Vox Populi loevad tekste ette (sonaveeb.eki.ee/). Sõnaveeb ei piirdu üksikute sõnade hääldamisega, vaid loeb ette ka näidislauseid, kuhu see sõna sobib. Tipid sisse „puu“ ja arvuti ütleb selge häälega: „Ahvid elavad puu otsas“, „Päike loojus puude taha“ jms.

Eesti keele instituudi tekstihelindaja (eki.ee/heli/). Valige hääl, mis hakkab teile õppetükki ette lugema!

Konverentsil demonstreeriti, kuidas inimene saab ise valida, kas talle loeb teksti ette mees või naine, vanur või laps. Valida saab seitsme hääle vahel ja igal häälel on oma nimi: Eva, Tõnu, Lee jt. Kihnu naiselt saab ka ettelugemist tellida (eki.ee/heli/).

Kust need hääled saadud on? Kõik hääled on sisse loetud. Näiteks meeshääl Meelis on lugenud sisse 21 tundi ilukirjandust ja lisaks paar tundi arvamusartikleid ja üksiksõnu, 9-aastane tüdruk Lee on lugenud sisse kolm tundi, peamiselt „Pipit“ ja „Sipsikut“. Üldse on tekste sisse lugenud viis mees- ja kuus naishäält. EKI vanemteadur Liisi Piits nimetas sisselugejaid kõnedoonoriteks. Väike üllatus on ka selle tööga ette tulnud. Nimelt märkis üks taimetoitlasest kõnedoonor, et tema hääl ei tohi lihatööstuse reklaame ette lugeda. Liisi Piits ennustas, et kõnesünteesi hakatakse kasutama üha rohkem, sest näiteks tema uus tolmuimeja räägib talle juba ligi 70 asjast.

Mida on õpetajal siit teadmiseks võtta? Võib-olla seda, et Vox Populi (https://heliraamat.eki.ee/) loeb ka õpetaja enda kirjutatud tekste ja isegi terveid raamatuid ette. Tänu sellele saab eesti keele õppija lugedes kuulata, kuidas tema loetud sõnu hääldatakse. Teiseks saab aeglane lugeja pikemaid tekste lihtsalt kuulata. Lugema õppijatele peaks see sobima.

Sina räägid, telefon paneb kirja

Inglise keeles on juba võimalik nutitelefonile suuliselt korraldusi anda, näiteks lisada kalendrisse kirjeid, otsida infot, kirjutada SMS-e jms. Seda võimaldavad programmid iOSi Siri, Androidi Google Now, Windows Phone’i Cortana. Tehnikaülikooli vanemteadur Tanel Alumäe rääkis konverentsil „Prototüübist teostuseni“ eestikeelse kõne tekstiks muutmise programmist.

TalTechi keeletehnoloogid on olnud kõnetuvastuse vallas edukad. Näiteks on nad riigikogu kõnesid ja sõnavõtte arvutiprogrammi abil kiiresti tekstiks muutnud. Ahto Saks riigikogu kantseleist ütles, et praegu salvestatakse neil arutelud helifailidena. Eelmisel aastal katsetati TalTechi kõnetuvastusprogrammi ja selle tööga jäädi rahule. Novembris alustati riigikogus kõnetuvastusprogrammi täistestimist. „Järgmisel aastal võtame selle kasutusele, see on kindel,“ ütles Ahto Saks. Riigikogu sõnavõtte on salvestatud juba üle tuhande tunni.

Õpetajaid muidugi rõõmustaks, kui selline masin õpilaste suulised vastused kiiresti üles kirjutaks, sest tekstis on lihtne vigu punasega alla joonida, tekstist leiab otsimootoriga kiiresti vajalikke nimesid ja märksõnu üles, teksti on lihtne masina abil mõnda teise keelde tõlkida jne.

Tundides peetud huvitavad arutelud ja sõnavõtud oleks samuti tore automaatselt kirja saada. Õpetajate nõupidamistel pole protokollijat vajagi! Ja milline vaev on oma spontaanset suulist ettekannet hiljem paberile kirja panna. Siin saab samuti kõnetuvastus appi tulla. Tipid veebi „tekstiks.ee“ ja saadad oma kõne helifaili teele. Tunni aja pärast saad selle tekstina tagasi.

Aga mis kvaliteediga? Tegin proovi ja saatsin ühe õpetajaga tehtud intervjuu helifaili transkribeerimisele. Võiks öelda, et masin kuulas õpetajat liigagi tähelepanelikult. Näiteks ütles õpetaja „sinna sisse käib“ liiga pehme s-iga ja masin kirjutas „hinna sisse käib“. „Klassi“ asemel kirjutas masin „klaiss“, sest õpetaja palataliseeris tugevalt s-i. Ühesõnaga – kõnetuvastus näitab meile meie hääldusvigu.

Kas võib juhtuda, et inimesed hakkavad eesti keelt palju selgemalt hääldama, kui tahavad, et masin nendest aru saaks ja nende jutu õigesti kirja paneks? Kas laseme õpilastel oma kirjandid ette jutustada? Siis võime ehk kuulda tõeliselt ilusat eesti keelt?

Ilmselt läheb pigem nii, et masin hakkab õpilase kõnet parandama ja ilustama. Näiteks minu helifailis ütles õpetaja paar korda „mh-mh“, aga masin kirjutas selle üles „jah-jah“.

Koosolekul kuuldu tekstiks muutmisega ollakse siiski veel poolel teel. Praegu on salvestuse ajal koosolekulaua keskel üks mikrofon ja lisaks on igal kõnelejal isiklik mikrofon, et samaaegselt räägitud kõnest aru saada. Nii luuakse koosolekute kõnekorpust. Kaheksa koosolekut on salvestatud, aga asi edeneb aeglaselt, sest organisatsioonid ei luba oma koosolekute sisu avalikkuse huvides kasutada. Edaspidi tahetakse jõuda selleni, et piisab laua keskel olevast mikrofonist.

Kas arvuti tunneb kõneleja ka ära? Tanel Alumäe ütles, et TalTechi kõnetuvastaja tunneb ära kõik „Päevakaja“ diktorid ja intervjueeritavad, kokku ligi kaks tuhat inimest, sest „Päevakaja“ saateid on pikalt salvestatud ja transkribeeritud. Eksimusi on ainult 5% ringis, näiteks ükskord osutus poliitik Raivo Aeg teda intervjueerinud ajakirjanikuks (hääl saalist: „Poliitikult varastati tema identiteet!“).

Tanel Alumäe tõi välja, et veel on vähe salvestatud seenioride hääli, mis on teatavasti tavalisest kähedamad või kimedamad, ja neid on raskem tuvastata. Kavas on koguda 200 seeniorilt 20 minutit kõnet. Tänaseks on kogutud 80 seeniori häält.

Aga telefonikõnede tekstina salvestamine? Selleks on vaja telefonikõnede korpust. TalTech on salvestanud raadiosaadetesse helistajate kõnesid. USA-s on inimestele makstud, kui nad on lubanud oma sõpradega peetud telefonivestlusi salvestada.

Kui kaugele saab kõnetuvastusega minna? Ikka väga kaugele! Eestis on firmasid, kes salvestavad kõik klientide kõned. Kliendile isegi öeldakse kõne algul, et kõik salvestatakse. Ühes Tallinna suures firmas on salvestatud ja tekstiks transkribeeritud juba üle 150 000 tunni telefonivestlusi klientidega, lisaks on analüüsitud miljonit klientide e-teksti. Firma on sellega kokku hoidnud vähemalt 12 000 tundi aega – näiteks ei pea klienditeenindaja pärast iga kõnet selle sisu kohta käsitsi kokkuvõtet tegema.

Mida tekstiks muudetud vestlustega tehakse? Sealt saadakse teada inimeste ootused ning see aitab firma juhtimist ja teenuseid paremaks muuta.

Masintõlge on tulnud, et jääda

Google tõlgib n-ö köögikeelt päris hästi, kuid igas tekstis on alati ka erialakeelt. Just erialakeelte tõlkimist arendab Baltimaade suurim tehisintellekt Tilde. Tilde Eesti tegevjuht Pekka Myllylä ütles konverentsil „Prototüübist teostuseni“, et poliitiliste tekstide tõlkimisega saavad tema firma tõlkimismasinad juba päris hästi hakkama. Näiteks Euroopa Liidu Eesti eesistumise tekstid tõlkis inglise keelest eesti keelde ja vastupidi Tilde masin. Seda tõlkemasinat saab proovida lingilt ee.presidencymt.eu/. Kirjutasin sinna nalja pärast lause „Mida kradti ma pean küll tegema?“ ja ingliskeelseks vasteks tuli „What the hell am I supposed to do?“. See ei ole enam lihtne sõnasõnaline tõlge nagu mõni aasta tagasi. Lisaks oli mul „kuradit“ asemel „kradti“, kuid masin sai aru, mida ma mõtlesin.

Väidetavalt tõlgib Tilde masin eesti, läti ja leedu keelt paremini kui Google Translate. Kui Euroopa Komisjon viimati keeletehnoloogia edasiarendamiseks toetusi jagas, oli Tilde üks neljast firmast, kes toetuse sai.

Tilde keeletehnoloog Martin Luts ütles, et professionaalne tõlk jõuab päevas tõlkida umbes 2000 sõna. Sellega võrreldes on Tilde oma paarikümne tegutsemisaasta jooksul jõudnud ära teha tuhande tõlkija elutöö. Masintõlge on tulnud, et jääda.

Martin Luts lisas, et termineid ei suuda tõlkemasinad veel hästi tõlkida. Probleem on selles, et paljudes ettevõtetes ja organisatsioonides on oma eriala terminite masintõlge olemas, kuid nad peavad seda ärisaladuseks ega jaga konkurentidega. Nii on mitmed ettevõtted suhteliselt kehva masintõlkega, selle asemel et oma ressursid kokku panna ja üheskoos tõesti hea tõlkemasin teha. Tilde tõlgib hästi meditsiini ja farmatseutika valdkonda.

Tõlkemasinat TartuNLP tutvustas TÜ arvutiteadlane Mark Fišel. Ta märkis, et Google tõlgib praegu veel nende masinast paremini, eriti lühikesi lauseid. Eesmärk on jõuda selleni, et TartuNLP tõlgiks eesti ja läti keelt Google’ist paremini. Kavas on tuua sisse ka soome, saksa ja leedu keel.

TartuNLP tõlkemasina eripära on ka see, et seal saab valida, kas eelistad viisakat keelt või rahvalikku tõlget. Konverentsil küsiti, kas lausele „Te olete ju täielik lollpea“ annab masin viisakaks tõlkevasteks „Kahtlen teie intellektuaalsetes võimetes“. Vastus oli, et tegemist on veel prototüübiga ja nii kõrgele tasemele ei ole jõutud.

Vestlusrobot Miia

Õpetaja vajab oma klassi abiõpetajat. Miks ei võiks abiõpetaja rollis olla vestlusrobot? Indrek Vainu firmast Alphablues ütles konverentsil, et neil on vestlusroboteid (chatbot), mis peavad klientidega kuus üle 250 000 vestluse. Küllap on igaüks meist juba kogenud, et mõne firma kodulehe avamise järel ilmub ekraanile küsimus: „Kuidas saan teid aidata?“ Enamasti esitab selle vestlusrobot, kes teab kõiki tüüpilisi küsimusi ja vastuseid nendele. Vestlusrobotid on olemas sellistes firmades nagu Telia, Tallink, Monese, Transferwise jt.

Indrek Vainu ütles, et Alphabluesi vestlusrobot Miia ütleb kliendile, mis lahtrisse ja mida see kirjutama peab, kui palju peab ta maksma ja kuidas saab seda teha jne. Miia saab aru, kas ta vestleb mehe või naisega. Naistele soovib ta naistepäeval head naistepäeva, mehed suunab kingituste leheküljele ja soovitab sealt abikaasale midagi toredat osta.

Aga abiõpetaja? Küsisin Indrek Vainult, kas oleks võimalik ehitada ka selline vestlusrobot, kes vastaks kõigile 7. klassi matemaatika kohta esitatud küsimustele. Vastus oli, et pole midagi lihtsamat, kui vaid leiduks tellija, kes sellist vestlusrobotit tõesti tahab.

Pole vaja kulutada õpetaja kallist aega kõige lihtsamatele küsimustele vastamisega. Eriti siis, kui õpilane on mõne asja lihtsalt ära unustanud. Meeldetuletamiseks ongi hea Miia poole pöörduda ja õpetaja saab samal ajal teistele keerukamaid asju selgitada.

Miia tunneks kõiki oma klassi õpilasi nii nime kui ka iseloomu järgi, teaks, mis kellelegi raske on ja kuidas teda saab aidata. See oleks üks personaaliseeritud õppe võimalusi. Ja õpetaja saaks küsijale öelda: „Heldeke, seda küsi küll Miia käest!“

Oahpa! võru keele avalehel on näha, kuidas programm võimaldab õppida ja harjutada võru keelt sõnade ja lausete tasandil, kuidas omandada arvsõnu jne.

Õpime võru keelt!

Norralased on välja töötanud programmi Oahpa! Põhjasaami keeles tähendab „oahpa!“ „õpi!“. See on saami keelte õppimise programm, mille abil saab omandada nii sõnu kui ka grammatikat. Lisaks tõlgib see Norra saamide kuut murret Euroopa teistesse keeltesse. Oahpa! on leidnud kasutust ka Võrumaal. Programmi võru keele avalehelt on näha, kuidas seal saab tegelda sõnavaraga, lausestamisega, arvudega jne. Ära on toodud ka keelepaarid, mida Oahpa! tõlgib: võro-inglüse, inglüse-võro; võro-s’aksa, s’aksa-võro; võro-põh’asaami, põh’asaami-võro; võro-norra, norra-võro; võro-eesti, võro-soomõ, võro-roodsi (oahpa.no/voro/). Eks see kõik tõstab tublisti võrukeste eneseteadvust ja kinnistab nende identiteeti.

Niko Partanen Helsingi ülikoolist kohandab praegu Oahpa! programmi komi keele õppimiseks. Plaanis on kõigile soomeugri keeltele selline keeleõppemasin teha. Liivi keel on ka plaanis. Võib-olla aitab just keeletehnoloogia kiire areng peatada soomeugri keelte taandumise vene keele ees?

Igal juhul on osutunud eri maade keeletehnoloogide koostöö edukaks. Sulev Iva sõnul on suur vedamine, et norralased saami keelte õppimiseks ja tõlkimiseks masina tegid, sest nüüd saab seda suhteliselt kerge vaevaga rakendada kõigi soomeugri keelte õppimiseks. Programmi on juba kasutatud ka raamatute tõlkimiseks. Näiteks mõned võrukeelsed lasteraamatud on juba tõlgitud põhjasaami keelde.


Kirjuta kommentaar

Õpetajate Lehel on õigus avaldada teie kirjutatud kommentaar paberväljaandes. Kommentaari pikkus ei tohi ületada 3000 tähemärki. Õpetajate Lehe kodulehe kommentaarid on modereeritavad ja avaldatakse pärast toimetamist hiljemalt kommentaari saatmisele järgneva tööpäeva hommikuks. Lehel on õigus jätta saadetud kommentaar kodulehel avaldamata. Iga kommentaari edastaja arvuti IP-aadress, sessiooni identifikaator ja kommenteerimise aeg salvestatakse andmebaasis. Õpetajate Leht ei vastuta kommentaaride sisu eest!