Eksperiment: milline keelemudel tunneb eesti keelt ja kultuuri

Eksperiment: milline keelemudel tunneb eesti keelt ja kultuuri

Novaator küsis viie populaarsema keelemudeli käest eesti keelt ja kultuuri puudutavaid küsimusi ning koostas vastuste põhjal pingerea. Kõige terasemaid vastuseid andis Grok, kuid eesti teadlased on rahul ka spetsiaalselt eestikeelsel materjalil treenitud mudeli tulemustega.

Kui Arno isaga koolimajja jõudis, oli . See on üks vastus, mida võib saada ilt.
Novaator uuris teadlastelt ja tegi eksperimendi, et teada saada, kas , kui küsimused puudutavad eesti keelt ja kultuuri.
Eksperimendis kasutati viit : Grok, Claude Sonnet, Gemini, Chat GPT ja Mistral. Lisaks testiti Tallinna Tehnikaülikooli, Tartu Ülikooli ja Eesti Keele Instituudi juturobotit.
Kõik mudelid vastasid 20 küsimusele. Küsimused olid jagatud kaheks: . Näiteks küsimustes oli teema Juri Lotmani " " ja lause lõpetamine "Kui Arno isaga koolimajja jõudis…".
Keeleküsimustes testiti mudelite oskust ja ka seda, "jäääär".
Tartu Ülikooli professor Kairit Sirts ütles, et tulemused olid üllatavad. Grok oli kõige tundlikum eesti keele suhtes. Näiteks teadis Grok, kuidas öelda võro keeles "tolmuimeja": "pudsunudsija".
Sirts selgitas, et . Esimene etapp on tekstide peal treenimine, siis järgneb , kus mudelile näidatakse ülesandeid ja juhiseid.
Kultuuriloo küsimustes erinesid tulemused vähe. Sirts rääkis, et mudelid saavad , kuid eesti keelele spetsiifilist infot neil vähem.
Küsimuste sõnastus mängib suurt rolli. Näiteks küsimus "Mitu täishäälikut on sõnas 'jäääär'?" on pigem matemaatiline.
Tallinna Tehnikaülikooli professor Tanel Alumäe ütles, et suured keeleandmed aitavad ka väiksemate keelte kvaliteeti tõsta. Eesti keeles on mudelid juba väga head, kuid teevad siiski vigu.
Alumäe testis mudelite keeleoskust sügisel. Ta leidis, et mudelid saavad hästi hakkama sõnade käänamisega, kuid täpse grammatikaga on probleeme.
Novaatori eksperimendi tulemused näitasid, et mudelitel oli keeruline anda lausele "Jüri sai palgi pantimise eest paraja palga" mitu tähendust.
Eesti teadlased arendavad avatud eestikeelset mudelit. See tähendab, et kogu treeningmaterjal on avalik ja kontrollitav. Eesti mudeli tulemused jäävad teistele alla, kuid teadlased plaanivad treenida suuremat mudelit.
Sirts selgitas, et mudeli treenimiseks kasutatakse Eesti Keele Instituudi andmeid ja veebiandmeid. Kuid mudel ei pruugi teada kultuuriloo küsimusi, kui ta pole lugenud näiteks "Kevade" raamatut.
Jaanus ja Albert on tegelased eesti kultuslauludes. Näiteks Grok ütles, et nad destilleerivad viina, ja Gemini mainis, nad räägivas raadios.
Sirts ütles, et eesmärk ei ole konkureerida suurte kommertsmudelitega, vaid luua , mida saab enda serveris kasutada. See on oluline, kui on vaja hoida andmeid konfidentsiaalsena.
Alumäe lisas, et on vaja vähendata sõltuvust USA ja Hiina serveritest. Avatud mudel võimaldab kasutada andmeid ilma, et need lekivad välja.
Sirts arvas, et on oluline luua ja hoida kompetentsi. Tehnoloogiaettevõtted ei peaks dikteerima tingimusi ja hindu. Eestlane saab parandada avatud mudelit eesti keele tasemel ja .