Kui Arno isaga koolimajja jõudis, oli
koolimaja juba maha põlenud
. See on üks vastus, mida võib saada
eestikeelsel materjalil treenitud keelemudel
ilt.
koolimaja juba maha põlenud
Tõlge fraasile: koolimaja juba maha põlenud
EN
the school building had already burned down
eestikeelsel materjalil treenitud keelemudel
Tõlge fraasile: eestikeelsel materjalil treenitud keelemudel
EN
language model trained on Estonian material
Novaator uuris teadlastelt ja tegi eksperimendi, et teada saada, kas
põhikooliõpilased saavad tehnoloogiale usaldada
, kui küsimused puudutavad eesti keelt ja kultuuri.
põhikooliõpilased saavad tehnoloogiale usaldada
Tõlge fraasile: põhikooliõpilased saavad tehnoloogiale usaldada
EN
primary school students can trust technology
Eksperimendis kasutati viit
üldlevinud keelemudelit
: Grok, Claude Sonnet, Gemini, Chat GPT ja Mistral. Lisaks testiti Tallinna Tehnikaülikooli, Tartu Ülikooli ja Eesti Keele Instituudi juturobotit.
üldlevinud keelemudelit
Tõlge fraasile: üldlevinud keelemudelit
EN
common language models
Kõik mudelid vastasid 20 küsimusele. Küsimused olid jagatud kaheks:
eesti keel ja eesti kultuurilugu
. Näiteks küsimustes oli teema Juri Lotmani "
semiosfäär
" ja lause lõpetamine "Kui Arno isaga koolimajja jõudis…".
eesti keel ja eesti kultuurilugu
Tõlge fraasile: eesti keel ja eesti kultuurilugu
EN
Estonian language and cultural history
semiosfäär
Tõlge fraasile: semiosfäär
EN
semiosphere
Keeleküsimustes testiti mudelite oskust
murdekeeles
ja ka seda,
mitu täishäälikut on sõnas
"jäääär".
murdekeeles
Tõlge fraasile: murdekeeles
EN
in dialect
mitu täishäälikut on sõnas
Tõlge fraasile: mitu täishäälikut on sõnas
EN
how many vowels are in the word
Tartu Ülikooli professor Kairit Sirts ütles, et tulemused olid üllatavad. Grok oli kõige tundlikum eesti keele suhtes. Näiteks teadis Grok, kuidas öelda võro keeles "tolmuimeja": "pudsunudsija".
Sirts selgitas, et
mudelite treenimine toimib mitmes etapis
. Esimene etapp on tekstide peal treenimine, siis järgneb
järeltreening
, kus mudelile näidatakse ülesandeid ja juhiseid.
mudelite treenimine toimib mitmes etapis
Tõlge fraasile: mudelite treenimine toimib mitmes etapis
EN
model training works in several stages
järeltreening
Tõlge fraasile: järeltreening
EN
fine-tuning
Kultuuriloo küsimustes erinesid tulemused vähe. Sirts rääkis, et mudelid saavad
kultuuriteadmisi inglise keele treeningust
, kuid eesti keelele spetsiifilist infot neil vähem.
kultuuriteadmisi inglise keele treeningust
Tõlge fraasile: kultuuriteadmisi inglise keele treeningust
EN
cultural knowledge from English training
Küsimuste sõnastus mängib suurt rolli. Näiteks küsimus "Mitu täishäälikut on sõnas 'jäääär'?" on pigem matemaatiline.
Tallinna Tehnikaülikooli professor Tanel Alumäe ütles, et suured keeleandmed aitavad ka väiksemate keelte kvaliteeti tõsta. Eesti keeles on mudelid juba väga head, kuid teevad siiski vigu.
Alumäe testis mudelite keeleoskust sügisel. Ta leidis, et mudelid saavad hästi hakkama sõnade käänamisega, kuid täpse grammatikaga on probleeme.
Novaatori eksperimendi tulemused näitasid, et mudelitel oli keeruline anda lausele "Jüri sai palgi pantimise eest paraja palga" mitu tähendust.
Eesti teadlased arendavad avatud eestikeelset mudelit. See tähendab, et kogu treeningmaterjal on avalik ja kontrollitav. Eesti mudeli tulemused jäävad teistele alla, kuid teadlased plaanivad treenida suuremat mudelit.
Sirts selgitas, et mudeli treenimiseks kasutatakse Eesti Keele Instituudi andmeid ja veebiandmeid. Kuid mudel ei pruugi teada kultuuriloo küsimusi, kui ta pole lugenud näiteks "Kevade" raamatut.
Jaanus ja Albert on tegelased eesti kultuslauludes. Näiteks Grok ütles, et nad destilleerivad viina, ja Gemini mainis, nad räägivas raadios.
Sirts ütles, et eesmärk ei ole konkureerida suurte kommertsmudelitega, vaid luua
avatud eestikeelne mudel
, mida saab enda serveris kasutada. See on oluline, kui on vaja hoida andmeid konfidentsiaalsena.
avatud eestikeelne mudel
Tõlge fraasile: avatud eestikeelne mudel
EN
open Estonian language model
Alumäe lisas, et on vaja vähendata sõltuvust USA ja Hiina serveritest. Avatud mudel võimaldab kasutada andmeid ilma, et need lekivad välja.
Sirts arvas, et on oluline luua ja hoida kompetentsi. Tehnoloogiaettevõtted ei peaks dikteerima tingimusi ja hindu. Eestlane saab parandada avatud mudelit eesti keele tasemel ja
hoida kontrolli
.
hoida kontrolli
Tõlge fraasile: hoida kontrolli
EN
maintain control