15. veebruar 2026

Eesti kaalub võimalust lasta tehisarul hinnata emakeele lõpueksamit

Estonia considers possibility of using AI to assess native language final exam

Haridus- ja noorteamet (harno) on rääkinud Tallinna Ülikooli teadlastega. Nad uurivad, kas emakeele eksami töid saaks tulevikus hinnata . Teadlased on juba teinud uuringu, mis näitas, et keelemudelid annavad eksamile sarnaseid hindeid kui inimesed.

Merilin Aruvee on Tallinna Ülikooli lektor. Ta on osalenud 9. klassi e-eksamite katsetustes. Koos teaduriga Katarin Leppikuga töötas Aruvee välja . Nad küsivad: kas saaks eksamitööd hinnata ?

Teadlased uurisid, kuidas eksamitööd hinnata. Nad tegid koostööd harno hindajatega. Hindajad olid . Nad proovisid hinnata eksamitöid uute kriteeriumide järgi. Teadlased kohendasid oma mudelit vastavalt õpetajate soovitustele.

Inspiratsiooni saadi Kais Allkivilt, kes töötab TLÜ digitehnoloogiate instituudis. Ta on uurinud, kuidas eesti keele oskust.

Teadlased tegid harnoga lepingu. Nad said ligipääsu 2024. ja 2025. aasta katseeksami töödele. Need tööd olid kodeeritud ja anonüümsed. Teadlased võisid näha ainult teksti ja hindajate hindeid.

Uuringu tulemusel leidsid teadlased, et keelemudelid annavad sarnaseid hindeid kui inimesed. Aruvee ütleb, et mudelite hinded ei erine palju inimeste hinnetest. Tehisaru jääb 60% juhtudest samadesse piiridesse, kus inimesed varieeruvad.

Tehisarud on kasulikud alusteksti kasutamise hindamisel. Alustekst on tekst, mida õpilane kasutab oma kirjutamises. Masin saab võrrelda alusteksti ja õpilase teksti. Masin näitab, millised laused on alustekstist kopeeritud.

Aruvee ütleb, et inimesed on vajalikud hindamisel. Näiteks nõuavad inimese hinnangut. Inimene hindab, kas tekst tundub sisuline ja mõttekas.

Aruvee ütleb, et keelemudelid oskavad hinnata ka eesti keeles kirjutatud tekste. See oli teadlastele üllatus. Keelmudelid kasutavad tavaliselt internetti tekste, aga eesti keeles kirjutatud tekstid on erinevad.

Tehisaru ei saa teha lõplikku otsust eksami tööde hindamisel. ja ei luba seda.

Veebruaris tutvustavad teadlased harnole oma uuringu tulemusi. Harno pressiesindaja ütleb, et nad ei võta veel uuringu kohta seisukohta.

Aruvee ütleb, et õpilased vajavad rohkem harjutamist . Selle jaoks on vaja välja töötata õppematerjale, mis aitada õpilastel paremini kirjutada.

The Education and Youth Board (harno) has consulted with researchers from Tallinn University. They are investigating whether native language exam papers could be assessed using artificial intelligence in the future. Researchers have already conducted a study that showed that language models give similar grades to humans.

Merilin Aruvee is a lecturer at Tallinn University. She has participated in the testing of 9th grade e-exams. Together with researcher Katarin Leppik, Aruvee developed new assessment criteria. They ask: can exam papers be assessed using artificial intelligence?

Researchers studied how to assess exam papers. They collaborated with harno's assessors. The assessors were experienced native language teachers. They tried to assess exam papers according to the new criteria. Researchers adjusted their model based on teachers' recommendations.

Inspiration came from Kais Allkivi, who works at the TLÜ Institute of Digital Technologies. She has studied how machine learning can help assess Estonian language skills.

Researchers made an agreement with harno. They gained access to the 2024 and 2025 trial exam papers. These papers were coded and anonymized. Researchers could only see the text and the assessors' grades.

As a result of the study, researchers found that language models give similar grades to humans. Aruvee says that the models' grades do not differ much from human grades. AI stays within the same range as humans in 60% of cases.

Artificial intelligence is useful in assessing the use of source texts. A source text is a text that the student uses in their writing. The machine can compare the source text and the student's text. The machine shows which sentences have been copied from the source text.

Aruvee says that humans are necessary in assessment. For example, the introduction and conclusion of a text require human judgment. A person assesses whether the text seems substantial and meaningful.

Aruvee says that language models can also assess texts written in Estonian. This was a surprise to the researchers. Language models usually use internet texts, but texts written in Estonian are different.

Artificial intelligence cannot make the final decision in assessing exam papers. European Union directives and good practice do not allow this.

In February, researchers will present their study results to harno. Harno's press representative says that they have not yet taken a position on the study.

Aruvee says that students need more practice in using source texts. For this, it is necessary to develop learning materials that help students write better.