Eesti kaalub võimalust lasta tehisarul hinnata emakeele lõpueksamit

Haridus- ja noorteamet (harno) on rääkinud Tallinna Ülikooli teadlastega. Nad uurivad, kas emakeele eksami töid saaks tulevikus hinnata . Teadlased on juba teinud uuringu, mis näitas, et keelemudelid annavad eksamile sarnaseid hindeid kui inimesed.

EN

The Education and Youth Board (harno) has consulted with researchers from Tallinn University. They are investigating whether native language exam papers could be assessed using artificial intelligence in the future. Researchers have already conducted a study that showed that language models give similar grades to humans.

Merilin Aruvee on Tallinna Ülikooli lektor. Ta on osalenud 9. klassi e-eksamite katsetustes. Koos teaduriga Katarin Leppikuga töötas Aruvee välja . Nad küsivad: kas saaks eksamitööd hinnata ?

EN

Merilin Aruvee is a lecturer at Tallinn University. She has participated in the testing of 9th grade e-exams. Together with researcher Katarin Leppik, Aruvee developed new assessment criteria. They ask: can exam papers be assessed using artificial intelligence?

Teadlased uurisid, kuidas eksamitööd hinnata. Nad tegid koostööd harno hindajatega. Hindajad olid . Nad proovisid hinnata eksamitöid uute kriteeriumide järgi. Teadlased kohendasid oma mudelit vastavalt õpetajate soovitustele.

EN

Researchers studied how to assess exam papers. They collaborated with harno's assessors. The assessors were experienced native language teachers. They tried to assess exam papers according to the new criteria. Researchers adjusted their model based on teachers' recommendations.

Inspiratsiooni saadi Kais Allkivilt, kes töötab TLÜ digitehnoloogiate instituudis. Ta on uurinud, kuidas eesti keele oskust.

EN

Inspiration came from Kais Allkivi, who works at the TLÜ Institute of Digital Technologies. She has studied how machine learning can help assess Estonian language skills.

Teadlased tegid harnoga lepingu. Nad said ligipääsu 2024. ja 2025. aasta katseeksami töödele. Need tööd olid kodeeritud ja anonüümsed. Teadlased võisid näha ainult teksti ja hindajate hindeid.

EN

Researchers made an agreement with harno. They gained access to the 2024 and 2025 trial exam papers. These papers were coded and anonymized. Researchers could only see the text and the assessors' grades.

Uuringu tulemusel leidsid teadlased, et keelemudelid annavad sarnaseid hindeid kui inimesed. Aruvee ütleb, et mudelite hinded ei erine palju inimeste hinnetest. Tehisaru jääb 60% juhtudest samadesse piiridesse, kus inimesed varieeruvad.

EN

As a result of the study, researchers found that language models give similar grades to humans. Aruvee says that the models' grades do not differ much from human grades. AI stays within the same range as humans in 60% of cases.

Tehisarud on kasulikud alusteksti kasutamise hindamisel. Alustekst on tekst, mida õpilane kasutab oma kirjutamises. Masin saab võrrelda alusteksti ja õpilase teksti. Masin näitab, millised laused on alustekstist kopeeritud.

EN

Artificial intelligence is useful in assessing the use of source texts. A source text is a text that the student uses in their writing. The machine can compare the source text and the student's text. The machine shows which sentences have been copied from the source text.

Aruvee ütleb, et inimesed on vajalikud hindamisel. Näiteks nõuavad inimese hinnangut. Inimene hindab, kas tekst tundub sisuline ja mõttekas.

EN

Aruvee says that humans are necessary in assessment. For example, the introduction and conclusion of a text require human judgment. A person assesses whether the text seems substantial and meaningful.

Aruvee ütleb, et keelemudelid oskavad hinnata ka eesti keeles kirjutatud tekste. See oli teadlastele üllatus. Keelmudelid kasutavad tavaliselt internetti tekste, aga eesti keeles kirjutatud tekstid on erinevad.

EN

Aruvee says that language models can also assess texts written in Estonian. This was a surprise to the researchers. Language models usually use internet texts, but texts written in Estonian are different.

Tehisaru ei saa teha lõplikku otsust eksami tööde hindamisel. ja ei luba seda.

EN

Artificial intelligence cannot make the final decision in assessing exam papers. European Union directives and good practice do not allow this.

Veebruaris tutvustavad teadlased harnole oma uuringu tulemusi. Harno pressiesindaja ütleb, et nad ei võta veel uuringu kohta seisukohta.

EN

In February, researchers will present their study results to harno. Harno's press representative says that they have not yet taken a position on the study.

Aruvee ütleb, et õpilased vajavad rohkem harjutamist . Selle jaoks on vaja välja töötata õppematerjale, mis aitada õpilastel paremini kirjutada.

EN

Aruvee says that students need more practice in using source texts. For this, it is necessary to develop learning materials that help students write better.