Darba tēma latviešu valodāUz lielajiem valodas modeļiem balstīto automatizēto vērtēšanas sistēmu efektivitātes novērtējums
Author
Javed, Sikandar
Co-author
Latvijas Universitāte. Eksakto zinātņu un tehnoloģiju fakultāte
Advisor
Ivanovs, Maksims
Date
2025Metadata
Show full item recordAbstract
Līdz ar lielo valodas modeļu popularitātes uzplaukumu pēdējā laikā, mākslīgā intelekta sistēmas ir atradušas pielietojumu dažādās jomās. Šis bakalaura darbs ir saistīts ar izglītības jomu, konkrēti, automātizēto eseju vērtēšanu. Ņemot vērā pašreizējo metodi, kad pasniedzēji manuāli pārbauda desmitiem vai pat simtiem eseju, LLM var būt lielisks palīgrīks šādu uzdevumu veikšanā. Ņemot vērā tādas problēmas kā privātuma aizsardzība un pieejamība mākonī darbināmos modeļos, lokāli instalējamu modeļu izmantošana varētu sniegt tehnoloģiskās palīdzības priekšrocības pedagogiem. Lai gan ar mazāku apjomu, šajā bakalaura darbā tiek veikta mazāku lokāli instalējamu lielo valodas modeļu veiktspējas salīdzinošā analīze ar lielākiem mākonī novietotiem variantiem. Salīdzinājums tiek veikts, izmantojot GPT 4o, Gemini Flash 2.5 un LlaMA 3.2 3B modeļus, izmantojot sintētiski ģenerētu eseju datu kopu, kas apvienota ar reālās pasaules esejām. Rezultāti tiek mērīti, izmantojot korelācijas, QWK, MSE un MAE novērtēšanas metrikas. Lai gan lokālais LlaMA modelis , izmantojot "zero-shot" pieprasījumus, uzrāda vājākus metrikas rādītājus, galīgais novērtējums liecina, ka ar nelieliem uzlabojumiem, tostarp "few-shot" pieprasījumus, šādi modeļi demonstrē daudzsološus rezultātus, kurus var salīdzināt ar lielākiem mākoņbalstītiem modeļiem. With the recent popularity boom of Large Language Models (LLMs), AI systems have found use cases in various fields. The field of interest in this thesis is that of education, specifically Automated Essay Scoring (AES). With the current method of educators manually reviewing dozens or even hundreds of essays, LLMs may have the potential to be great tools to aid in such tasks. Due to concerns such as privacy and accessibility in cloud-based models, the use of locally installable models could provide the benefits of technological aid to educators. This thesis comparatively analyzes the performance of smaller locally installable LLMs against that of bigger cloud-based variants. The comparison is made using GPT 4o, Gemini Flash 2.5, and LlaMA 3.2 3B models, on one dataset of synthetically generated essays, and another dataset with real-world essays. The results are measured using correlation, QWK, MSE, and MAE evaluation metrics. While the local LlaMA model produces weaker metric scores when using zero shot prompts, the final evaluation determines that with minor improvements, including few shot prompts, such models show promising results that can be compared to bigger cloud based models.