Mašīnmācīšanās metožu lietojums latviešu valodas tekstu vienkāršošanā
Author
Upeniece, Anete Alise
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Skadiņa, Inguna
Date
2023Metadata
Show full item recordAbstract
Bakalaura darba mērķis ir izpētīt latviešu valodas teksta vienkāršošanas sistēmas izstrādes procesu, kā arī apkopot un analizēt sistēmas īstenošanā izmantotās mašīnmācīšanās metodes un citus pielietotos rīkus. Darbā salīdzināti vairāki valodu modeļi un veikta piemērotākā modeļa papildu apmācība teksta vienkāršošanas uzdevumam, izmantojot eksistējošu latviešu valodas datu kopu. Sistēmas izstrādes procesā lietoti arī sintaktiskās parsēšanas un morfoloģiskās analīzes rīki vārdšķiru marķēšanai, vārdu locīšanai, lemmu iegūšanai, kā arī teikuma struktūras analīzei un transformācijai. Piedāvātais risinājums novērtēts gan manuāli, apskatot un salīdzinot iegūtos rezultātus, gan automātiski, izmantojot lasāmības indeksus. The aim of the bachelor thesis is to research the text simplification system development process for Latvian language and to summarize and analyse the machine learning methods and other tools used in implementing the system. Multiple language models are compared with the objective of finding the most suitable one, which is then fine-tuned using an existing dataset in Latvian language. The system’s development process also includes the use of syntax parsing and morphological analysis tools with the aim of Part-of-speech tagging, word inflection, lemmatization and sentence structure analysis and transformation. The proposed solution is evaluated manually by examining and comparing results, as well as automatically by using readability indices.