Latviešu valodas morfoloģiskā marķēšana, izmantojot dziļās mašīnmācīšanās metodes
Author
Treimanis, Artūrs
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Paikens, Pēteris
Date
2023Metadata
Show full item recordAbstract
Viens no aktuālākajiem dabiskās valodas apstrādes uzdevumiem ir teksta morfoloģiska marķēšana, kuras ietvaros katram teikuma vārdam tekstā tiek piešķirts marķējums, kas atspoguļo vārda valodnieciskās īpašības. Šī darba mērķis bija realizēt modernāko dabiskās valodas apstrādes risinājumu pielāgošanu latviešu valodai. Realizācijā tika izmantoti BERT modeļi, kas apmācīti ar latviešu valodas teksta korpusiem, vārdu konteksta analīzei un daudznozīmības problēmas adresēšanai, un ilgās īstermiņu atmiņas (LSTM) mākslīgā neironu tīkla kombinācija. Darba ietvaros tika izstrādāts automātiskas marķēšanas modelis, kas vārdšķiras atpazīšanas uzdevumā sasniedza 98.59% precizitāti un pilnā morfoloģiskā marķējuma prognozēšanā - 93.12% precizitāti. The topic of this study is Latvian language morphological tagging using deep learning methods. One of the more relevant natural language processing tasks is morphological tagging, during which each word in a sentence gets assigned a tag that describes its linguistic features. The goal of this study was to execute state-of-the-art natural language processing solution adaptation for Latvian language. For the implementation, BERT models trained on Latvian text corpora were used for word contextual analysis and polysemy problem addressing, as well as a long short-term memory (LSTM) artificial neural network combination was used. In the scope of the study a model for automatic tagging was developed. The model achieved accuracy of 98.59% for part of speech tagging and 93.12% accuracy for full morphological tagging.