Latviešu valodas morfosintaktiskais marķētājs
Автор
Ņikiforovs, Pēteris
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Skadiņa, Inguna
Дата
2015Metadata
Показать полную информациюАннотации
Bakalaura darbā aprakstīta morfoloģiskā marķētāja, kas izmanto vairāku klašu vidējo perceptrona mašīnmācīšanās algoritmu, izstrāde latviešu valodai.
Darbā izstrādātajam marķētājam ir augsta precizitāte (95,20% un 94,32% - mērīta uz diviem dažādiem korpusiem), kas atbilst labākajiem rezultātiem pasaulē morfoloģiski sarežģītām valodām. Marķētājs salīdzināts ar diviem marķētājiem latviešu valodai, un tam ir labāka precizitāte nekā marķētājam, kas izmanto maksimālās entropijas modeli (94,83% un 91,51%), un nedaudz labāka precizitāte (93,67% un 93,6%) par marķētāju, kas izmanto nosacījumu Markova modeli. In this thesis, a part-of-speech tagger for the Latvian language based on the multiclass averaged perceptron machine learning algorithm is described.
The tagger achieves an accuracy of 95.20% and 94.32% when evaluated on two different corpora. When compared with two other taggers for the Latvian language, it has a better accuracy than a tagger based on the maximum entropy model (95.20% vs 91.51%) and a tagger based on the conditional Markov model (93.67% vs 93.6%).