Latviešu valodas morfosintaktiskais marķētājs
Autor
Ņikiforovs, Pēteris
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Skadiņa, Inguna
Datum
2015Metadata
Zur LanganzeigeZusammenfassung
Bakalaura darbā aprakstīta morfoloģiskā marķētāja, kas izmanto vairāku klašu vidējo perceptrona mašīnmācīšanās algoritmu, izstrāde latviešu valodai.
Darbā izstrādātajam marķētājam ir augsta precizitāte (95,20% un 94,32% - mērīta uz diviem dažādiem korpusiem), kas atbilst labākajiem rezultātiem pasaulē morfoloģiski sarežģītām valodām. Marķētājs salīdzināts ar diviem marķētājiem latviešu valodai, un tam ir labāka precizitāte nekā marķētājam, kas izmanto maksimālās entropijas modeli (94,83% un 91,51%), un nedaudz labāka precizitāte (93,67% un 93,6%) par marķētāju, kas izmanto nosacījumu Markova modeli. In this thesis, a part-of-speech tagger for the Latvian language based on the multiclass averaged perceptron machine learning algorithm is described.
The tagger achieves an accuracy of 95.20% and 94.32% when evaluated on two different corpora. When compared with two other taggers for the Latvian language, it has a better accuracy than a tagger based on the maximum entropy model (95.20% vs 91.51%) and a tagger based on the conditional Markov model (93.67% vs 93.6%).