Latviešu valodas morfosintaktiskais marķētājs
Loading...
Date
Authors
Advisor
Journal Title
Journal ISSN
Volume Title
Publisher
Latvijas Universitāte
Language
N/A
Abstract
Bakalaura darbā aprakstīta morfoloģiskā marķētāja, kas izmanto vairāku klašu vidējo perceptrona mašīnmācīšanās algoritmu, izstrāde latviešu valodai.
Darbā izstrādātajam marķētājam ir augsta precizitāte (95,20% un 94,32% - mērīta uz diviem dažādiem korpusiem), kas atbilst labākajiem rezultātiem pasaulē morfoloģiski sarežģītām valodām. Marķētājs salīdzināts ar diviem marķētājiem latviešu valodai, un tam ir labāka precizitāte nekā marķētājam, kas izmanto maksimālās entropijas modeli (94,83% un 91,51%), un nedaudz labāka precizitāte (93,67% un 93,6%) par marķētāju, kas izmanto nosacījumu Markova modeli.
In this thesis, a part-of-speech tagger for the Latvian language based on the multiclass averaged perceptron machine learning algorithm is described. The tagger achieves an accuracy of 95.20% and 94.32% when evaluated on two different corpora. When compared with two other taggers for the Latvian language, it has a better accuracy than a tagger based on the maximum entropy model (95.20% vs 91.51%) and a tagger based on the conditional Markov model (93.67% vs 93.6%).
In this thesis, a part-of-speech tagger for the Latvian language based on the multiclass averaged perceptron machine learning algorithm is described. The tagger achieves an accuracy of 95.20% and 94.32% when evaluated on two different corpora. When compared with two other taggers for the Latvian language, it has a better accuracy than a tagger based on the maximum entropy model (95.20% vs 91.51%) and a tagger based on the conditional Markov model (93.67% vs 93.6%).