Latviešu valodas morfosintaktiskais marķētājs

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Latvijas Universitāte

Language

N/A

Abstract

Bakalaura darbā aprakstīta morfoloģiskā marķētāja, kas izmanto vairāku klašu vidējo perceptrona mašīnmācīšanās algoritmu, izstrāde latviešu valodai. Darbā izstrādātajam marķētājam ir augsta precizitāte (95,20% un 94,32% - mērīta uz diviem dažādiem korpusiem), kas atbilst labākajiem rezultātiem pasaulē morfoloģiski sarežģītām valodām. Marķētājs salīdzināts ar diviem marķētājiem latviešu valodai, un tam ir labāka precizitāte nekā marķētājam, kas izmanto maksimālās entropijas modeli (94,83% un 91,51%), un nedaudz labāka precizitāte (93,67% un 93,6%) par marķētāju, kas izmanto nosacījumu Markova modeli.
In this thesis, a part-of-speech tagger for the Latvian language based on the multiclass averaged perceptron machine learning algorithm is described. The tagger achieves an accuracy of 95.20% and 94.32% when evaluated on two different corpora. When compared with two other taggers for the Latvian language, it has a better accuracy than a tagger based on the maximum entropy model (95.20% vs 91.51%) and a tagger based on the conditional Markov model (93.67% vs 93.6%).

Citation

Relation

Endorsement

Review

Supplemented By

Referenced By