Latviešu valodas Universal Dependencies datu kopas novērtēšana mašīnmācīšanās modeļu apmācības kontekstā

Mežale, Asnate

Öffnen

302-96107-Mezale_Asnate_am19122.pdf (1.525Mb)

Autor

Mežale, Asnate

Co-author

Latvijas Universitāte. Datorikas fakultāte

Advisor

Bergmanis, Toms

Datum

2023

Metadata

Zur Langanzeige

Zusammenfassung

Bakalaura darbā ir tikusi apskatīta datu kvalitātes tematika mašīnmācīšanās uzdevumu ietvaros. Izpētē tika izmantotas publiski pieejamās latviešu valodas Universal Dependencies datu kopas vēsturiskās versijas, lai vērtētu datu kopas datu kvalitāti un katras versijas lietderību gala lietojumos - vārdšķiru un morfoloģiskajā marķēšanā. Darbā apkopota vispusīga informācija par datu kvalitātes metrikām un to, kā tās ir iespējams pielietot dabiskās valodas apstrādes uzdevumos, kas arī darba otrajā daļā tiek praktiski pielietots.

The following work addresses the topic of data quality in the context of machine learning tasks. Historical versions of the publicly available Universal Dependencies dataset of the Latvian language were used to assess the data quality of the dataset and the usefulness of each version in the end applications - Part-of-Speech tagging and morphological tagging. This bachelor’s thesis presents a comprehensive information on data quality metrics and how they can be applied to natural language processing tasks, which is also put into practice in the second part of the paper.

URI

https://dspace.lu.lv/dspace/handle/7/63291

Collections

Bakalaura un maģistra darbi (DF) / Bachelor's and Master's theses [3341]