Latviešu valodas Universal Dependencies datu kopas novērtēšana mašīnmācīšanās modeļu apmācības kontekstā
Autor
Mežale, Asnate
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Bergmanis, Toms
Datum
2023Metadata
Zur LanganzeigeZusammenfassung
Bakalaura darbā ir tikusi apskatīta datu kvalitātes tematika mašīnmācīšanās uzdevumu ietvaros. Izpētē tika izmantotas publiski pieejamās latviešu valodas Universal Dependencies datu kopas vēsturiskās versijas, lai vērtētu datu kopas datu kvalitāti un katras versijas lietderību gala lietojumos - vārdšķiru un morfoloģiskajā marķēšanā. Darbā apkopota vispusīga informācija par datu kvalitātes metrikām un to, kā tās ir iespējams pielietot dabiskās valodas apstrādes uzdevumos, kas arī darba otrajā daļā tiek praktiski pielietots. The following work addresses the topic of data quality in the context of machine learning tasks. Historical versions of the publicly available Universal Dependencies dataset of the Latvian language were used to assess the data quality of the dataset and the usefulness of each version in the end applications - Part-of-Speech tagging and morphological tagging. This bachelor’s thesis presents a comprehensive information on data quality metrics and how they can be applied to natural language processing tasks, which is also put into practice in the second part of the paper.