Latviešu valodas teksta automatizēta apstrāde runas sintēzes vajadzībām

Lasmanis, Viesturs Jūlijs

dc.contributor.advisor	Grūzītis, Normunds
dc.contributor.author	Lasmanis, Viesturs Jūlijs
dc.contributor.other	Latvijas Universitāte. Datorikas fakultāte
dc.date.accessioned	2024-06-20T01:04:15Z
dc.date.available	2024-06-20T01:04:15Z
dc.date.issued	2024
dc.identifier.other	101451
dc.identifier.uri	https://dspace.lu.lv/dspace/handle/7/66057
dc.description.abstract	Latviešu valodas runas sintēzē ir identificētas dažādas situācijas, kad kontekstuāli pareizas tekstvienību izrunas noteikšana sagādā problēmas. Darbā tiek aplūkotas divas pieejas kā automatizēti noteikt kontekstam atbilstošās izrunas: skaitļu izvēršana vārdos, izrunas anotēšana. Darba ietvaros tika izstrādātas un salīdzinātas trīs metodes skaitļu izvēršanai: sintaktiskā parsēšana, ChatGPT ar attiecīgu sistēmas uzvedni, specializēta mT5 neironu modeļa apmācīšana. Visaugstākos rezultātus iegūst sintaktiskās parsēšanas metode, sasniedzot 78,8% un 80% precizitāti uz divām darbā izveidotajām testa datu kopām. Vārdu un to locījumu fonētiskajai transkribēšanai ir veiksmīgi izveidots morfoloģiskā analizatora LVTagger paplašinājums. Vienlaikus tika konstatēti nepieciešamie uzlabojumi bāzes tagerī, lai šo metodi varētu pilnvērtīgi pielietot.
dc.description.abstract	Latvian language text to speech synthesis has many situations in which it is difficult to determine the contextually proper pronunciation. Within this work the author looks at two approaches to automate pronunciation correction: numeral expansion, phonetic transcribing. The author developed and tested three different methods for expanding numerals within text – syntactic parsing, promt-engineered ChatGPT and fine-tuned mT5 neural network model. The highest accuracy for the task was achieved with the syntactic parsing method (78,76% and 80%) on the two created test datasets. For the purposes of correcting and declinating Latvian phonetic transcription, the author developed an extension for the morphological analyzer LVTagger. Additionally the author determined necessary LVTagger base model improvents to use this feature in practice.
dc.language.iso	lav
dc.publisher	Latvijas Universitāte
dc.rights	info:eu-repo/semantics/openAccess
dc.subject	Datorzinātne un informātika
dc.subject	latviešu valoda
dc.subject	fonētiskā transkribēšana
dc.subject	teksta normalizēšana
dc.subject	sintaktiskā parsēšana
dc.subject	mašīnmācīšanās
dc.title	Latviešu valodas teksta automatizēta apstrāde runas sintēzes vajadzībām
dc.title.alternative	Latvian text automatic processing for speech synthesis purposes
dc.type	info:eu-repo/semantics/masterThesis

Files in this item

Name:: 302-101451-Lasmanis_Viesturs.J ...
Size:: 1.684Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses [5688]

Show simple item record