Runas atpazīšana mutvārdu mašīntulkojumā
Author
Seikstule, Rūta
Co-author
Latvijas Universitāte. Humanitāro zinātņu fakultāte
Advisor
Veisbergs, Andrejs
Date
2019Metadata
Show full item recordAbstract
Šajā maģistra darbā tiek pētīta latviešu valodas atpazīšanai pielāgotu balss atpazīšanas sistēmu kvalitāte mutvārdu mašīntulkojuma sistēmas izveides kontekstā. Šī darba mērķis identificēt kļūdu īpatsvaru "Tildes Balss" balss atpazīšanas sistēmas izvaddatos, kā arī to ietekmi uz turpmāku valodas apstrādi "Tildes Tulkotājs" mašīntulkošanas sistēmā. Šī pētījuma ietvaros no 35 tiešsaistē pieejamiem materiāliem tika izveidots 4 stundu un 47 minūšu ilgs saistītās runas korpuss, veikta rezultātu analīze, izmantojot kļūdu īpatsvara aprēķina formulu, kā arī eksperimentāla analīze, lai noteiktu identificēto kļūdu ietekmi uz mašīntulkojuma rezultātiem. Pētījumā iegūtie rezultāti liecina, ka vispārējais kļūdu īpatsvars "Tildes Balss" izvaddatos ir 10,5 %, un lielākajai daļai analizēto izvaddatu ir neliela ietekme vai nav nekādas ietekmes uz turpmāku valodas apstrādi "Tildes Tulkotājs" mašīntulkošanas sistēmā. This Master Thesis is an investigation of the current state of automated speech recognition for Latvian in the context of designing speech-to-speech translation systems. The goal of this paper is to identify the error rates in 'Tildes Balss' automated speech recognition outputs and their effect on further 'Tildes Tulkotājs' machine translation language processing. The research involves developing a 4-hour and 47-minute continuous spoken language corpus derived from 35 Online sources, analysis by means of word-error rate calculation, and experimental evaluation of the effects of the identified errors on machine translation outputs. The obtained results indicate that the overall word-error rate in 'Tildes Balss' outputs is 10.5%, and the majority of the evaluated output errors have no or minor effect on further language processing in 'Tildes Tulkotājs' machine translation system.