Statistiskās metodes runas audiosignālu un fonētiskā pieraksta sastatīšanai

Paikena, Katrīna

View/Open

304-44042-Katrina_Paikena-kp06017.pdf (637.1Kb)

Author

Paikena, Katrīna

Co-author

Latvijas Universitāte. Fizikas un matemātikas fakultāte

Advisor

Valeinis, Jānis

Date

2014

Metadata

Show full item record

Abstract

Runas sastatīšana ar tekstu jeb runas segmentācija ir problēma, kā atrast vietu, kur audio ierakstā parādās katrs vārds vai skaņa. Runas segmentāciju var veikt cilvēks manuāli, taču šajā darbā ir apskatīta automātiskā runas segmentācija, kas dod iespēju ātri apstrādāt lielus datu apjomus. Maģistra darbā ir izpētītas automātiskajā runas segmentācijā izmantotās statistikas metodes, īpašu uzmanību pievēršot slēptajiem Markova modeļiem un to problemātikai. Tiek aplūkoti arī jauktie Gausa modeļi, kas tiek izmantoti runas segmentēšanā, lai modelētu nepārtrauktu audio signālu. Darbā ir aprakstītas runas atpazīšanas rīkkopas, HTK un Julius, kas praksē izmanto slēptos Markova modeļus, un tiek apskatīti vairāki uz šīm rīkkopām balstīti runas segmentācijas rīki. Tā kā līdz šim neeksistēja runas segmentācijas rīks latviešu valodai, darba praktiskajā daļā tika izveidots rīks, kas veic runas segmentāciju latviešu valodai, izmantojot slēptos Markova modeļus un Viterbi algoritmu.

Forced speech alignment or text segmentation is the problem of finding the time at which each sound and word appear in an audio recording. Forced alignment can be done manually, but the manual alignment of large amounts of data can take an excessively long time. This paper discusses automatic alignment, which can relatively quickly align large corpora of speech. This paper investigates the statistical methods used in speech alignment, particularly Hidden Markov Models and their main problems, as well as Gaussian Mixture models, a type of Hidden Markov Models that are used in speech alignment to model a continuous signal. Additionally, this paper describes two speech recognition toolkits that use Hidden Markov Models, HTK and Julius, and a number of speech segmentation tools based on them. Finally, a forced alignment tool that uses hidden Markov models and Viterbi algorithm was developed for the Latvian language, since no such tool currently exists.

URI

https://dspace.lu.lv/dspace/handle/7/27455

Collections

Bakalaura un maģistra darbi (FMOF) / Bachelor's and Master's theses [2775]