Statistiskās metodes runas audiosignālu un fonētiskā pieraksta sastatīšanai
Author
Paikena, Katrīna
Co-author
Latvijas Universitāte. Fizikas un matemātikas fakultāte
Advisor
Valeinis, Jānis
Date
2014Metadata
Show full item recordAbstract
Runas sastatīšana ar tekstu jeb runas segmentācija ir problēma, kā atrast vietu, kur audio ierakstā parādās katrs vārds vai skaņa. Runas segmentāciju var veikt cilvēks manuāli, taču šajā darbā ir apskatīta automātiskā runas segmentācija, kas dod iespēju ātri apstrādāt lielus datu apjomus.
Maģistra darbā ir izpētītas automātiskajā runas segmentācijā izmantotās statistikas metodes, īpašu uzmanību pievēršot slēptajiem Markova modeļiem un to problemātikai. Tiek aplūkoti arī jauktie Gausa modeļi, kas tiek izmantoti runas segmentēšanā, lai modelētu nepārtrauktu audio signālu.
Darbā ir aprakstītas runas atpazīšanas rīkkopas, HTK un Julius, kas praksē izmanto slēptos Markova modeļus, un tiek apskatīti vairāki uz šīm rīkkopām balstīti runas segmentācijas rīki.
Tā kā līdz šim neeksistēja runas segmentācijas rīks latviešu valodai, darba praktiskajā daļā tika izveidots rīks, kas veic runas segmentāciju latviešu valodai, izmantojot slēptos Markova modeļus un Viterbi algoritmu. Forced speech alignment or text segmentation is the problem of finding the time at which each sound and word appear in an audio recording. Forced alignment can be done manually, but the manual alignment of large amounts of data can take an excessively long time. This paper discusses automatic alignment, which can relatively quickly align large corpora of speech.
This paper investigates the statistical methods used in speech alignment, particularly Hidden Markov Models and their main problems, as well as Gaussian Mixture models, a type of Hidden Markov Models that are used in speech alignment to model a continuous signal.
Additionally, this paper describes two speech recognition toolkits that use Hidden Markov Models, HTK and Julius, and a number of speech segmentation tools based on them.
Finally, a forced alignment tool that uses hidden Markov models and Viterbi algorithm was developed for the Latvian language, since no such tool currently exists.