Valodas modeļi latviešu runas atpazīšanas sistēmai
Author
Strigins, Jevgenijs
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Salimbajevs, Askars
Date
2015Metadata
Show full item recordAbstract
Automātiskā runas atpazīšanas sistēma (no angļu valodas automatic speech recognition
– ASR) ir tāda sistēma, kas cilvēka izrunātos vārdus pārvērš tekstā. Tās pamata divas
sastāvdaļas ir akustiskais un valodas modelis. Darba mērķis ir detalizēti apskatīt metodes,
ar kurām tiek trenēti valodas modeļi, kā arī pārbaudīt, kā labākās no tām darbojas latviešu
runas atpazīšanā. Valodas modeļu trenēšanā tika izmantotas brīvi pieejamās rīkkopas
KenLM un SRILM.
Runas atpazīšanas eksperimentos, kuros tika izmantota brīvi pieejamā runas atpazīša-
nas rīkkopa Kaldi, tika identificētas problēmas, kādas rodas, valodas modeļus pielietojot
runas atpazīšanai klasiskā veidā. Modificējot klasisko pieeju, ar kuras valodas modeļi tiek
izmantoti runas atpazīšanā, tika iegūti būtiski uzlabojumi runas atpazīšanas kvalitātē. Automatic speech recognition (ASR) system is translation of spoken words into text. The
two major components of ASR are acoustic and language models. The goal of this work is
to make detailed review of methods that are used for training language models as well as
select the best method to check how well it works for latvian speech recognition. Language
models were trained using open source softwere Kenlm and Srilm.
Speech recognition experements were preformed using open source softwere Kaldi.
During them were identified problems, that accure while using languagle models for latvian
speech recognition in classical way. The modified methods of using them were proposed
and tested, which led to substantionally better results.