Balss komandu atpazīšana
Author
Kuzmina, Katerina
Co-author
Latvijas Universitāte. Eksakto zinātņu un tehnoloģiju fakultāte
Advisor
Znotiņš, Artūrs
Date
2025Metadata
Show full item recordAbstract
Balss komandas kļūst par arvien izplatītāku veidu, kā mijiedarboties ar viedierīcēm, īpaši viedās mājas kontekstā. Lai šādas sistēmas darbotos efektīvi, ir nepieciešama īsu komandu uzticama atpazīšana. Šī maģistra darba mērķis ir izstrādāt un novērtēt automātisku runas atpazīšanas sistēmu, kas spēj interpretēt vienkāršas komandas, piemēram, "ieslēgt gaismu". Maģistra darba ietvaros tika ieviesta neironu tīkla arhitektūra, kuras pamatā ir konvolucionālie un rekurentie slāņi (CNN+LSTM), izmantojot CTC zaudējumu funkciju. Lai uzlabotu modeļa stabilitāti dažādos apstākļos, apmācības procesā tika izmantoti paplašinātie dati. Darba ietvaros tika veikts salīdzinājums ar jau esošiem rūpnieciskiem risinājumiem, piemēram, Whisper modeli, lai labāk izprastu izstrādātā modeļa stiprās un vājās puses konkrētā lietojuma kontekstā. Iegūtie rezultāti parāda, ka specializēti risinājumi spēj sekmīgi darboties šaurās pielietojuma jomās, vienlaikus sniedzot pamatu turpmākai attīstībai un optimizācijai. Sistēmas veiktspēja tika novērtēta attiecībā uz transkripcijas kvalitāti un klasifikācijas precizitāti dažādos testēšanas apstākļos, tostarp trokšņainā vidē un mainītā runas ātrumā. Iegūtie rezultāti apstiprina, ka modeļi, kas pielāgoti ļoti specializētiem uzdevumiem, var būt efektīvāki par vispārējas nozīmes risinājumiem konkrētās pielietojuma jomās. Voice commands are becoming an increasingly common method of interaction with smart devices, especially in the context of smart homes. For such systems to function effectively, reliable recognition of short commands is essential. The aim of this master’s thesis is to design and evaluate an automatic speech recognition system capable of interpreting simple commands such as “turn on the light.” As part of the master thesis, a neural network architecture based on convolutional and recurrent layers (CNN+LSTM) was implemented using the CTC loss function. Extended data was used in the training process to improve the robustness of the model under different conditions. The work included a comparison with existing industrial solutions such as the Whisper model to better understand the strengths and weaknesses of the developed model in the context of a specific application. The results show that specialized solutions are able to operate successfully in narrow application areas, while providing a basis for further development and optimization. The performance of the system was evaluated in terms of transcription quality and classification accuracy under a variety of test conditions, including noisy environments and varying speech rates. The results confirm that models tailored to highly specialized tasks can be more effective than general-purpose solutions in specific application domains.