Latviešu zīmju valodas atpazīšana: eksperimentāla mašīnmācīšanas modeļa izstrāde
Автор
Neimane, Liene Krista
Co-author
Latvijas Universitāte. Eksakto zinātņu un tehnoloģiju fakultāte
Advisor
Paikens, Pēteris
Дата
2024Metadata
Показать полную информациюАннотации
Šī bakalaura darba mērķis ir izstrādāt un praktiski ieviest eksperimentālu risinājumu latviešu zīmju valodas (LZV) atpazīšanai, izmantojot mašīnmācīšanās un datorredzes tehnoloģijas. Darbu izstrādāt rosināja Latvijā pastāvošās informācijas pieejamības problēmas nedzirdīgo kopienai un LZV pētījumu trūkums tehnoloģiju jomā. Viens no darba galvenajiem mērķiem ir pārbaudīt, vai ar ierobežotiem resursiem iespējams izveidot nepārtrauktu LZV atpazīšanas modeli ar pieņemamu (20% WER) zīmju atpazīšanas precizitāti. Darba ietvaros ir izveidots un apstrādāts 45 simbolu – 44 zīmju un pauzes – LZV video korpuss, veikta datu pārveide ar MediaPipe ietvaru un dažādām priekšapstrādes metodēm. Darba gaitā ir arī realizēti amerikāņu zīmju valodas (ASL) atpazīšanas modeļi, kas pielāgoti LZV atpazīšanai. Modeļa arhitektūra iekļauj BiLSTM neironu tīklu un CTC zuduma funkciju. Modeļu efektivitāte ir analizēta, izmantojot WER metriku uz validācijas un testa kopu. Darba rezultātā ir apmācīts 21 ASL un vairāk nekā 500 LZV atpazīšanas modeļu, kur labākais LZV modelis sasniedza 16.3% WER. Tas nozīmē tikai aptuveni vienu kļūdu uz katrām sešām atpazītām zīmēm, demonstrējot diezgan augstu precizitāti, ņemot vērā nelielo datu apjomu un eksperimentālo pieeju. Tas tika paveikts, izmantojot pakāpenisku 3 fāžu pielāgošanu uz ASL datiem, dažādas augmentācijas un treniņdatos izmantojot tikai 42 MediaPipe roku orientierus. The objective of this bachelor's thesis is to develop and practically implement an experimental solution for Latvian Sign Language (LSL) recognition using machine learning and computer vision technologies. The motivation for this work stems from the issue of information accessibility for the deaf community in Latvia and the lack of research on LSL in the field of technology. One of the main goals of the work is to examine whether it is possible to build a continuous LSL recognition model with limited resources that achieves acceptable sign recognition accuracy (20% WER). As part of the work, a video corpus of 45 symbols – 44 signs and a pause – was created and processed. Data transformation was carried out using the MediaPipe framework and various preprocessing methods. During the project, American Sign Language (ASL) recognition models were also implemented and adapted for recognizing LSL. The model architecture includes a BiLSTM neural network and a CTC loss function. Model performance was evaluated using the WER metric on validation and test sets. As a result, 21 ASL and over 500 LSL recognition models were trained. The best LSL model achieved a WER of 16.3%, which corresponds to approximately one error per six recognized signs, demonstrating relatively high accuracy given the limited amount of data and the experimental approach. This was achieved through a gradual three-phase adaptation process on ASL data, various augmentation techniques, and by using only 42 MediaPipe hand landmarks in the training data.