Daudzvalodīgu jēdzientelpu pielietojums nodomu noteikšanā
Author
Leimane, Viktorija
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Balodis, Kaspars
Date
2023Metadata
Show full item recordAbstract
Daudzvalodīga lietotāju nodomu noteikšana ir būtiska virtuālo asistentu darbībā, un klientu apkalpošanas automatizācija kļūst arvien izdevīgāka un aktuālāka. Lietotāju nodomi tiek noteikti vispirms attēlojot lietotāja ievadīto tekstu daudzdimensionālā vektoru telpā jeb jēdzientelpā. Pēc tam mašīnmācīšanās modelis klasificē vektorā izteikto nodomu, lai piegādātu lietotājiem nepieciešamo informāciju. Darbā tiek izmantots anotēts nodomu noteikšanas korpuss, kas satur lietotāja ievadu un nodomu pārus angļu, latviešu, krievu, igauņu un lietuviešu valodās. Pētījumā tiek salīdzināta nodomu noteikšanas precizitāte divām daudzvalodu jēdzientelpām (ģenerētas ar mBERT un XLM-RoBERTa modeļiem) un divu veidu ievaddatu valodām (oriģinālvalodā un mašīntulkojumā uz angļu valodu), testējot nodomu klasifikācijas modeli, kas apmācīts: a) uz tās pašas valodas korpusa; b) uz visu piecu valodu korpusa; c) tikai uz angļu valodas korpusa. Rezultāti liecina par to, ka daudzvalodīgas jēdzientelpas un apmācības uz daudzvalodu korpusiem var uzlabot nodomu noteikšanas precizitāti, bet atkarībā no valodas var būt atšķirīgi rezultāti. Multilingual user intent recognition is essential in the operation of virtual assistants, and automated customer service becomes increasingly cost-effective and relevant. User intents are determined by mapping input text strings to a multidimensional vector space or word embeddings. Then based on the word embedding a machine learning model classifies the intent to deliver the necessary information to users. This work uses an annotated corpus for intent determination, containing user input and intent pairs in English, Latvian, Russian, Estonian, and Lithuanian. The study compares the accuracy of intent detection for multilingual word embeddings generated by mBERT and XLM-RoBERTa models, as well as three different intent detection approaches for each language (in the original language and machine translated into English), testing the intent classification model trained on: a) the same language corpus; b) the corpus of all five languages; c) only the English language corpus. The results indicate that multilingual word embeddings and training on multilingual corpora can improve intent detection accuracy, but results may vary depending on the language.