Show simple item record

dc.contributor.advisorBalodis, Kaspars
dc.contributor.authorLeimane, Viktorija
dc.contributor.otherLatvijas Universitāte. Datorikas fakultāte
dc.date.accessioned2023-09-05T01:04:57Z
dc.date.available2023-09-05T01:04:57Z
dc.date.issued2023
dc.identifier.other94329
dc.identifier.urihttps://dspace.lu.lv/dspace/handle/7/63255
dc.description.abstractDaudzvalodīga lietotāju nodomu noteikšana ir būtiska virtuālo asistentu darbībā, un klientu apkalpošanas automatizācija kļūst arvien izdevīgāka un aktuālāka. Lietotāju nodomi tiek noteikti vispirms attēlojot lietotāja ievadīto tekstu daudzdimensionālā vektoru telpā jeb jēdzientelpā. Pēc tam mašīnmācīšanās modelis klasificē vektorā izteikto nodomu, lai piegādātu lietotājiem nepieciešamo informāciju. Darbā tiek izmantots anotēts nodomu noteikšanas korpuss, kas satur lietotāja ievadu un nodomu pārus angļu, latviešu, krievu, igauņu un lietuviešu valodās. Pētījumā tiek salīdzināta nodomu noteikšanas precizitāte divām daudzvalodu jēdzientelpām (ģenerētas ar mBERT un XLM-RoBERTa modeļiem) un divu veidu ievaddatu valodām (oriģinālvalodā un mašīntulkojumā uz angļu valodu), testējot nodomu klasifikācijas modeli, kas apmācīts: a) uz tās pašas valodas korpusa; b) uz visu piecu valodu korpusa; c) tikai uz angļu valodas korpusa. Rezultāti liecina par to, ka daudzvalodīgas jēdzientelpas un apmācības uz daudzvalodu korpusiem var uzlabot nodomu noteikšanas precizitāti, bet atkarībā no valodas var būt atšķirīgi rezultāti.
dc.description.abstractMultilingual user intent recognition is essential in the operation of virtual assistants, and automated customer service becomes increasingly cost-effective and relevant. User intents are determined by mapping input text strings to a multidimensional vector space or word embeddings. Then based on the word embedding a machine learning model classifies the intent to deliver the necessary information to users. This work uses an annotated corpus for intent determination, containing user input and intent pairs in English, Latvian, Russian, Estonian, and Lithuanian. The study compares the accuracy of intent detection for multilingual word embeddings generated by mBERT and XLM-RoBERTa models, as well as three different intent detection approaches for each language (in the original language and machine translated into English), testing the intent classification model trained on: a) the same language corpus; b) the corpus of all five languages; c) only the English language corpus. The results indicate that multilingual word embeddings and training on multilingual corpora can improve intent detection accuracy, but results may vary depending on the language.
dc.language.isolav
dc.publisherLatvijas Universitāte
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subjectDatorzinātne
dc.subjectdaudzvalodīgas jēdzientelpas
dc.subjectnodomu noteikšana
dc.subjectmBERT
dc.subjectXLM-RoBERTa
dc.titleDaudzvalodīgu jēdzientelpu pielietojums nodomu noteikšanā
dc.title.alternativeThe use of multilingual word embeddings for intent detection
dc.typeinfo:eu-repo/semantics/masterThesis


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record