Daudzvalodīgu jēdzientelpu pielietojums nodomu noteikšanā

Leimane, Viktorija

dc.contributor.advisor	Balodis, Kaspars
dc.contributor.author	Leimane, Viktorija
dc.contributor.other	Latvijas Universitāte. Datorikas fakultāte
dc.date.accessioned	2023-09-05T01:04:57Z
dc.date.available	2023-09-05T01:04:57Z
dc.date.issued	2023
dc.identifier.other	94329
dc.identifier.uri	https://dspace.lu.lv/dspace/handle/7/63255
dc.description.abstract	Daudzvalodīga lietotāju nodomu noteikšana ir būtiska virtuālo asistentu darbībā, un klientu apkalpošanas automatizācija kļūst arvien izdevīgāka un aktuālāka. Lietotāju nodomi tiek noteikti vispirms attēlojot lietotāja ievadīto tekstu daudzdimensionālā vektoru telpā jeb jēdzientelpā. Pēc tam mašīnmācīšanās modelis klasificē vektorā izteikto nodomu, lai piegādātu lietotājiem nepieciešamo informāciju. Darbā tiek izmantots anotēts nodomu noteikšanas korpuss, kas satur lietotāja ievadu un nodomu pārus angļu, latviešu, krievu, igauņu un lietuviešu valodās. Pētījumā tiek salīdzināta nodomu noteikšanas precizitāte divām daudzvalodu jēdzientelpām (ģenerētas ar mBERT un XLM-RoBERTa modeļiem) un divu veidu ievaddatu valodām (oriģinālvalodā un mašīntulkojumā uz angļu valodu), testējot nodomu klasifikācijas modeli, kas apmācīts: a) uz tās pašas valodas korpusa; b) uz visu piecu valodu korpusa; c) tikai uz angļu valodas korpusa. Rezultāti liecina par to, ka daudzvalodīgas jēdzientelpas un apmācības uz daudzvalodu korpusiem var uzlabot nodomu noteikšanas precizitāti, bet atkarībā no valodas var būt atšķirīgi rezultāti.
dc.description.abstract	Multilingual user intent recognition is essential in the operation of virtual assistants, and automated customer service becomes increasingly cost-effective and relevant. User intents are determined by mapping input text strings to a multidimensional vector space or word embeddings. Then based on the word embedding a machine learning model classifies the intent to deliver the necessary information to users. This work uses an annotated corpus for intent determination, containing user input and intent pairs in English, Latvian, Russian, Estonian, and Lithuanian. The study compares the accuracy of intent detection for multilingual word embeddings generated by mBERT and XLM-RoBERTa models, as well as three different intent detection approaches for each language (in the original language and machine translated into English), testing the intent classification model trained on: a) the same language corpus; b) the corpus of all five languages; c) only the English language corpus. The results indicate that multilingual word embeddings and training on multilingual corpora can improve intent detection accuracy, but results may vary depending on the language.
dc.language.iso	lav
dc.publisher	Latvijas Universitāte
dc.rights	info:eu-repo/semantics/openAccess
dc.subject	Datorzinātne
dc.subject	daudzvalodīgas jēdzientelpas
dc.subject	nodomu noteikšana
dc.subject	mBERT
dc.subject	XLM-RoBERTa
dc.title	Daudzvalodīgu jēdzientelpu pielietojums nodomu noteikšanā
dc.title.alternative	The use of multilingual word embeddings for intent detection
dc.type	info:eu-repo/semantics/masterThesis

Files in this item

Name:: 302-94329-Leimane_Viktorija_vl ...
Size:: 1.591Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses [5688]

Show simple item record