Neirona tīkla izveide, to īpašību izpēte un pielietošanās iespējas latviešu valodas vārdu nozīmju nošķiršanai

Čižikovs, Maksims

dc.contributor.advisor	Paikens, Pēteris
dc.contributor.author	Čižikovs, Maksims
dc.contributor.other	Latvijas Universitāte. Datorikas fakultāte
dc.date.accessioned	2023-09-06T01:03:47Z
dc.date.available	2023-09-06T01:03:47Z
dc.date.issued	2023
dc.identifier.other	96285
dc.identifier.uri	https://dspace.lu.lv/dspace/handle/7/64315
dc.description.abstract	Ar digitālās komunikācijas straujo paplašināšanos, nepieciešamība pēc progresīvām dabiskās valodas apstrādes (NLP) tehnikām ir ievērojami pieaugusi. Vārdu nozīmes nošķiršana (WSD), kas ir būtisks uzdevums NLP, ir īpaši interesanta, jo tā var uzlabot teksta datu izpratni. Tomēr WSD latviešu valodā rada konkrētas problēmas sakarā ar valodas sarežģīto gramatiku un unikālajiem lingvistiskajiem elementiem. Šis pētījums mēģina risināt šo trūkumu, izpētot un salīdzinot mūsdienu mašīnmācīšanās un dziļās mācīšanās algoritmu sniegumu WSD uzdevumā latviešu valodā. Šajā pētījumā mēs izmantojam latviešu valodas korpusu un piemērojam dažādus NLP modeļus, ieskaitot tradicionālās metodes, kā arī jaunākās metodes, piemēram, Transformer, BERT. Katrs modelis tiek novērtēts, balstoties uz tā sniegumu WSD uzdevumā. Metodoloģija ietver datu priekšapstrādi, modeļu apmācību un smalku pielāgošanu, kā arī snieguma novērtēšanu. Novērtējam un salīdzinām modeļu efektivitāti, izmantojot precizitātes metrikas. Mūsu sākotnējie rezultāti liecina, ka dziļās mācīšanās modeļi dod cerīgus rezultātus, risinot WSD uzdevumu latviešu valodā, un daži modeļi parāda labākus rezultātus nekā citi. Šis darbs piedāvā visaptverošu WSD modeļu salīdzinājumu latviešu valodā un atklājot dziļās mācīšanās potenciālu, risinot valodai specifiskas NLP problēmas.
dc.description.abstract	With the rapid expansion of digital communication, the necessity for advanced natural language processing (NLP) techniques has grown significantly. Word Sense Disambiguation (WSD), an essential task in NLP, is of particular interest due to its potential to enhance the understanding of text data. However, WSD for the Latvian language poses specific challenges due to the language's complex grammar and unique linguistic features. This study aims to address this gap by exploring and comparing the performance of state-of-the-art machine learning and deep learning algorithms for WSD in the Latvian language. In this study, we utilize a Latvian language corpus and apply various NLP models including traditional methods as well as cutting-edge models like Transformers, BERT. Each model is evaluated based on its performance on the WSD task. The methodology includes data preprocessing, model training and fine-tuning, and performance evaluation. Using precision, recall, and other metrics, we assess and compare the effectiveness of the models. Our preliminary results suggest that deep learning models provide promising results in addressing WSD in the Latvian language, with certain models showing superior performance over others. This work contributes to the existing literature by providing a comprehensive comparative analysis of WSD models for the Latvian language and shedding light on the potential of deep learning in tackling language-specific NLP problems.
dc.language.iso	lav
dc.publisher	Latvijas Universitāte
dc.rights	info:eu-repo/semantics/openAccess
dc.subject	Datorzinātne
dc.subject	NLP
dc.subject	WSD
dc.subject	latviešu valoda
dc.subject	mašīnmācīšanās
dc.subject	BERT
dc.title	Neirona tīkla izveide, to īpašību izpēte un pielietošanās iespējas latviešu valodas vārdu nozīmju nošķiršanai
dc.title.alternative	Creation of a neural network, investigation of its properties, and opportunities for application in distinguishing latvian word meanings
dc.type	info:eu-repo/semantics/bachelorThesis

Files in this item

Name:: 302-96285-Cizikovs_Maksims_mc1 ...
Size:: 1.247Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Bakalaura un maģistra darbi (DF) / Bachelor's and Master's theses [3341]

Show simple item record