Apmācības datu kopas tulkošanas ietekme uz lielo valodas modeļu satura regulēšanu

Turnis, Ronalds

dc.contributor.advisor	Paikens, Pēteris
dc.contributor.author	Turnis, Ronalds
dc.contributor.other	Latvijas Universitāte. Datorikas fakultāte
dc.date.accessioned	2024-06-20T01:04:29Z
dc.date.available	2024-06-20T01:04:29Z
dc.date.issued	2024
dc.identifier.other	102910
dc.identifier.uri	https://dspace.lu.lv/dspace/handle/7/66131
dc.description.abstract	Mūsdienu plašā lielo valodas modeļu pieejamība un izmantojamība angļu valodā rod nepieciešamību izprast modeļu pielāgošanas nosacījumus dabiskās valodas apstrādes uzdevumu risināšanai reģionam atbilstošā valodā. Lai sasniegtu vēlamos rezultātus kādā no dabiskās valodas apstrādes uzdevumiem, modeļu pielāgošanas un satura regulēšanas procesā ir jāizmanto atbilstošas datu kopas. Tā kā viens no svarīgākajiem faktoriem modeļa pielāgošanas procesā ir datu kopas saturs, tad ir svarīgi noskaidrot, vai šo datu kopu tulkošanai ir nozīme modeļu lokalizācijai latviešu valodā. Šajā darbā tiek aplūkotas dažādas pieejas, kā veikt modeļa pielāgošanu un satura regulēšanu – saglabājot datu kopu tās sākotnējā stāvoklī vai tulkojot to, izmantojot mašīntulkošanu. Īpaši jāuzsver pielāgoto modeļu valodas, ētikas, sociālie un kultūras aspekti, analizējot, kā modelim sniegtās instrukcijas sekmē modeļa spēju ievērot šos aspektus latviešu valodā.
dc.description.abstract	Today's wide availability and usability of large language models in English makes it necessary to understand the conditions of fine-tuning of models for solving natural language processing tasks in a regionally appropriate language. In order to achieve the desired results in any natural language processing task, appropriate datasets must be used in the process of model fine-tuning and content regulation. Since one of the most important factors in the model fine-tuning process is the content of the dataset, it is important to find out whether the translation of these datasets is important for the localization of the models in Latvian language. This paper examines different approaches to perform model fine-tuning and content regulation - keeping the dataset in its original state or translating it using machine translation. The linguistic, ethical, social and cultural aspects of the adapted models should be especially emphasized, analyzing how the instructions provided to the model contribute to the model's ability to comply with these aspects in Latvian language.
dc.language.iso	lav
dc.publisher	Latvijas Universitāte
dc.rights	info:eu-repo/semantics/openAccess
dc.subject	Datorzinātne
dc.subject	Lielie valodas modeļi
dc.subject	Satura regulēšana
dc.subject	Datu kopa
dc.subject	Latviešu valoda
dc.subject	Tulkošana
dc.title	Apmācības datu kopas tulkošanas ietekme uz lielo valodas modeļu satura regulēšanu
dc.title.alternative	Effects of training dataset translation on content regulation of large language models
dc.type	info:eu-repo/semantics/bachelorThesis

Files in this item

Name:: 302-102910-Turnis_Ronalds_rt20 ...
Size:: 4.540Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses [5688]

Show simple item record