Apmācības datu kopas tulkošanas ietekme uz lielo valodas modeļu satura regulēšanu

Turnis, Ronalds

View/Open

302-102910-Turnis_Ronalds_rt20018.pdf (4.540Mb)

Author

Turnis, Ronalds

Co-author

Latvijas Universitāte. Datorikas fakultāte

Advisor

Paikens, Pēteris

Date

2024

Metadata

Show full item record

Abstract

Mūsdienu plašā lielo valodas modeļu pieejamība un izmantojamība angļu valodā rod nepieciešamību izprast modeļu pielāgošanas nosacījumus dabiskās valodas apstrādes uzdevumu risināšanai reģionam atbilstošā valodā. Lai sasniegtu vēlamos rezultātus kādā no dabiskās valodas apstrādes uzdevumiem, modeļu pielāgošanas un satura regulēšanas procesā ir jāizmanto atbilstošas datu kopas. Tā kā viens no svarīgākajiem faktoriem modeļa pielāgošanas procesā ir datu kopas saturs, tad ir svarīgi noskaidrot, vai šo datu kopu tulkošanai ir nozīme modeļu lokalizācijai latviešu valodā. Šajā darbā tiek aplūkotas dažādas pieejas, kā veikt modeļa pielāgošanu un satura regulēšanu – saglabājot datu kopu tās sākotnējā stāvoklī vai tulkojot to, izmantojot mašīntulkošanu. Īpaši jāuzsver pielāgoto modeļu valodas, ētikas, sociālie un kultūras aspekti, analizējot, kā modelim sniegtās instrukcijas sekmē modeļa spēju ievērot šos aspektus latviešu valodā.

Today's wide availability and usability of large language models in English makes it necessary to understand the conditions of fine-tuning of models for solving natural language processing tasks in a regionally appropriate language. In order to achieve the desired results in any natural language processing task, appropriate datasets must be used in the process of model fine-tuning and content regulation. Since one of the most important factors in the model fine-tuning process is the content of the dataset, it is important to find out whether the translation of these datasets is important for the localization of the models in Latvian language. This paper examines different approaches to perform model fine-tuning and content regulation - keeping the dataset in its original state or translating it using machine translation. The linguistic, ethical, social and cultural aspects of the adapted models should be especially emphasized, analyzing how the instructions provided to the model contribute to the model's ability to comply with these aspects in Latvian language.

URI

https://dspace.lu.lv/dspace/handle/7/66131

Collections

Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses [6168]