• English
    • Latviešu
    • Deutsch
    • русский
  • Help
  • English 
    • English
    • Latviešu
    • Deutsch
    • русский
  • Login
View Item 
  •   DSpace Home
  • B4 – LU fakultātes / Faculties of the UL
  • A -- Eksakto zinātņu un tehnoloģiju fakultāte / Faculty of Science and Technology
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses
  • View Item
  •   DSpace Home
  • B4 – LU fakultātes / Faculties of the UL
  • A -- Eksakto zinātņu un tehnoloģiju fakultāte / Faculty of Science and Technology
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Apmācības datu kopas tulkošanas ietekme uz lielo valodas modeļu satura regulēšanu

Thumbnail
View/Open
302-102910-Turnis_Ronalds_rt20018.pdf (4.540Mb)
Author
Turnis, Ronalds
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Paikens, Pēteris
Date
2024
Metadata
Show full item record
Abstract
Mūsdienu plašā lielo valodas modeļu pieejamība un izmantojamība angļu valodā rod nepieciešamību izprast modeļu pielāgošanas nosacījumus dabiskās valodas apstrādes uzdevumu risināšanai reģionam atbilstošā valodā. Lai sasniegtu vēlamos rezultātus kādā no dabiskās valodas apstrādes uzdevumiem, modeļu pielāgošanas un satura regulēšanas procesā ir jāizmanto atbilstošas datu kopas. Tā kā viens no svarīgākajiem faktoriem modeļa pielāgošanas procesā ir datu kopas saturs, tad ir svarīgi noskaidrot, vai šo datu kopu tulkošanai ir nozīme modeļu lokalizācijai latviešu valodā. Šajā darbā tiek aplūkotas dažādas pieejas, kā veikt modeļa pielāgošanu un satura regulēšanu – saglabājot datu kopu tās sākotnējā stāvoklī vai tulkojot to, izmantojot mašīntulkošanu. Īpaši jāuzsver pielāgoto modeļu valodas, ētikas, sociālie un kultūras aspekti, analizējot, kā modelim sniegtās instrukcijas sekmē modeļa spēju ievērot šos aspektus latviešu valodā.
 
Today's wide availability and usability of large language models in English makes it necessary to understand the conditions of fine-tuning of models for solving natural language processing tasks in a regionally appropriate language. In order to achieve the desired results in any natural language processing task, appropriate datasets must be used in the process of model fine-tuning and content regulation. Since one of the most important factors in the model fine-tuning process is the content of the dataset, it is important to find out whether the translation of these datasets is important for the localization of the models in Latvian language. This paper examines different approaches to perform model fine-tuning and content regulation - keeping the dataset in its original state or translating it using machine translation. The linguistic, ethical, social and cultural aspects of the adapted models should be especially emphasized, analyzing how the instructions provided to the model contribute to the model's ability to comply with these aspects in Latvian language.
 
URI
https://dspace.lu.lv/dspace/handle/7/66131
Collections
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses [5688]

University of Latvia
Contact Us | Send Feedback
Theme by 
@mire NV
 

 

Browse

All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

My Account

Login

Statistics

View Usage Statistics

University of Latvia
Contact Us | Send Feedback
Theme by 
@mire NV