• English
    • Latviešu
    • Deutsch
    • русский
  • Help
  • Deutsch 
    • English
    • Latviešu
    • Deutsch
    • русский
  • Einloggen
Dokumentanzeige 
  •   DSpace Startseite
  • B4 – LU fakultātes / Faculties of the UL
  • A -- Eksakto zinātņu un tehnoloģiju fakultāte / Faculty of Science and Technology
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses
  • Dokumentanzeige
  •   DSpace Startseite
  • B4 – LU fakultātes / Faculties of the UL
  • A -- Eksakto zinātņu un tehnoloģiju fakultāte / Faculty of Science and Technology
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses
  • Dokumentanzeige
JavaScript is disabled for your browser. Some features of this site may not work without it.

Apmācības datu kopas tulkošanas ietekme uz lielo valodas modeļu satura regulēšanu

Thumbnail
Öffnen
302-102910-Turnis_Ronalds_rt20018.pdf (4.540Mb)
Autor
Turnis, Ronalds
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Paikens, Pēteris
Datum
2024
Metadata
Zur Langanzeige
Zusammenfassung
Mūsdienu plašā lielo valodas modeļu pieejamība un izmantojamība angļu valodā rod nepieciešamību izprast modeļu pielāgošanas nosacījumus dabiskās valodas apstrādes uzdevumu risināšanai reģionam atbilstošā valodā. Lai sasniegtu vēlamos rezultātus kādā no dabiskās valodas apstrādes uzdevumiem, modeļu pielāgošanas un satura regulēšanas procesā ir jāizmanto atbilstošas datu kopas. Tā kā viens no svarīgākajiem faktoriem modeļa pielāgošanas procesā ir datu kopas saturs, tad ir svarīgi noskaidrot, vai šo datu kopu tulkošanai ir nozīme modeļu lokalizācijai latviešu valodā. Šajā darbā tiek aplūkotas dažādas pieejas, kā veikt modeļa pielāgošanu un satura regulēšanu – saglabājot datu kopu tās sākotnējā stāvoklī vai tulkojot to, izmantojot mašīntulkošanu. Īpaši jāuzsver pielāgoto modeļu valodas, ētikas, sociālie un kultūras aspekti, analizējot, kā modelim sniegtās instrukcijas sekmē modeļa spēju ievērot šos aspektus latviešu valodā.
 
Today's wide availability and usability of large language models in English makes it necessary to understand the conditions of fine-tuning of models for solving natural language processing tasks in a regionally appropriate language. In order to achieve the desired results in any natural language processing task, appropriate datasets must be used in the process of model fine-tuning and content regulation. Since one of the most important factors in the model fine-tuning process is the content of the dataset, it is important to find out whether the translation of these datasets is important for the localization of the models in Latvian language. This paper examines different approaches to perform model fine-tuning and content regulation - keeping the dataset in its original state or translating it using machine translation. The linguistic, ethical, social and cultural aspects of the adapted models should be especially emphasized, analyzing how the instructions provided to the model contribute to the model's ability to comply with these aspects in Latvian language.
 
URI
https://dspace.lu.lv/dspace/handle/7/66131
Collections
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses [5688]

University of Latvia
Kontakt | Feedback abschicken
Theme by 
@mire NV
 

 

Stöbern

Gesamter BestandBereiche & SammlungenErscheinungsdatumAutorenTitelnSchlagwortenDiese SammlungErscheinungsdatumAutorenTitelnSchlagworten

Mein Benutzerkonto

Einloggen

Statistik

Benutzungsstatistik

University of Latvia
Kontakt | Feedback abschicken
Theme by 
@mire NV