Show simple item record

dc.contributor.advisorPaikens, Pēteris
dc.contributor.authorTurnis, Ronalds
dc.contributor.otherLatvijas Universitāte. Datorikas fakultāte
dc.date.accessioned2024-06-20T01:04:29Z
dc.date.available2024-06-20T01:04:29Z
dc.date.issued2024
dc.identifier.other102910
dc.identifier.urihttps://dspace.lu.lv/dspace/handle/7/66131
dc.description.abstractMūsdienu plašā lielo valodas modeļu pieejamība un izmantojamība angļu valodā rod nepieciešamību izprast modeļu pielāgošanas nosacījumus dabiskās valodas apstrādes uzdevumu risināšanai reģionam atbilstošā valodā. Lai sasniegtu vēlamos rezultātus kādā no dabiskās valodas apstrādes uzdevumiem, modeļu pielāgošanas un satura regulēšanas procesā ir jāizmanto atbilstošas datu kopas. Tā kā viens no svarīgākajiem faktoriem modeļa pielāgošanas procesā ir datu kopas saturs, tad ir svarīgi noskaidrot, vai šo datu kopu tulkošanai ir nozīme modeļu lokalizācijai latviešu valodā. Šajā darbā tiek aplūkotas dažādas pieejas, kā veikt modeļa pielāgošanu un satura regulēšanu – saglabājot datu kopu tās sākotnējā stāvoklī vai tulkojot to, izmantojot mašīntulkošanu. Īpaši jāuzsver pielāgoto modeļu valodas, ētikas, sociālie un kultūras aspekti, analizējot, kā modelim sniegtās instrukcijas sekmē modeļa spēju ievērot šos aspektus latviešu valodā.
dc.description.abstractToday's wide availability and usability of large language models in English makes it necessary to understand the conditions of fine-tuning of models for solving natural language processing tasks in a regionally appropriate language. In order to achieve the desired results in any natural language processing task, appropriate datasets must be used in the process of model fine-tuning and content regulation. Since one of the most important factors in the model fine-tuning process is the content of the dataset, it is important to find out whether the translation of these datasets is important for the localization of the models in Latvian language. This paper examines different approaches to perform model fine-tuning and content regulation - keeping the dataset in its original state or translating it using machine translation. The linguistic, ethical, social and cultural aspects of the adapted models should be especially emphasized, analyzing how the instructions provided to the model contribute to the model's ability to comply with these aspects in Latvian language.
dc.language.isolav
dc.publisherLatvijas Universitāte
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subjectDatorzinātne
dc.subjectLielie valodas modeļi
dc.subjectSatura regulēšana
dc.subjectDatu kopa
dc.subjectLatviešu valoda
dc.subjectTulkošana
dc.titleApmācības datu kopas tulkošanas ietekme uz lielo valodas modeļu satura regulēšanu
dc.title.alternativeEffects of training dataset translation on content regulation of large language models
dc.typeinfo:eu-repo/semantics/bachelorThesis


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record