• English
    • Latviešu
    • Deutsch
    • русский
  • Help
  • Latviešu 
    • English
    • Latviešu
    • Deutsch
    • русский
  • Login
View Item 
  •   DSpace Home
  • B4 – LU fakultātes / Faculties of the UL
  • A -- Eksakto zinātņu un tehnoloģiju fakultāte / Faculty of Science and Technology
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses
  • View Item
  •   DSpace Home
  • B4 – LU fakultātes / Faculties of the UL
  • A -- Eksakto zinātņu un tehnoloģiju fakultāte / Faculty of Science and Technology
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Samazināta valodas modeļa izstrāde, kas paredzēts konkrētam NLP uzdevumam

Thumbnail
View/Open
302-109469-LeikoLeyko_MihailoMykhailo_ml21121.pdf (2.043Mb)
Author
Leyko, Mykhailo
Co-author
Latvijas Universitāte. Eksakto zinātņu un tehnoloģiju fakultāte
Advisor
Rivošs, Aleksandrs
Date
2025
Metadata
Show full item record
Abstract
Šis darbs ietver neliela mēroga GPT tipa valodas modeļa izstrādi ar tā iepriekšēju apmācību no nulles. Galvenā uzmanība tika pievērsta praktiskās pieredzes iegūšanai visos lielo valodas modeļu izstrādes posmos – tokenizācijā, modeļa arhitektūras izstrādē, datu sagatavošanā, apmācībā un precizēšanā. Gala modelis ar 89 miljoniem parametru tika apmācīts ar 2,8 miljardiem tokenu. Tas tika novērtēts ar teksta klasifikācijas un kopsavilkuma uzdevumiem. Neskatoties uz modeļa nelielu izmēru, modelis uzrādīja daudzsološus rezultātus, apstiprinot iespēju apmācīt uz transformeriem balstītus modeļus ierobežotos skaitļošanas resursu pieejamības apstākļos.
 
This thesis involves designing and pretraining a small-scale GPT-type language model from scratch. The focus was on having hands-on experience with every aspect of LLM development — tokenization, model design, data preparation, training and fine-tuning. The final 89M parameter model was trained with 2.8 billion tokens and evaluated for text classification and summarization. Despite its small size, the model demonstrated promising performance, achieving a validation perplexity of 47.7, which confirms the feasibility of training transformer-based models in limited computational settings.
 
URI
https://dspace.lu.lv/dspace/handle/7/71520
Collections
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses [6025]

University of Latvia
Contact Us | Send Feedback
Theme by 
@mire NV
 

 

Browse

All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

My Account

Login

Statistics

View Usage Statistics

University of Latvia
Contact Us | Send Feedback
Theme by 
@mire NV