Samazināta valodas modeļa izstrāde, kas paredzēts konkrētam NLP uzdevumam
Author
Leyko, Mykhailo
Co-author
Latvijas Universitāte. Eksakto zinātņu un tehnoloģiju fakultāte
Advisor
Rivošs, Aleksandrs
Date
2025Metadata
Show full item recordAbstract
Šis darbs ietver neliela mēroga GPT tipa valodas modeļa izstrādi ar tā iepriekšēju apmācību no nulles. Galvenā uzmanība tika pievērsta praktiskās pieredzes iegūšanai visos lielo valodas modeļu izstrādes posmos – tokenizācijā, modeļa arhitektūras izstrādē, datu sagatavošanā, apmācībā un precizēšanā. Gala modelis ar 89 miljoniem parametru tika apmācīts ar 2,8 miljardiem tokenu. Tas tika novērtēts ar teksta klasifikācijas un kopsavilkuma uzdevumiem. Neskatoties uz modeļa nelielu izmēru, modelis uzrādīja daudzsološus rezultātus, apstiprinot iespēju apmācīt uz transformeriem balstītus modeļus ierobežotos skaitļošanas resursu pieejamības apstākļos. This thesis involves designing and pretraining a small-scale GPT-type language model from scratch. The focus was on having hands-on experience with every aspect of LLM development — tokenization, model design, data preparation, training and fine-tuning. The final 89M parameter model was trained with 2.8 billion tokens and evaluated for text classification and summarization. Despite its small size, the model demonstrated promising performance, achieving a validation perplexity of 47.7, which confirms the feasibility of training transformer-based models in limited computational settings.