Samazināta valodas modeļa izstrāde, kas paredzēts  konkrētam NLP uzdevumam

Leyko, Mykhailo

Öffnen

302-109469-LeikoLeyko_MihailoMykhailo_ml21121.pdf (2.043Mb)

Autor

Leyko, Mykhailo

Co-author

Latvijas Universitāte. Eksakto zinātņu un tehnoloģiju fakultāte

Advisor

Rivošs, Aleksandrs

Datum

2025

Metadata

Zur Langanzeige

Zusammenfassung

Šis darbs ietver neliela mēroga GPT tipa valodas modeļa izstrādi ar tā iepriekšēju apmācību no nulles. Galvenā uzmanība tika pievērsta praktiskās pieredzes iegūšanai visos lielo valodas modeļu izstrādes posmos – tokenizācijā, modeļa arhitektūras izstrādē, datu sagatavošanā, apmācībā un precizēšanā. Gala modelis ar 89 miljoniem parametru tika apmācīts ar 2,8 miljardiem tokenu. Tas tika novērtēts ar teksta klasifikācijas un kopsavilkuma uzdevumiem. Neskatoties uz modeļa nelielu izmēru, modelis uzrādīja daudzsološus rezultātus, apstiprinot iespēju apmācīt uz transformeriem balstītus modeļus ierobežotos skaitļošanas resursu pieejamības apstākļos.

This thesis involves designing and pretraining a small-scale GPT-type language model from scratch. The focus was on having hands-on experience with every aspect of LLM development — tokenization, model design, data preparation, training and fine-tuning. The final 89M parameter model was trained with 2.8 billion tokens and evaluated for text classification and summarization. Despite its small size, the model demonstrated promising performance, achieving a validation perplexity of 47.7, which confirms the feasibility of training transformer-based models in limited computational settings.

URI

https://dspace.lu.lv/dspace/handle/7/71520

Collections

Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses [6168]