• English
    • Latviešu
    • Deutsch
    • русский
  • Help
  • Deutsch 
    • English
    • Latviešu
    • Deutsch
    • русский
  • Einloggen
Dokumentanzeige 
  •   DSpace Startseite
  • B4 – LU fakultātes / Faculties of the UL
  • A -- Eksakto zinātņu un tehnoloģiju fakultāte / Faculty of Science and Technology
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses
  • Dokumentanzeige
  •   DSpace Startseite
  • B4 – LU fakultātes / Faculties of the UL
  • A -- Eksakto zinātņu un tehnoloģiju fakultāte / Faculty of Science and Technology
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses
  • Dokumentanzeige
JavaScript is disabled for your browser. Some features of this site may not work without it.

Lielo valodas modeļu pielietošana sekundārās terminrades atbaslstīšanai

Thumbnail
Öffnen
302-107956-Cizikovs_Maksims_mc19018.pdf (614.7Kb)
Autor
Čižikovs, Maksims
Co-author
Latvijas Universitāte. Eksakto zinātņu un tehnoloģiju fakultāte
Advisor
Zuters, Jānis
Datum
2025
Metadata
Zur Langanzeige
Zusammenfassung
Maģistra darbs piedāvā specializētu lielo valodas modeli, kas ģenerē normatīvi korektus un semantiski precīzus latviešu ekvivalentus informācijas tehnoloģiju (IKT) angļu terminiem, tādējādi atbalstot sekundāro terminradi. Empīriskajam pamatam izmantots Latvijas Zinātņu akadēmijas Terminoloģijas komisijas lēmumu kopums (~8 600 ieraksti, 2005 – 2025), kas papildus bagātināts ar laika un domēna metadatiem. Darba gaitā uz transformera bāzes modeļa (Helsinki-NLP/opus-mt-tc-big-en-lv, ~300 M parametru) veikta precīza pielāgošana (fine-tuning) uz specializētā korpusa; apmācība realizēta ar NVIDIA RTX 4080 16 GB GPU. Pirmsapstrādē dati apstrādāti, bagātināti vai kontekstualizēti, sinonīmu grupas sadalītas. Modeļa kvalitāte novērtēta ar BLEU = 91.34, chrF++ = 72.54 un TER = 42.66 uz neatkarīgas testa kopas, kas pārsniedz sākotnējā pirmsapmācītā modeļa rādītājus par 20+ %. Rezultātā radīts publiski pieejams modelis, kas demonstrē lielo valodas modeļu potenciālu latviešu IKT terminoloģijas ģenerēšanā un var kalpot par pamatu turpmākiem pētnieciskiem darbiem.
 
Master’s thesis “Application of Large Language Models for Supporting Secondary Terminology Creation” presents a specialised neural-network model whose goal is to generate normatively correct and semantically precise Latvian equivalents for English information-technology (IT) terms. The empirical basis is a decision set of the Terminology Commission of the Latvian Academy of Sciences (≈ 8,600 entries, 2005 – 2025), further enriched with temporal and domain-specific metadata. A full fine-tuning cycle was carried out on the specialised corpus using the transformer base model (Helsinki-NLP/opus-mt-tc-big-en-lv, ≈ 300 M parameters); training was performed on a NVIDIA RTX 4080 16 GB GPU. During pre-processing the data were cleaned, enriched or contextualised, and synonym groups were split. Model quality was evaluated with BLEU = 91.34, chrF++ = 72.54 un TER = 42.66 on an independent test set, exceeding the scores of the original pre-trained model by 20+ %. As a result, a publicly available model has been created that demonstrates the great potential of language models in generating Latvian ICT terminology and can serve as a basis for further research.
 
URI
https://dspace.lu.lv/dspace/handle/7/71083
Collections
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses [6025]

University of Latvia
Kontakt | Feedback abschicken
Theme by 
@mire NV
 

 

Stöbern

Gesamter BestandBereiche & SammlungenErscheinungsdatumAutorenTitelnSchlagwortenDiese SammlungErscheinungsdatumAutorenTitelnSchlagworten

Mein Benutzerkonto

Einloggen

Statistik

Benutzungsstatistik

University of Latvia
Kontakt | Feedback abschicken
Theme by 
@mire NV