• English
    • Latviešu
    • Deutsch
    • русский
  • Help
  • English 
    • English
    • Latviešu
    • Deutsch
    • русский
  • Login
View Item 
  •   DSpace Home
  • B4 – LU fakultātes / Faculties of the UL
  • A -- Eksakto zinātņu un tehnoloģiju fakultāte / Faculty of Science and Technology
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses
  • View Item
  •   DSpace Home
  • B4 – LU fakultātes / Faculties of the UL
  • A -- Eksakto zinātņu un tehnoloģiju fakultāte / Faculty of Science and Technology
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Lielo valodas modeļu salīdzināšana izmantojot mehānistisko interpretējamību

Thumbnail
View/Open
302-107928-Vitols_Andris_av20104.pdf (3.054Mb)
Author
Vītols, Andris
Co-author
Latvijas Universitāte. Eksakto zinātņu un tehnoloģiju fakultāte
Advisor
Šostaks, Agris
Date
2025
Metadata
Show full item record
Abstract
Lielie valodas modeļi (LLM) ir demonstrējuši dažādas augsta līmeņa spējas, tomēr joprojām nav skaidrs, kā modeļi veic noteiktas darbības, kuras tie apmācības rezultātā iemācās, piemēram, nepiemērota satura kontrole un instrukciju sekošana. Tas kavē LLM attīstību un to pielietojamību kā noderīgu un uzticamu rīku. Šajā darbā tiek apskatīta mehānistiskās interpretējamības pieeja ar starpkodētājiem (crosscoders), kas ļauj salīdzināt dažādu LLM versiju veidus, iegūstot modeļu interpretējamas iezīmes. Pētot šīs iezīmes tiek gūts ieskats par pētāmo modeļu iekšējiem darbības principiem. Apskatītas Qwen2.5-0.5B un Llama3.2-1B modeļu versijas, lietoti L1 un BatchTopK starpkodētāji, un izgūtas interpretējamas iezīmes. Atslēgas vārdi: iezīmju izgūšana, lielie valodas modeļi, mehānistiskā interpretējamība, modeļu salīdzināšana, retināti autoenkoderi, starpkodētāji
 
Large language models (LLMs) have demonstrated a variety of capabilities, yet there is uncertainty about how features are learned during model training, such as inappropriate content control and instruction following. This hinders LLM development and its wider adoption as a useful and reliable tool. In this paper mechanistic interpretability methods with crosscoders are examined, which allow comparing different types of LLM versions, obtaining interpretable features of the models. By studying these features, insight is gained into the internal workings of the models. The Qwen2.5-0.5B and Llama3.2-1B model versions and the L1 and BatchTopK crosscoders are used, and interpretable features are extracted. Key words: crosscoders, feature extraction, large language models, mechanistic interpretability, model diffing, sparse autoencoders
 
URI
https://dspace.lu.lv/dspace/handle/7/71073
Collections
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses [5901]

University of Latvia
Contact Us | Send Feedback
Theme by 
@mire NV
 

 

Browse

All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

My Account

Login

Statistics

View Usage Statistics

University of Latvia
Contact Us | Send Feedback
Theme by 
@mire NV