Zināšanu glabāšana ārpus dziļās mašīnmācīšanās modeļa svariem

Grigals, Valts

View/Open

302-107742-Grigals_Valts_vg19027.pdf (1.100Mb)

Author

Grigals, Valts

Co-author

Latvijas Universitāte. Eksakto zinātņu un tehnoloģiju fakultāte

Advisor

Bārzdiņš, Guntis

Date

2025

Metadata

Show full item record

Abstract

Dziļās mašīnmācīšanās modeļi uzglabā zināšanas savos apmācāmajos svaros. Tas rada nepieciešamību zināšanu bāzes izmaiņu gadījumā atkārtoti apmācīt modeli, kas prasa daudz skaitļošanas resursu un rada pastāvošu iespējamību pieredzēt katastrofālu zināšanu aizmiršanu. Neskatoties uz to, lielie valodas modeļi tiek veidot ar arvien vairāk svariem. Šajā darbā tiek meklēts risinājums lielo valodas modeļu zināšanu bāzes un valodas apstrādes funkciju nodalīšanai. Tiek novērtēta pastāvošā valodas modeļu attīstības gaita un tendences. Tiek aplūkots, kā valodas modeļos izkārtotas zināšanas, kā arī aplūkoti veidi šo zināšanu izmainīšanai. Tostarp aplūkota ar meklēšanu papildinātā ģenerēšana (Retrieval Augmented Generation) un modeļu zināšanu pielabošana ar ROME. Praktiski tiek īstenots idejas apliecinājums potenciālam valodas modelim, kas spēj sniegt derīgas atbildes, lai gan tam ir bojāta vai samazināta zināšanu bāze.

Deep learning models usually store knowledge as part of their internal parameters. Thus in the case of a change in the expected knowledge base of the model, additional training to fine-tune the model is required. However, such training is costly and poses the risk of catastrophic forgetting. Nevertheless, large language models are being made with ever more parameters. This work explores potential solutions for separating the model’s knowledge base from its language processing functions. Current trends and developments in language model design are evaluated. The internal structure of knowledge representation in language models is examined, along with various approaches for modifying or updating that knowledge. In particular, Retrieval-Augmented Generation (RAG) alongside ROME knowledge editing is considered. A practical proof-of-concept is implemented to demonstrate a potential language model that is capable of producing useful responses despite having a damaged or reduced knowledge base.

URI

https://dspace.lu.lv/dspace/handle/7/71063

Collections

Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses [6025]