Zināšanu glabāšana ārpus dziļās mašīnmācīšanās modeļa svariem
Author
Grigals, Valts
Co-author
Latvijas Universitāte. Eksakto zinātņu un tehnoloģiju fakultāte
Advisor
Bārzdiņš, Guntis
Date
2025Metadata
Show full item recordAbstract
Dziļās mašīnmācīšanās modeļi uzglabā zināšanas savos apmācāmajos svaros. Tas rada nepieciešamību zināšanu bāzes izmaiņu gadījumā atkārtoti apmācīt modeli, kas prasa daudz skaitļošanas resursu un rada pastāvošu iespējamību pieredzēt katastrofālu zināšanu aizmiršanu. Neskatoties uz to, lielie valodas modeļi tiek veidot ar arvien vairāk svariem. Šajā darbā tiek meklēts risinājums lielo valodas modeļu zināšanu bāzes un valodas apstrādes funkciju nodalīšanai. Tiek novērtēta pastāvošā valodas modeļu attīstības gaita un tendences. Tiek aplūkots, kā valodas modeļos izkārtotas zināšanas, kā arī aplūkoti veidi šo zināšanu izmainīšanai. Tostarp aplūkota ar meklēšanu papildinātā ģenerēšana (Retrieval Augmented Generation) un modeļu zināšanu pielabošana ar ROME. Praktiski tiek īstenots idejas apliecinājums potenciālam valodas modelim, kas spēj sniegt derīgas atbildes, lai gan tam ir bojāta vai samazināta zināšanu bāze. Deep learning models usually store knowledge as part of their internal parameters. Thus in the case of a change in the expected knowledge base of the model, additional training to fine-tune the model is required. However, such training is costly and poses the risk of catastrophic forgetting. Nevertheless, large language models are being made with ever more parameters. This work explores potential solutions for separating the model’s knowledge base from its language processing functions. Current trends and developments in language model design are evaluated. The internal structure of knowledge representation in language models is examined, along with various approaches for modifying or updating that knowledge. In particular, Retrieval-Augmented Generation (RAG) alongside ROME knowledge editing is considered. A practical proof-of-concept is implemented to demonstrate a potential language model that is capable of producing useful responses despite having a damaged or reduced knowledge base.