Show simple item record

dc.contributor.advisorBārzdiņš, Guntis
dc.contributor.authorMauriņš, Roberts
dc.contributor.otherLatvijas Universitāte. Eksakto zinātņu un tehnoloģiju fakultāte
dc.date.accessioned2025-06-28T01:06:32Z
dc.date.available2025-06-28T01:06:32Z
dc.date.issued2025
dc.identifier.other107674
dc.identifier.urihttps://dspace.lu.lv/dspace/handle/7/71062
dc.description.abstractAtšķirībā no citām mašīnmācīšanās metodēm stimulētās mācīšanās apmācības procesā kļūda nav atsķirība starp modeļa izrēķināto un marķēto vērtību (angliski - “ground truth”), bet vairāku secīgu notikumu rezultātu ieguvuma maksimizācija. Ņemot vērā, ka kopējās notikumu secības garums līdz jebkuram ieguvumam var svārstīties no pāris līdz tūkstošiem soļu kā arī to, ka ieguvumam ir stohastisks raksturs, tad šis mašīnmācīšanās paveids ir ievērojami sarežģītāks par jebkuru uzraudzītās mašīnmācīšanās (angliski – “supervised learning”) procesu. Vairumā gadījumā, lai sasniegtu apmacītā aģenta darbības līmeni, kas būtu tuvs cilvēka līmenim joprojām ir nepeiciešams miljoniem iterāciju. Līdz ar lielo valodu modeļu parādīšanos un pieejamību arvien lielāku popularitāti gūst stimulētās mācīšanās efektivizācija izmantojot to padomus vai veikto darbību un situācijas novērtējumus. Darba mērķis ir izpētīt lielo valodu modeļu ietekmi uz vairāku aģentu sistēmas stimulētās mācīšanās efektivizāciju kā arī veidot pašu modeļu arhitektūru iedvesmojoties no mikrobioloģijas procesiem.
dc.description.abstractUnlike other machine learning methods, in the training process of reinforcement learning, the “error” is not the difference between the model’s computed value and a labeled value (in English, “ground truth”), but rather the maximization of the reward resulting from a sequence of consecutive events. Given that the total length of the event sequence leading to any reward can vary from a few steps to thousands of steps and that the reward has a stochastic nature, this branch of machine learning is significantly more complex than any supervised learning process. In most cases, to achieve a trained agent performance level close to that of humans, millions of iterations are still required. With the emergence and availability of large language models, the efficiency of reinforcement learning is gaining increased popularity by using these models’ advice or by evaluating actions and situations. The aim of the work is to explore the impact of large language models on improving the efficiency of multi-agent systems in reinforcement learning, as well as to design the architecture of the models themselves inspired by microbiological processes.
dc.language.isolav
dc.publisherLatvijas Universitāte
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subjectDatorzinātne
dc.subjectneironu tīkli
dc.subjectstimulētā mācīšanās
dc.subjectlielie valodu modeļi
dc.subjectneural networks
dc.subjectreinforcement learning
dc.titleStimulētās mācīšanās efektivizācija izmantojot redzes, valodas sasaisti un mikrobioloģijas procesu modelēšanu
dc.title.alternativeEnhancing reinforcement learning efficiency through vision, language connections and microbiological process modeling
dc.typeinfo:eu-repo/semantics/masterThesis


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record