Inversās pastiprinājuma vadītas apmācīšanās metožu pielietojums intelektuālo aģentu izstrādē
Author
Salimbajevs, Askars
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Zuters, Jānis
Date
2013Metadata
Show full item recordAbstract
Dota maģistra darba mērķis ir izpētīt inversās pastiprinājuma vadītas apmācīšanas metodi no intelektuālo aģentu izstrādes perspektīvas. Darba ietvaros tika izpētīti parastas pastiprinājuma vadītas apmācības teorētiskie pamati, inversās pastiprinājuma vadītas apmācības formulējums, motivācija, iespējamie risinājumi un konkrēti algoritmi.
Iegūtās zināšanas tiek izmantotas darba praktiskajā daļā, kur autors izstrādājis un apmācījis intelektuālo aģentu, kas prot spēlēt Mario datorspēli. Konkrētāk, autors vairākas reizes nodemonstrēja aģentam, kā spēlēt Mario, un balstoties uz šīm demonstrācijām, aģents iemācījās to izpildīt.
Mario aģenta izstrādes gaitā tika identificētas dažādas problēmas un grūtības, kuras parasti rodas, praktiski pielietojot inversās pastiprinājuma vadītas apmācīšanas algoritmus. Darba otra daļa ir veltīta autora piedāvātiem klasisko inversās pastiprinājuma vadītas apmācīšanas algoritmu uzlabojumiem, kas palīdz atrisināt vienu no šīm problēmām. The aim of this work is to study inverse reinforcement learning and apply it to develop and
train intelligent agent for Mario game. In the course of this work author studies reinforcement learning theoretic basics, inverse reinforcement learning problem formulation, motivation, possible solutions and few concrete algorithms.
Obtained knowledge is used in practical part of this work, where author developed and trained
intelligent agent which can play Mario game. Concretely, author recorded several demonstrations of how to play Mario game, and then this demonstrations where used by agent to “understand” the task and learn how to do it.
In the course of Mario agent development several difficulties and problems were identified,
which usually arise when using inverse reinforcement learning algorithms in practice. In the second part of this work author offers improvements to classic inverse reinforcement learning algorithm which helps to solve one of these problems.