Show simple item record

dc.contributor.advisorZuters, Jānisen_US
dc.contributor.authorBērziņa, Gintaen_US
dc.contributor.otherLatvijas Universitāte. Datorikas fakultāteen_US
dc.date.accessioned2015-03-24T07:05:25Z
dc.date.available2015-03-24T07:05:25Z
dc.date.issued2014en_US
dc.identifier.other42628en_US
dc.identifier.urihttps://dspace.lu.lv/dspace/handle/7/17091
dc.description.abstractAutores izstrādātais bakalaura darbs “Laika diferences apmācīšanās nepārtrauktā darbību telpā” iekļauj gan pētījumu par pastiprinājuma vadītās mācīšanās algoritmiem, gan darba autores izstrādātas mācīšanās. Darba izstrādes laikā autore apguva pastiprinājuma vadītās mācīšanas pamatprincipus un laika diferences mācīšanās algoritmus (Q-learning un Sarsa). Autore darba izstrādes laikā izveidoja mācīšanās algoritmus dažādiem uzdevumiem, kuri tika simulēti virtuālā fiziskā pasaulē.Autores izveidotie mācīšanās algoritmi ir veidoti, lai mācīšanos varētu veikt, nezinot neko par vidi, bet novērojot iegūtos rezultātus reālajā laikā, proti, objektu pozīciju, pārvietošanās un rotācijas ātrumu, rotācijas leņķi. Autore izveidoja piecus mācīšanās algoritmus, kuri ir objekta uzsviešana noteiktā augstumā, objektu nokrišanas sinhronizācija, kārts rotācijas un kārts balansēšanas mācīšanās.en_US
dc.description.abstractAuthor of Temporal Difference Learning in Continuous Action Spaces in her Bachelor paper includes research about reinforcement learning and created reinforcement learning examples for various problems. The author studied reinforcement learning and temporal difference learning algorithms (Q-Learning and Sarsa).. A virtual world was created with physics engine to simulate real world, because learning tasks were meant to solve tasks, where learning was effected by gravity, air friction and weight of object. In order to apply learning, created algorithms uses only parameters, which are observed: position, movement and rotation speed and angle of object, therefore created algorithms doesn’t depend on knowing gravity, air friction and weight of object. The author created algorithms for five learning tasks. They are: throw object to specific height, synchronize object drop time, learn objects to fly and learn pole rotation.en_US
dc.language.isoN/Aen_US
dc.publisherLatvijas Universitāteen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectDatorzinātneen_US
dc.titleLaika diferences apmācīšanās nepārtrauktā darbību telpāen_US
dc.title.alternativeTemporal difference learning in countinuous action spacesen_US
dc.typeinfo:eu-repo/semantics/bachelorThesisen_US


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record