Mašīnmācīšanās uzdevumu risināšanai interaktīvās tekstuālās vidēs
Автор
Strazds, Guntis Vilnis
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Bārzdiņš, Guntis
Дата
2021Metadata
Показать полную информациюАннотации
Interaktīvas tekstuālas piedzīvojumu spēles var izmantot, lai pārbaudītu mašīnmācīšanās aģentu spējas tikt galā ar dažādiem izaicinājumiem, kas saistīti ar dabiskās valodas izpratni, problēmu risināšanu un atbilžu meklēšanu, vai tādas darbības izvēles stratēģiju apgūšana, kas vispārinās uz iepriekš nesastaptām vidēm. TextWorld platforma ir šādiem pētījumiem domāts ietvars un palīgrīki, ar kuru palīdzību var darbināt daudzas iepriekšpublicētas teksta piedzīvojumu spēles, vai arī definēt un ģenerēt jaunas spēles, dažādās sarežģītības pakāpēs un gandrīz bezgalīgās variācijās. Šajā darbā aprakstīta tāda algoritmiska orākula (oracle) ieviešana, kas var veiksmīgi atrisināt spēles no 3 dažādām iepriekšpublicētām spēļu kopām TextWorld platformā, kā arī orākula izmantošana kā apmācības datu avotu eksperimentiem, lai pārbaudītu mašīnmācīšanās modeļa, kas balstīts uz GPT2, spēju iemācīties atrisināt šīs spēles. Ir iegūti daudzsološi sākotnēji rezultāti, kas liek domāt, ka GPT2 arhitektūra var iemācīties –vismaz daļēji– atdarināt orākula darbību. Apmācītā modeļa snieguma līmeņa atšķirības to parbaudot uz divām dažādām testa spēļu kopām rada dažus interesantus jautājumus par to, kādi faktori varētu veicināt tā spēju vai nespēju vispārināties uz iepriekš neredzētām spēļu vidēm, un norāda uz dažiem interesantiem virzieniem turpmākiem eksperimentiem. Learning to Perform Tasks in Interactive Textual Environments Interactive textadventure games can be used as a versatile proving ground to test the abilities of machinelearning agents to deal with various challenges related to natural language understanding, exploration and problem solving, or learning action selection policies that generalize across a range of new environments. The TextWorld platform is a research platform that can run many existing textadventure games, and can also be used to generate new games of varying degrees of difficulty and in almost endless variations. This thesis describes the implementation of an algorithmic oracle that can successfully solve games from 3 different previously published datasets of TextWorld games, and its use as a source of training data for experiments testing the ability of a machinelearning model based on GPT2 to learn to to do the same. Some promising initial results are obtained, suggesting that the GPT2 architecture can learn to imitate the behavior of the oracle to at least some extent. Differences between the success rate of the trained model on two different datasets of test games raise some interesting questions about what factors might contribute to its success or failure to generalize to previously unseen game environments, and suggest some interesting directions for follow up experiments.