Jaukšanas-Apmaiņas tīkli – jaunas neironu tīklu arhitektūras plašam uzdevumu klāstam
Author
Ozoliņš, Emīls
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Freivalds, Kārlis
Date
2020Metadata
Show full item recordAbstract
Mūsdienu neironu tīklu modeļiem efektīva tālu atkarību modelēšana sagādā problēmas. Īpaši izteikta šī problēma ir algoritmiskiem uzdevumiem, tomēr arī citos uzdevumos tā sagādā grūtības un noved pie daudzu uzdevuma-specifisku modeļu izstrādes. Darbā tiek piedāvāti 3 jauni neironu tīkli - Neironu Jaukšanas-Apmaiņas, Atlikuma Jaukšanas-Apmaiņas un Switchblade -, kas spēj modelēt tālas atkarības datos un ir piemērotas plašam uzdevumu klāstam. Jaunās arhitektūras tiek novērtētas uz algoritmu indukcijas, valodas modelēšanas, skaņas un attēlu apstrādes uzdevumiem. MusicNet mūzikas transkripcijas uzdevumā un Sudoku mīklu risināšanā arhitektūras uzstāda pasaulē labākos rezultātus. Darbā arī tiek piedāvātas jaunas datu kopas dažādiem divdimensiju algoritmiskiem uzdevumiem. For modern neural network models, effective modeling of long-range dependency presents a problem. This problem is especially pronounced for algorithmic tasks. However, it also provokes difficulties in other tasks, which leads to the development of many task-specific models. The paper introduces three new neural networks - Neural Shuffle-Exchange, Residual Shuffle-Exchange, and Switchblade. All of them can model long-range dependencies and are suitable for a wide range of tasks. The author evaluates proposed models on algorithm induction, language modeling, sound, and image processing tasks. Models set state-of-the-art results on MusicNet music transcription tasks and Sudoku puzzle dataset. The paper offers a new set of algorithmic tasks for a two-dimensional setting.