Neironu tīklu arhitektūras attēlu sintēzei no teksta
Author
Grīnbergs, Dāgs Ādams
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Bārzdiņš, Guntis
Date
2021Metadata
Show full item recordAbstract
Attēlu sintēze no teksta, izmantojot mākslīgos neironu tīklus, ir jauns uzdevums datorredzē, tā mērķis: no īsa tekstuāla apraksta ģenerēt atbilstošu un ticamu attēlu. Darbā sniegts apskats par pieejām uzdevuma risināšanā un veikti eksperimenti. Darba teorētiskajā daļā tiek apskatītas 3 GAN pamat-arhitektūras datu sintēzei, 5 GAN arhitektūras attēlu sintēzei no teksta, veikts 61 arhitektūras kvantitatīvs apkopojums par izmantotajām datu kopām, attēlu kvalitātes metriku rezultātiem un koda pieejamību. Tiek apskatītas 3 no populārākajām datu kopām un darbības principi 5 attēlu kvalitātes metrikām. Tiek pētīti transformer tīkli un kombinācijā ļoti labus rezultātus uzrādošie DALLE un CLIP. Darba praktiskajā daļā, izmantojot risinājumu DALLE-pytorch, tiek apmācīti modeļi uz CUB datu kopas, izvēlēts labākais un pārbaudītas tā spējas. 6 GAN modeļiem veikts attēlu sintēzes ātruma apskats. Neural network architectures for text-to-image synthesis Text-to-image synthesis is a fairly new task in computer-vision with the goal of teaching a computer to generate an image that is both realistic and appropriate given some text description. This work presents an overview of modern methods and related experiments. To find out how it is possible to solve this task artificially, 3 base-architectures of GANs and 5 GAN architectures for text-to-image synthesis are examined. 61 are reviewed quantitatively to show the full spectrum of recent research. 3 most popular datasets and 5 image quality metrics are also examined. And so are transformer networks and the very recent and successful DALLE and CLIP models. Several models are trained using the community reproduction of DALLE – DALLE-pytorch, the best model is determined, and its abilities are tested. Additionally, 6 pre-trained GAN models are tested for speed at which they synthesize images from text.