Show simple item record

dc.contributor.advisorBārzdiņš, Guntis
dc.contributor.authorGrīnbergs, Dāgs Ādams
dc.contributor.otherLatvijas Universitāte. Datorikas fakultāte
dc.date.accessioned2021-07-02T01:05:47Z
dc.date.available2021-07-02T01:05:47Z
dc.date.issued2021
dc.identifier.other81791
dc.identifier.urihttps://dspace.lu.lv/dspace/handle/7/55805
dc.description.abstractAttēlu sintēze no teksta, izmantojot mākslīgos neironu tīklus, ir jauns uzdevums datorredzē, tā mērķis: no īsa tekstuāla apraksta ģenerēt atbilstošu un ticamu attēlu. Darbā sniegts apskats par pieejām uzdevuma risināšanā un veikti eksperimenti. Darba teorētiskajā daļā tiek apskatītas 3 GAN pamat-arhitektūras datu sintēzei, 5 GAN arhitektūras attēlu sintēzei no teksta, veikts 61 arhitektūras kvantitatīvs apkopojums par izmantotajām datu kopām, attēlu kvalitātes metriku rezultātiem un koda pieejamību. Tiek apskatītas 3 no populārākajām datu kopām un darbības principi 5 attēlu kvalitātes metrikām. Tiek pētīti transformer tīkli un kombinācijā ļoti labus rezultātus uzrādošie DALLE un CLIP. Darba praktiskajā daļā, izmantojot risinājumu DALLE-pytorch, tiek apmācīti modeļi uz CUB datu kopas, izvēlēts labākais un pārbaudītas tā spējas. 6 GAN modeļiem veikts attēlu sintēzes ātruma apskats.
dc.description.abstractNeural network architectures for text-to-image synthesis Text-to-image synthesis is a fairly new task in computer-vision with the goal of teaching a computer to generate an image that is both realistic and appropriate given some text description. This work presents an overview of modern methods and related experiments. To find out how it is possible to solve this task artificially, 3 base-architectures of GANs and 5 GAN architectures for text-to-image synthesis are examined. 61 are reviewed quantitatively to show the full spectrum of recent research. 3 most popular datasets and 5 image quality metrics are also examined. And so are transformer networks and the very recent and successful DALLE and CLIP models. Several models are trained using the community reproduction of DALLE – DALLE-pytorch, the best model is determined, and its abilities are tested. Additionally, 6 pre-trained GAN models are tested for speed at which they synthesize images from text.
dc.language.isolav
dc.publisherLatvijas Universitāte
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subjectDatorzinātne
dc.subjectGAN
dc.subjectDALLE
dc.subjectCLIP
dc.subjectneironu tīkli
dc.subjectattēlu sintēze
dc.titleNeironu tīklu arhitektūras attēlu sintēzei no teksta
dc.title.alternativeNeural network architectures for text-to-image synthesis
dc.typeinfo:eu-repo/semantics/masterThesis


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record