Zemo griestu meklēšana panorāmas attēlos
Author
Mednis, Oskars
Co-author
Latvijas Universitāte. Eksakto zinātņu un tehnoloģiju fakultāte
Advisor
Ancāns, Māris
Date
2025Metadata
Show full item recordAbstract
Šī bakalaura darba mērķis ir izstrādāt dziļās mašīnmācīšanās metodēs balstītu risinājumu, automātiskai zemo griestu zonu atrašanai panorāmas attēlos. Šādas zonas ir svarīga komponente telpu plānojumu izveidē, jo tās ietekmē apdzīvojamās telpas platības aprēķinus. Darbā problēmas risināšanai tiek piedāvāts uz transformeru arhitektūras bāzes veidots enkodera-dekodera tipa modelis, kas spējīgs ģenerēt mainīga garuma virknes ar trīs-dimensionālu daudzstūru virsotnēm, kas apvelk katru zemo griestu zonu panorāmas paraugā. Modeļa enkoderis pielietojot SWIN transformeri no attēla iegūst dziļas semantiskās iezīmes, kuras pielieto modeļa dekoderis, kas ar pašuzmanības un šķērsuzmanības mehānismu palīdzību iteratīvi uzģenerē zemo griestu zonu reprezentējošu sekvenci. Darbā tiek apskatītas vairākas metodes koordināšu pārprojekcijas uz modeļa iekšējo latento telpu, kas nepieciešamas modeļa uzmanības mehānisma darbības nodrošināšanai. Īpašs uzsvars darbā arī likts uz datu priekšapstrādes algoritmu izstrādi, kas nepieciešami datu pārveidošanai modeļa apmācībai piemērotākā formātā un datu kopas filtrācijai. Darbā veiktie eksperimenti parāda, ka piedāvātā metode ir efektīva zemo griestu zonu meklēšanas uzdevumā un ir pielietojama kā komponente telpu plānojumu ģenerēšanas automatizēšanas procesos. The aim of this bachelor’s thesis is to develop a deep learning-based solution for the automatic detection of reduced headroom zones in panoramic images. These zones are an important component in floorplan generation, as they affect the calculation of habitable floor space. To address this problem, the work proposes an encoder-decoder model based on a transformer architecture, capable of generating variable-length sequences of three-dimensional polygon vertices that enclose each reduced headroom zone within a panoramic image. The model's encoder uses a SWIN transformer to extract deep semantic features from the image, which are then processed by the decoder. Using self-attention and cross-attention mechanisms, the decoder iteratively generates a sequence representing each zone. The thesis also explores various techniques for creating embeddings of the vertex coordinates for representation in the model’s latent space, a necessary step for enabling the attention mechanisms to operate effectively. Additionally, the work places strong emphasis on the development of data preprocessing algorithms required to transform raw data into a format better suited for model training, as well as for filtering the dataset. The experiments conducted demonstrate that the proposed method is effective in detecting reduced headroom zones and can be integrated as a component in automated floorplan generation workflows.