Automatizēta programmatūra konfidenciālu dokumentu atpazīšanai un aizmiglošanai attēlos

Revina, Mariia

View/Open

302-109431-RevinaRevina_MarijaMariia_mr20065.pdf (9.521Mb)

Author

Revina, Mariia

Co-author

Latvijas Universitāte. Eksakto zinātņu un tehnoloģiju fakultāte

Advisor

Ivanovs, Maksims

Date

2025

Metadata

Show full item record

Abstract

Tehnoloģiskajam progresam iespiežoties gandrīz katrā mūsu dzīves jomā, datu noplūdes kļūst par arvien lielāku risku katru dienu. Ne tikai tīšas, ko izraisa ārējie uzbrukumi, sociālā inženierija u.c., bet arī netīšas datu noplūdes var rasties cilvēku pieraduma dēļ pastāvīgai dzīves digitalizācijai. Saskaņā ar nesenu pētījumu žurnālā Journal of Cybersecurity and Privacy, 14,06 % līdz 21,88 % dalībnieku atzina, ka, neskatoties uz privātuma bažām, viņi pārsteidzoši bieži bija gatavi publicēt ierakstus, kas satur informāciju, ko var uzskatīt par privātumu apdraudošu. Turklāt J. DeHart un C. Grant savā pētījumā par vizuālām privātuma noplūdēm atklāj, ka lietotāji bieži publicē attēlus, kuros redzamas kredītkartes, identifikācijas dokumenti un citi dokumenti. Šādas statistikas norāda uz nepieciešamību pēc augstākas vizuālo datu aizsardzības pakāpes. Tomēr tehnoloģiskais progress pēdējos gados ir veicinājis arī mākslīgā intelekta (MI) nozares strauju attīstību. Dažādi MI modeļi nodrošina iespējas automatizēt dinamisku sensitīvo dokumentu noteikšanu un izpludināšanu attēlos, kas būtiski samazina vizuālo datu noplūdes riskus tiešsaistē. Šī darba mērķis ir izstrādāt atkārtoti lietojamu tīmekļa komponenti, kas ir saistīta ar AWS balstītu risinājumu attēlu segmentācijai, izmantojot mašīnmācīšanās modeli, un sensitīvo dokumentu izpludināšanai. Procesā tiek izvērtēti, salīdzināti un apmācīti vairāki pieejamie modeļi, lai labāk pielāgotos uzdevumam. Tiek analizētas arī izpludināšanas tehnoloģijas, lai tās atbilstu komponentes funkcionalitātei.

With technological progress being woven into almost every part of our lives data leaks become a bigger risk every day. Not only intentional, caused by external attacks, social engineering etc., but incidental data leaks may occur due to people being used to constant life digitalization. According to a recent survey by Journal of Cybersecurity and Privacy, 14.06% to 21.88% participants responded that, despite their privacy concerns, they were surprisingly willing to publish a posting that contains information considered privacy-compromising. Moreover, J. DeHart and C. Grant in their study on visual privacy leaks reveal that users frequently post images showing credit cards, ids and other documents. Such statistics highlight the necessity of a higher level of visual data protection. However technological progress has led to rapid AI industry development in recent years too. Various AI models provide means and opportunity to automate dynamic detection and blurring of sensitive documents in images, which can noticeably decrease visual data leak risks online. This thesis is dedicated to developing a reusable web component bound to an AWS-based solution for image segmentation using a machine learning model and sensitive document blurring. In the process several available models are assessed, compared and trained to better align with the task. Blurring techniques are analyzed to correspond to the component's purpose.

URI

https://dspace.lu.lv/dspace/handle/7/71515

Collections

Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses [6168]