Automatizēta personiski identificējamas informācijas (PII) identificēšana un anonimizēšana dažādos datu avotos

Jasinovičs, Artis

View/Open

302-107948-Jasinovics_Artis_aj19090.pdf (586.7Kb)

Author

Jasinovičs, Artis

Co-author

Latvijas Universitāte. Eksakto zinātņu un tehnoloģiju fakultāte

Advisor

Odītis, Ivo

Date

2025

Metadata

Show full item record

Abstract

Līdz ar eksponenciālu personas datu pieaugumu un arvien stingrākiem privātuma aizsardzības noteikumiem, piemēram, GDPR, HIPAA un CCPA, organizācijas saskaras ar dubultu izaicinājumu - saglabāt analītisko lietderību, vienlaikus novēršot nesankcionētu personas identificējamas informācijas (PII) izpaušanu. Šajā darbā ir aprakstīts modulārs prototips, kas balstīts uz Python un automatizē PII atklāšanu un anonimizāciju heterogēnos datu avotos, kā arī tā izstrāde, ieviešana un empīriskais novērtējums. Sistēma izmanto multimodālu atklāšanas cauruļvadu, kurā apvienoti uz noteikumiem balstītas regulārās izteiksmes, statistiskā profilēšana un NER, lai identificētu PII gan strukturētos (CSV/JSON), gan nestrukturētos (brīvā teksta) formātos. Tā atbalsta atgriezeniskas transformācijas (dalīšana tekstvienībās, kriptogrāfisko jaukšanu) un neatgriezenisku maskēšanu. Sintētisko datu ģenerēšanas sistēma veido tabulas un apraksta testa korpusus, lai precīzi novērtētu pārklājumu, precizitāti un F1 rādītājus. Salīdzinošā analīze ar komerciāliem produktiem un atvērtā koda rīkiem, piemēram, ARX un Amnesia, liecina, ka prototips atbilst pamatfunkcijām, vienlaikus piedāvājot uzlabotu paplašināmību un pārredzamību.

With the exponential growth of personal data and increasingly stringent privacy regulations such as GDPR, HIPAA and CCPA, organisations face the double challenge of maintaining analytical utility while preventing unauthorised disclosure of personally identifiable information (PII). This paper describes the design, implementation and empirical evaluation of a modular Python-based prototype that automates the detection and anonymisation of PII across heterogeneous data sources. The system uses a multimodal detection pipeline combining rule-based regular expressions, statistical profiling and NER to identify PII in both structured (CSV/JSON) and unstructured (free text) formats. It supports reversible transformations (tokenisation, cryptographic hashing) and irreversible masking. The synthetic data generation system tabulates and describes test corpora to accurately assess coverage, accuracy and F1-scores. Comparative analysis with commercial products and open source tools such as ARX and Amnesia shows that the prototype fulfils the basic functions while offering improved extensibility and transparency.

URI

https://dspace.lu.lv/dspace/handle/7/71079

Collections

Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses [6025]