• English
    • Latviešu
    • Deutsch
    • русский
  • Help
  • Latviešu 
    • English
    • Latviešu
    • Deutsch
    • русский
  • Login
View Item 
  •   DSpace Home
  • B4 – LU fakultātes / Faculties of the UL
  • A -- Eksakto zinātņu un tehnoloģiju fakultāte / Faculty of Science and Technology
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses
  • View Item
  •   DSpace Home
  • B4 – LU fakultātes / Faculties of the UL
  • A -- Eksakto zinātņu un tehnoloģiju fakultāte / Faculty of Science and Technology
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Automatizēta personiski identificējamas informācijas (PII) identificēšana un anonimizēšana dažādos datu avotos

Thumbnail
View/Open
302-107948-Jasinovics_Artis_aj19090.pdf (586.7Kb)
Author
Jasinovičs, Artis
Co-author
Latvijas Universitāte. Eksakto zinātņu un tehnoloģiju fakultāte
Advisor
Odītis, Ivo
Date
2025
Metadata
Show full item record
Abstract
Līdz ar eksponenciālu personas datu pieaugumu un arvien stingrākiem privātuma aizsardzības noteikumiem, piemēram, GDPR, HIPAA un CCPA, organizācijas saskaras ar dubultu izaicinājumu - saglabāt analītisko lietderību, vienlaikus novēršot nesankcionētu personas identificējamas informācijas (PII) izpaušanu. Šajā darbā ir aprakstīts modulārs prototips, kas balstīts uz Python un automatizē PII atklāšanu un anonimizāciju heterogēnos datu avotos, kā arī tā izstrāde, ieviešana un empīriskais novērtējums. Sistēma izmanto multimodālu atklāšanas cauruļvadu, kurā apvienoti uz noteikumiem balstītas regulārās izteiksmes, statistiskā profilēšana un NER, lai identificētu PII gan strukturētos (CSV/JSON), gan nestrukturētos (brīvā teksta) formātos. Tā atbalsta atgriezeniskas transformācijas (dalīšana tekstvienībās, kriptogrāfisko jaukšanu) un neatgriezenisku maskēšanu. Sintētisko datu ģenerēšanas sistēma veido tabulas un apraksta testa korpusus, lai precīzi novērtētu pārklājumu, precizitāti un F1 rādītājus. Salīdzinošā analīze ar komerciāliem produktiem un atvērtā koda rīkiem, piemēram, ARX un Amnesia, liecina, ka prototips atbilst pamatfunkcijām, vienlaikus piedāvājot uzlabotu paplašināmību un pārredzamību.
 
With the exponential growth of personal data and increasingly stringent privacy regulations such as GDPR, HIPAA and CCPA, organisations face the double challenge of maintaining analytical utility while preventing unauthorised disclosure of personally identifiable information (PII). This paper describes the design, implementation and empirical evaluation of a modular Python-based prototype that automates the detection and anonymisation of PII across heterogeneous data sources. The system uses a multimodal detection pipeline combining rule-based regular expressions, statistical profiling and NER to identify PII in both structured (CSV/JSON) and unstructured (free text) formats. It supports reversible transformations (tokenisation, cryptographic hashing) and irreversible masking. The synthetic data generation system tabulates and describes test corpora to accurately assess coverage, accuracy and F1-scores. Comparative analysis with commercial products and open source tools such as ARX and Amnesia shows that the prototype fulfils the basic functions while offering improved extensibility and transparency.
 
URI
https://dspace.lu.lv/dspace/handle/7/71079
Collections
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses [6025]

University of Latvia
Contact Us | Send Feedback
Theme by 
@mire NV
 

 

Browse

All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

My Account

Login

Statistics

View Usage Statistics

University of Latvia
Contact Us | Send Feedback
Theme by 
@mire NV