Netipisku datu un krāpniecisku transakciju noteikšana, izmantojot gadījuma meža algoritmu
Author
Kabaļina, Elīna
Co-author
Latvijas Universitāte. Fizikas un matemātikas fakultāte
Advisor
Siņenko, Nadežda
Date
2015Metadata
Show full item recordAbstract
Elektroniskā komercija ir globāla, strauji augoša nozare. Līdz ar nemitīgu bezskaidras naudas darījumu skaita pieaugumu par nozīmīgu problēmu ir kļuvušas krāpnieciskas transakciju darbības, kas ik gadu rada lielus finansiālus zaudējumus. Darbā aplūkotas metodes, ar kuru palīdzību var noteikt kopas netipiskas vērtības. Aplūkoti piemēri daudzdimensionālu datu netipisku vērtību noteikšanai, izmantojot klasterizācijas metodes, varbūtību blīvuma funkcijas un novērojuma apkārtnes blīvuma aprēķinu. Darbā dots ieskats gadījuma meža algoritmā, kuru 2001. gadā ieviesa L. Breimanis. Algoritma pamatā ir lēmumu koku ansambļa apmācīšana, katra koka apmācībai izmantojot tikai daļu no pieejamās datu kopas tādā veidā, lai koki savstarpēji nav korelēti, šādi samazinot gadījuma meža variāciju un uzlabojot tā spēju prognozēt novērojumu piederību kādai no klasēm. Ar gadījuma meža algoritma palīdzību ir izveidots modelis, kas ļauj noteikt krāpnieciskas darbības transakciju datos. Darba izpildei tika izmantota statistiska programma R.
Atslēgvārdi: netipiskas vērtības, lēmumu koks, gadījuma mežs, krāpniecisku transakciju As online commerce becomes more common, fraud is an increasingly important concern - fraud is one of the major causes of great financial losses.
In the Bachelor paper different methods for outlier detection (distance, density and clustering- based) have been discussed. The paper considers Random Forest algorithm, which was proposed by L. Breiman in the 2001. The Random Forest algorithm builds a predictor ensemble with a set of decision trees that grow in randomly selected subspaces of data. Random Forest algorithm and its several modifications were employed to construct a fraud detection model.
Key words: outliers, decision tree, random forest, fraud detection