Statistiskās un datu izraces metodes klasifikācijas uzdevumos

Tetereva, Anastasija

View/Open

304-32649-A.Tetereva.pdf (15.19Mb)

Author

Tetereva, Anastasija

Co-author

Latvijas Universitāte. Fizikas un matemātikas fakultāte

Advisor

Valeinis, Jānis

Date

2010

Metadata

Show full item record

Abstract

Pēdējos gados klasifikēcijas problemētika kļuvusi ļoti aktuāla lēmumu pieņemšanas dažādās sfērās. Šo uzdevumu var risināt gan ar statistikas, gan ar datu izraces (angliski data mining) palīdzību. Šī darba mērķis ir noskaidrot, vai datu izraces algoritmi spēj konkurēt ar statistiskām metodām. Darbā ir aprakstīta lineāra diskriminantu analīze (LDA),kodolu diskriminantu analīze (KDA), kā arī klasifikācijas koki (CRT) un vienslāņa neironu tīkli (NNET). Statistiskajiem klasifikatoriem ir aprakstīts diskriminantu funkcijas un diskriminācijas robežu iegūšanas process, datu izraces modeļiem ir apskatīti klasifikatoru būvēšanas algoritmi, kā arī metodes, ar kuru palīdzību var izvairīties no pārliekas pielāgošanās datiem. Darba nobeigumā ir apskatīti modeļu salīdzināšanas paņēmieni. Lai empīriski salīdzinātu klasiskās metodes ar datu izraces metodēm, tika veiktas simulācijas programmā R. Atslēgas vārdi: datu izrace, klasifikators, diskriminantu analīze, klasifikācijas koki, neironu tīkli, kopējā precizitāte.

In recent years classification problem has become a topical question in different field of decision making. Such kind of tasks can be solved using both statistical and data mining techniques. The goal of this thesis is to elucidate whether the data mining algorithms can be considered as competitors of statistical methods. Linear and kernel discriminant analysis, classification trees and neural networks are described in the thesis. It is explained how to get discriminant function and discrimination borders for statistical techniques and how to construct data mining classifiers avoiding unnecessary adaptation to data. Finally, model assessment and selection are discussed. The thesis contains empirical comparison of the classical statistical techniques and data mining algorithms in terms of simulated examples. Simulations were fulfilled, using statistical software R. Key words: data mining, classifier, discriminant analysis,classification trees, neural networks, overall accuracy.

URI

https://dspace.lu.lv/dspace/handle/7/17675

Collections

Bakalaura un maģistra darbi (FMOF) / Bachelor's and Master's theses [2775]