Lielo datu izaicinājumi
Автор
Pētersone, Dace
Co-author
Latvijas Universitāte. Fizikas un matemātikas fakultāte
Advisor
Valeinis, Jānis
Дата
2018Metadata
Показать полную информациюАннотации
Lielos datus mēdz dēvēt par 21. gadsimta naftu. Gandrīz katrs uzņēmums cenšas izmantot datu piedāvātās iespējas, lai gūtu labumu, kā arī datu apjoms palīdz ievērojamu zinātnisku atklājumu veikšanā, tomēr nekorekta datu analīze rada riskus veikt kļūdainus secinājumus. Maģistra darba mērķis ir iepazīstināt lasītāju ar lielajiem datiem un to īpašībām, jo lielo datu raksturs ir atšķirīgs no ierasti mazajām izlasēm, uz kurām balstās tradicionālā statistika. Darba gaitā tika apkopotas potenciālo kļūdu piemēri, kuras analītiķis var pieļaut, analizējot lielo datus ar konvencionālajām statistikas metodēm, kuru pamatā ir daudzi pieņēmumi. Tika izveidota Monte Karlo metode lineārās regresijas koeficientu novērtēšanai pie liela datu apjoma, izmantojot paralēlo skaitļošanu. Modelis tika realizēts programmā R, izmantojot reālu datu piemērus. Big Data is sometimes referred to as the oil of the 21st century. Almost every company is trying to get the most of what is offered by massive amounts of information, moreover Big Data is a significant part of making tremendous scientific discoveries, however incorrectly used Big Data causes serious risk of making false conclusions. The aim of the thesis ``Challenges of Big Data” is to introduce the reader to Big Data and its properties, because it is different from traditional - small sample - statistical inference. A research was done to collect potential misuses done by analysts when modelling and exploring data using conventional methods, which are based on various assumptions. Monte Carlo method was created to evaluate linear regression coefficients of large dataset using parallel computation. The model was developed in program R and used on real datasets.