Nestrukturētu datu apstrāde izmantojot lielu datu tehnoloģijas
Author
Burkevics, Artis
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Trukšāns, Leo
Date
2015Metadata
Show full item recordAbstract
Lielākā daļa internetā pieejamo datu ir nestrukturētā vai daļēji strukturētā formā un izmantojamās informācijas apjoms mērogojās pāri tradicionālu datu apstrādes metožu efektivitātei. Efektīvu tehnoloģiju, metožu un algoritmu izmantošanas rezultātā, apstrādājot šos datus, uzņēmumi var iegūt informāciju, kas ir kritiska dominēšanai darba tirgū. Darba mērķis ir izpētīt tehnoloģijas, metodes un algoritmus, kas ir pieejami nestrukturētu datu apstrādei un ir efektīvi pielietojami lieliem datu apjomiem. Darbā galvenais uzsvars ir likts uz teksta apstrādi un izpētot dažādas metodes, algoritmus un tehnoloģijas tiek radīts priekštats par efektīvu nestrukturētu lielu datu apstrādi. Izpēte veikta balstoties uz zinātnisko publikāciju lasīšanu un datu apstrādes testiem. Most of the data on internet is unstructured or semi-structured and the amount of information it contains is beyond performance limits of traditional data processing methods. By processing this data with effective algorithm, method and technology utilization, companies can extract information that is critical for dominating labour market. The goal of this work is to study these algorithms, methods and technologies that are available for processing unstructured data and are applicable for big amounts of data. This work is concentrated on text processing and by studying different algorithms, methods and technologies, an idea of effective unstructured data management is developed. Study is based on reading scientific publications and running tests over some data.