Augstas veiktspējas datu integrācija
Author
Ķude, Amanda Gabriēla
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Žeiris, Edžus
Date
2022Metadata
Show full item recordAbstract
Datu apmaiņa starp sistēmām jeb datu integrācija ir ļoti svarīga datu pārvaldības procesa sastāvdaļa. Katru dienu tiek izveidots, nodots un apstrādāts milzīgs apjoms ar datiem, tāpēc, attīstoties tehnoloģijām un parādoties jauniem risinājumiem, ir iespējams padarīt datu integrācijas procesus kvalitatīvākus, ātrākus un efektīvākus. Darba mērķis ir apskatīt un izpētīt apjomīgu un ar sarežģītu struktūru datu integrācijas risinājumus, veikt metožu un rīku salīdzinājumus un atrast piemērotu risinājumu gan uzņēmumā jau esošo datu apmaiņu uzlabošanai, gan jaunu datu integrāciju izstrādei. Lai sasniegtu mērķi, tika izpētīta literatūra par datu izmaiņu uztveršanu, datu apstrādi, datu noliktavām un NoSQL datu bāzēm. Darba rezultātā tika praktiski izmēģināts datu integrācijas risinājums, kur datu izmaiņu uztveršana tiek veikta ar Debezium rīku, datu apstrāde ar Apache Spark rīku, bet datu nodošanai tiek izmantota NoSQL datu bāze Cassandra. Title: High performance data integration. Data exchange between systems or data integration is a very important part of the data management process. Huge amounts of data are created, transferred and processed every day, so with the development of technology and the emergence of new solutions, it is possible to make data integration processes higher quality, faster and more efficient. The aim of this work is to look at and study large-scale and complex data integration solutions, to compare methods and tools, and to find a suitable solution both to improve the existing data exchange in the company and to develop new data integrations. To achieve this goal, the literature on change data capture, data processing, data warehouses, and NoSQL databases was studied. As a result, a data integration solution was practically tried out, where the capture of data changes is performed with the Debezium tool, data processing with the Apache Spark tool, and the NoSQL database Cassandra is used for data transfer.