Tehnoloģiskie izaicinājumi tradicionālās datu noliktavas arhitektūras aizstāšanai ar datu ezermājas arhitektūru
Автор
Beitāns, Krišjānis
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Niedrīte, Laila
Дата
2023Metadata
Показать полную информациюАннотации
Datu analītika jau gadu desmitus tiek balstīta uz sakārtotiem un iztīritiem datiem, kurus uzglabā datu noliktavas arhitektūrā, bet šī arhitektūra kļūst grūti uzturama un attīstama, piemēram, ja analītikai nepieciešams integrēt jaunus datu avotus jau 50 esošajiem. Tiek tērēts daudz laika datu sagatavošanai, duplikātu novēršanai un datu validācijai. Lai risinātu lielo datu noliktavu attīstīšanas problēmu tiek runāts par datu ezermājas arhitektūru, kas sniedz iespēju glabāt datus nestrukturētā veidā, ietaupot uz datu izguves un sagatavošanas laiku. Datu nogādāšana no datu avota līdz analītikas datu krātuvei ir ātrāka un prasa mazāk cilvēkstundas, bet datu meklēšana un analītiķu vaicājumu izpilde kļūst ilgāka. Maģistra darba ietvaros tiek apskatīts tehnoloģiju kopums, kas nepieciešamas, lai izstrādātu datu noliktavu un visi biznesa jautājumi tiktu atbildēti un tas tiek salīdzināts ar tehnoloģiju kopumu, kas nepieciešams, lai atbildētu tos pašus biznesa jautājumus izmantojot datu ezermājas arhitektūru. Tiek meklētas vājās vietas abu arhitektūru tehnoloģijās un pie kāda datu apjoma viena veida arhitektūra kļūst par apgrūtinājumu, kā arī tiek meklēti iemesli, kāpēc analītikas pasule neizmanto datu ezermajas arhitektūru jau tagad. For decades, data analytics has been built on organized and cleaned data stored in a data warehouse architecture, but this architecture becomes difficult to maintain and develop, for example, when analytics need to integrate new data sources already 50 of them. A lot of time is spent on data preparation, duplicate elimination and data validation. In order to solve the problem of developing large data warehouses, the architecture of the data lake house is being discussed, which provides an opportunity to store data in an unstructured way, saving data retrieval and preparation time. Getting data from the data source to the analytics data store is faster and requires fewer man-hours, but searching for data and executing analytics queries takes longer. For decades, data analytics has been built on organized and cleaned data stored in a data warehouse architecture, but this architecture becomes difficult to maintain and develop, for example, when analytics need to integrate new data sources on top of 50 that has already been integrated before. A lot of time is spent on data preparation, duplicate elimination and data validation. In order to solve the problem of developing large data warehouses, the architecture of the data lakehouse is being discussed, which provides an opportunity to store data in an unstructured way, saving data retrieval and preparation time. Getting data from the data source to the analytics data store is faster and requires fewer man-hours, but searching for data and executing analytics queries takes longer. The master's thesis examines the set of technologies required to develop a data warehouse and how all business questions are answered by using this architecture and compared to the set of technologies required to answer business questions using a data lakehouse architecture. Author looked for weak points in the technologies of both architectures and searched at what volume of data one type of architecture becomes a burden, and also look for reasons why analytics orders do not use data lakehouse architecture already.