Metadata-based Personalization in Data Warehouses
Author
Kozmina, Natālija
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Niedrīte, Laila
Date
2015Metadata
Show full item recordAbstract
Lielā datu noliktavās uzkrāto datu un atskaišu apjoma dēļ, atskaišu izpilde un pārlūkošana var būt nogurdinoša un laikietilpīga. Turklāt, lietotājs ir visai ierobežots savu vēlmju izteikšanā kvalitatīvāku rezultātu iegūšanai (arī komerciālos datu noliktavu atskaišu rīkos). Taču, ir jēga veikt eksperimentus personalizācijas iespēju jomā, kuru mērķis būtu lietotāja vajadzībām atbilstošu datu sniegšana, jo datu noliktavu personalizācijas pētījumi šobrīd ir attīstības stadijā.
Pēc veiktā esošo datu noliktavu personalizācijas pieeju salīdzinājuma, pētījums tika attīstīts atskaišu rekomendāciju jomā, kurš balstās uz tiešā vai netiešā veidā iegūtiem lietotāja iestatījumiem par datu noliktavas shēmas elementiem.
Galvenais promocijas darba devums ir trīs uz saturu balstītas metodes: hot-start, cold-start un semantic hot-start, kuras ļauj veikt lietotājam potenciāli interesējošo atskaišu atlasi un rekomendēšanu, ņemot vērā lietotāja veiktos iestatījumus par datu noliktavas shēmas elementiem un agregātfunkcijām. Katrā no šīm metodēm tiek izmantots savs paņēmiens, lai noteiktu atskaišu līdzību: hot-start metodē tiek izmantota lietotāja aktivitātes žurnāltabula, cold-start metodē tiek veikta atskaišu struktūras analīze, semantic hot-start metodē tiek izmantoti lietotāja veiktie iestatījumi par atskaites elementiem. Tika veikts praktisks eksperimentāls pētījums, kurā piedalījās lietotāji ar dažādu pieredzes līmeni darbā ar atskaišu rīkiem, lai noskaidrotu, kura rekomendāciju veidošanas metode sniegs precīzākas rekomendācijas. Katras metodes novērtēšanai un savstarpējai salīdzināšanai tika analizētas lietotāja veiktās darbības eksperimenta laikā, novērtētas lietotāja atsauksmes, kuras tie sniedza, aizpildot anketu ar jautājumiem par eksperimenta norisi. Eksperimenta analīze parādīja, ka pieredzējušie lietotāji vislabāk vērtēja semantic hot-start metodi, turpretim, lietotāji ar nelielu pieredzi deva priekšroku gan cold-start, gan semantic hot-start metodei. Due to the large volumes of data and reports accumulated in data warehouses, report exploration and execution seems to be a tedious and time-consuming task. Moreover, a user is rather limited in expressing the likes and dislikes (even in commercial tools for data warehouse reporting) to get the results that are more satisfying. However, there is a space for experiments in personalization opportunities with the purpose to provide the data that is relevant for a user, since data warehouse personalization is a developing field of research.
As a result of the comparative analysis of the state-of-the-art approaches of data warehouse personalization, the research continued in the direction of report recommendations based on the implicitly or explicitly defined user preferences on elements of the data warehouse schema.
The main contribution of the thesis are three content-based methods – hot-start, cold-start, and semantic hot-start – that distinguish and recommend reports, which potentially may interest the user, exploiting user preferences for data warehouse schema elements and aggregate functions. Each of the methods uses a different technique to define similarity of reports: the hot-start method takes advantage of the user activity log, the cold-start method analyzes the structure of reports, and the semantic hot-start method employs user-defined preferences for report elements.
The experimental study was performed involving users who had different level of experience with reporting tools to explore, which of the methods for generating recommendations would produce more accurate recommendations. To evaluate each method and compare with others, user activity log was analyzed as well as direct feedback was gathered in a form of user survey and processed. Summarizing the results of the experimentation, the semantic hot-start method was most appreciated by experienced users, whereas novice users showed preference for both cold-start and semantic hot-start methods.