Datu virzītu metožu pielietošana laikrindu klasterizācijā, tendenču atpazīšanā un prognozēšanā
Author
Vedennikova, Ekaterina
Co-author
Latvijas Universitāte. Eksakto zinātņu un tehnoloģiju fakultāte
Advisor
Gromov, Dmitry
Date
2025Metadata
Show full item recordAbstract
Šajā darbā tiek pielietotas datu virzītas metodes, koncentrējoties uz diviem galvenajiem uzdevumiem: klasterizāciju un prognozēšanu. Klasterizācijai tiek izmantota dinamiskā laika sagriešana un simboliskā agregētā aproksimācija, apvienojumā ar hierarhisko klasterizāciju un nodalījumu ap medoīdiem. Prognozēšanai tiek pielietoti paslēptie Markova modeļi un simboliskā agregētā aproksimācija kombinācijā ar Markova ķēdēm. Darbā tiek sniegts šo metožu teorētiskais apskats, ilustratīvi piemēri, aplūkotas to priekšrocības un ierobežojumi, kā arī pielietošana reāliem datiem. Analizēta datu kopa sastāv no laikrindām, kas ataino spēlētāju aktivitāti dažādās iGaming platformās. Šīm laikrindām nav iepriekš zināmas iekšējas struktūras, kā arī tās neattīstās laikā vienmērīgi, un tādējādi rada nopietnu izaicinājumu datu zinātniekam. Neskatoties uz problēmas acīmredzamo sarežģītību, tiek parādīts, ka dažādu pieeju kombinācija spēj nodrošināt labus rezultātus pat salīdzinoši īsām laikrindām. In this thesis, we apply data-driven methods to the analysis of unstructured time series, while focusing on two core tasks: clustering and forecasting. For clustering, we employ dynamic time warping and symbolic aggregate approximation, combined with hierarchical clustering and partitioning around medoids. For forecasting, we utilize hidden Markov models and symbolic aggregate approximation in combination with Markov chains. We provide an overview of the theoretical foundations of these methods, present illustrative examples, discuss their strengths and limitations, and apply them to real-world data. Specifically, the dataset under study consists of time series capturing player activity across various iGaming platforms. These time series neither possess any inherent structure nor evolve in uniform time, and therefore present a serious challenge to a data scientist. Despite the evident complexity of the problem, we demonstrate that a thoughtfully designed combination of techniques can yield good results in comparison to the classical approaches even for relatively short time series.