Liela apjoma datu kopu klasterēšanas algoritmi
Author
Darģis, Roberts
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Bārzdiņš, Guntis
Date
2016Metadata
Show full item recordAbstract
Mūsdienās, strauji pieaugot internetā pieejamajam informācijas apjomam, aktuāla tēma valodu tehnoloģiju jomā ir informācijas grupēšana (klasterēšana) pēc vienotiem principiem vieglākai informācijas uztveramībai un izkaisītas informācijas apjoma mazināšanai. Darbā "Liela apjoma datu kopu klasterēšanas algoritmi" teorētiskajā daļā izpētītas un apkopotas metodes dokumentu klasterēšanai ar mērķi atrast piemērotāko metodi vai metožu kopu daudzvalodu ziņu straumju klasterēšanai. Darbā arī pētītas un salīdzinātas dažādas klasterēšanas rezultāta novērtēšanas metrikas. Praktiskajā daļā izstrādāta un izvērtēta sistēma daudzvalodu ziņu straumju klasterēšanai, tā darbības rezultāti un turpmāki pētījuma virzieni apkopoti darba nobeigumā. Nowadays one of the current trends of language technologies is information clustering with common traits for simplified information perception and reduction of scattered information amount in the continuous large information flow. Study "Clustering algorithms for large scale data sets" theoretical part includes research of the methods used in document clustering. The goal is to find the most suitable method or set of methods for multilingual message stream clustering. The work also contains research and comparison of various metrics of clustering result evaluation. The practical part includes implementation and evaluation of the system for multilingual news clustering. The results and future research directions are included in the end of the work.