Papildu funkciju izstrāde mašīnmācīšanās teksta analizatoram
Author
Kalniņš, Mikus
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Zuters, Jānis
Date
2019Metadata
Show full item recordAbstract
Teksta analīzes veikšanai ir pieejamas vairākas metodes, šajā dokumentā ir apskatīts kā pielietot Correlation Explanation[7] (korelāciju skaidrošana, turpmāk CorEx[7]) teksta analīzes metodi, implementējot atvērtā pirmkoda (open-source) bibliotēku corextopic[3], jau izstrādātā sistēmā - mašīnmācīšanās teksta analizatorā (turpmāk MMTA). Darbā ir aprakstīta MMTA pamatdarbība un tā mijiedarbība ar implementēto corextopic[3] bibliotēku. MMTA ir programmprodukts ar implementētām vairākām bibliotēkām, kas dod iespēju programmprodukta lietotājam izvēlēties starp vairākām datu apstrādes metodēm saistībā ar teksta analīzi. MMTA darbība iedalās. Informācijas ekstrakcija un tēmu modelēšana ir divi MMTA darbības iedalījumu piemēri. Darbā tiek apskatīta tēmu modelēšana, jo corextopic[3] bibliotēka sniedz bagātīgi modelētas tēmas, tā raksturojot apstrādājamo datu kopumu. Text analysis has many algorithms that try to solve the problem of topic modeling. This document explains how the text analisys method called Correlation Explanation[7] was intergrated into a Machine Learning Text Analyzer (MaLTA) using an open-source Python library corextopic[3]. The document describes core functions of MaLTA and how they interact with the integrated corextopic[3] library. MaLTA is a prgram product with many integrated open-source libraries, that offer the user of MaLTA to choose from a variety of methods to use for text analisys. There are several categories of text analysis that MaLTA works with. Topic Modeling and Information Extraction are two examples. The document describes the process of Topic Modeling since corextopic[3] offers richly modeled topics in such a way describing the input data.