Teksta klasifikācijas metodes
Author
Klodža, Simona
Co-author
Latvijas Universitāte. Fizikas un matemātikas fakultāte
Advisor
Valeinis, Jānis
Date
2018Metadata
Show full item recordAbstract
Aizvien vairāk un vairāk cilvēkam ir pieejami teksta dokumenti elektroniskā formā - tiek sūtīti e-pasti, akadēmiskie žurnāli un publikācijas, un ieskenētas veidlapas. Kaut gan teksta dokumentus parasti manuāli klasificē pēc to atslēgas vārdiem vai atbilstības, mašīnmācīšanās algoritmi un automātiska tekstu klasificēšana ļauj ietaupīt daudz resursu - gan cilvēka stundas, gan līdzekļu. Lai iegūtu vērtīgu informāciju no šiem datiem, vispirms tos nepieciešams apstrādāt, un tad apmācīt pašu algoritmu. Šī darba ietvaros lasītājs tiek iepazīstināts ar teksta analīzes metodēm un mašīnmācīšanās algoritmiem, kas nodrošina automātisku teksta klasifikāciju. Kā arī var aplūkot to praktisko pielietojumu trīs dažādos teksta klasifikācijas uzdevumos. More and more people have access to text documents in electronic form - e-mails, academic journals and publications, and scanned forms. Although text documents are usually manually classified according to their key words or relevancy, machine learning algorithms and automatic text categorization allows to save a lot of resources - both valuable human hours and money. To get valuable information from these data, first it is needed to process them and then train the algorithm. In this work, the reader is introduced with text analysis methods and machine learning algorithms that provide automatic text classification. Also analysis of three different text classification tasks are presented.