Dažādu teksta izmēru klasifikācija
Author
Sosins, Artūrs
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Zviedris, Mārtiņš
Date
2013Metadata
Show full item recordAbstract
Mūsdienās strauji pieaug informācijas daudzums, ko var atrast sociālajos portālos. Twitter, Facebook statusi un FourSquare checkin padomi, satur daudzu cilvēku viedokļus, atsauksmes un citu svarīgu informāciju, kā arī daudziem cilvēkiem tas ir kļuvis par primāro jaunas un interesantas informācijas iegūšanas avotu, taču šī informācija satur arī daudz papildus informāciju, kas apgrūtina saistošās informācijas iegūšanu. Šādu informāciju, kā viedokļus, cilvēki intereses, notikumus, utt. ir vērts apstrādāt mēģinot to saklasificēt un strukturēt, lai piemēram, varētu attēlot tikai cilvēkiem interesējošus ierakstus, vai izvilkt viedokļus par noteiktām lietām. Bet lielā šīs informācijas daudzuma dēļ to nevar izdarīt manuāli. Ar standarta automatizētām klasifikācijas metodēm arī nepietiek, jo šādi tekstuāli resursi ir parasti ļoti maza izmēra (140 simboliem un mazāk), līdz ar to ir jāmeklē jauni veidi kā varētu izmantot šādus informācijas avotus un apstrādāt datus ar tik mazu izmēru.
Šī darba mērķis ir izpētīt kā klasifikācijas metodes atšķiras darbojoties ar dažāda izmēra tekstiem un atrast metodes un klasifikatorus, kas der vislabāk noteiktiem tekstu izmēriem, un noteiktām tekstu īpašībām, piemēram, dažādiem vārdu daudzumiem vai vārdu atkārtojumiem starp tekstiem, kā arī atrast labāko variantu tieši maza izmēri tekstiem un implementēt to. Nowadays amount of the information available on social networks is rapidly increasing. Twitter, Facebook statuses and FourSquare checkins, contain advices, reviews and opinions of many people, as well as for many people it has become the primary source of new and interesting information. It is worth to try processing such information by classifying and structuring it, but because of the vast amount of this information, it cannot be done manually. And standard automated classification methods are also insufficient, as such textual resources are usually very small (140 characters or less), hence there is a need for new ways of processing such small pieces of information.
The purpose of the work “Various text size classifications” is to research different classification methods and try to apply them to text classification of different sizes, while trying to find the most suitable methods for small text classification or propose new solutions.