Dažādu teksta izmēru klasifikācija

Sosins, Artūrs

View/Open

302-34060-Sosins_Arturs_as07142.pdf (1.512Mb)

Author

Sosins, Artūrs

Co-author

Latvijas Universitāte. Datorikas fakultāte

Advisor

Zviedris, Mārtiņš

Date

2013

Metadata

Show full item record

Abstract

Mūsdienās strauji pieaug informācijas daudzums, ko var atrast sociālajos portālos. Twitter, Facebook statusi un FourSquare checkin padomi, satur daudzu cilvēku viedokļus, atsauksmes un citu svarīgu informāciju, kā arī daudziem cilvēkiem tas ir kļuvis par primāro jaunas un interesantas informācijas iegūšanas avotu, taču šī informācija satur arī daudz papildus informāciju, kas apgrūtina saistošās informācijas iegūšanu. Šādu informāciju, kā viedokļus, cilvēki intereses, notikumus, utt. ir vērts apstrādāt mēģinot to saklasificēt un strukturēt, lai piemēram, varētu attēlot tikai cilvēkiem interesējošus ierakstus, vai izvilkt viedokļus par noteiktām lietām. Bet lielā šīs informācijas daudzuma dēļ to nevar izdarīt manuāli. Ar standarta automatizētām klasifikācijas metodēm arī nepietiek, jo šādi tekstuāli resursi ir parasti ļoti maza izmēra (140 simboliem un mazāk), līdz ar to ir jāmeklē jauni veidi kā varētu izmantot šādus informācijas avotus un apstrādāt datus ar tik mazu izmēru. Šī darba mērķis ir izpētīt kā klasifikācijas metodes atšķiras darbojoties ar dažāda izmēra tekstiem un atrast metodes un klasifikatorus, kas der vislabāk noteiktiem tekstu izmēriem, un noteiktām tekstu īpašībām, piemēram, dažādiem vārdu daudzumiem vai vārdu atkārtojumiem starp tekstiem, kā arī atrast labāko variantu tieši maza izmēri tekstiem un implementēt to.

Nowadays amount of the information available on social networks is rapidly increasing. Twitter, Facebook statuses and FourSquare checkins, contain advices, reviews and opinions of many people, as well as for many people it has become the primary source of new and interesting information. It is worth to try processing such information by classifying and structuring it, but because of the vast amount of this information, it cannot be done manually. And standard automated classification methods are also insufficient, as such textual resources are usually very small (140 characters or less), hence there is a need for new ways of processing such small pieces of information. The purpose of the work “Various text size classifications” is to research different classification methods and try to apply them to text classification of different sizes, while trying to find the most suitable methods for small text classification or propose new solutions.

URI

https://dspace.lu.lv/dspace/handle/7/23096

Collections

Bakalaura un maģistra darbi (DF) / Bachelor's and Master's theses [3341]