Latviešu valodas Twitter tekstu noskaņojuma analīze populāro uzņēmumu uztveres novērtēšanai
Author
Govoruhina, Alīna
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Skadiņa, Inguna
Date
2022Metadata
Show full item recordAbstract
Bakalaura darba mērķis ir analizēt latviešu Twitter publikāciju noskaņojuma analīzi, izmantojot jaunākos sasniegumus dabiskās valodās apstrādē: transformeru modeļus. Ir izpētīts, kā apmācīšana ar tekstiem, kas tika apstrādāti ar dažādām metodēm, ietekmē multilingvālu BERT, ELECTRA un LaBSE klasifikatoru rezultātus. Noskaidrots labākais un piemērotākais modelis darbā ar latviešu tvītiem – LVBERT, apmācīts ar latviešu literāriem rakstiem. Labākais modelis tika izmantots, lai veidotu noskaņojuma un tvītu publicēšanas biežuma grafus laikā, ko var izmantot marketingā, lai noskaidrotu sabiedrības viedokli par kādu uzņēmumu Twitter sociālā tīklā. Piemērotākās teksta priekšapstrādes metodes darbā ar transformeru modeļiem bija atsauču uz lietotājiem un vietrāžu URL izmešana un pieturzīmju un lielo un mazo burtu saglabāšana. Pozitīvu ietekmi uzrādīja populāro nezināmo tekstvienību vai emocijzīmju pievienošana modeļa vārdnīcai. Bakalaura darbā iegūtos rezultātus iespējams izmantot latviešu un citu līdzīgu valodu apstrādē. The aim of the thesis is to analyze Latvian Twitter posts’ sentiment classification using state of the art achievements in natural language processing: transformers. It has been researched that training models on differently pre-processed texts has an effect on multilingual BERT, ELECTRA and LaBSE classification results. It was demonstrated that the most successful model was LVBERT. It is the model that has been pretrained on Latvian literary texts. The best model has been used to create tweet sentiment and post count graphs in a time period, which can be used in marketing to find out the Twitter users’ opinions on a company. The analysis showed that the most suitable text pre-processing method for work with transformers has been removing user references and URLs from the posts but leaving punctuation and capital and small letters untouched. Adding frequently used unknown tokens or emoji to the model’s vocabulary also has had a positive effect. The results obtained in this thesis can be used in further Latvian and other similar languages processing.