Показать сокращенную информацию

dc.contributor.advisorSkadiņa, Inguna
dc.contributor.authorGovoruhina, Alīna
dc.contributor.otherLatvijas Universitāte. Datorikas fakultāte
dc.date.accessioned2022-06-30T01:02:08Z
dc.date.available2022-06-30T01:02:08Z
dc.date.issued2022
dc.identifier.other89172
dc.identifier.urihttps://dspace.lu.lv/dspace/handle/7/60017
dc.description.abstractBakalaura darba mērķis ir analizēt latviešu Twitter publikāciju noskaņojuma analīzi, izmantojot jaunākos sasniegumus dabiskās valodās apstrādē: transformeru modeļus. Ir izpētīts, kā apmācīšana ar tekstiem, kas tika apstrādāti ar dažādām metodēm, ietekmē multilingvālu BERT, ELECTRA un LaBSE klasifikatoru rezultātus. Noskaidrots labākais un piemērotākais modelis darbā ar latviešu tvītiem – LVBERT, apmācīts ar latviešu literāriem rakstiem. Labākais modelis tika izmantots, lai veidotu noskaņojuma un tvītu publicēšanas biežuma grafus laikā, ko var izmantot marketingā, lai noskaidrotu sabiedrības viedokli par kādu uzņēmumu Twitter sociālā tīklā. Piemērotākās teksta priekšapstrādes metodes darbā ar transformeru modeļiem bija atsauču uz lietotājiem un vietrāžu URL izmešana un pieturzīmju un lielo un mazo burtu saglabāšana. Pozitīvu ietekmi uzrādīja populāro nezināmo tekstvienību vai emocijzīmju pievienošana modeļa vārdnīcai. Bakalaura darbā iegūtos rezultātus iespējams izmantot latviešu un citu līdzīgu valodu apstrādē.
dc.description.abstractThe aim of the thesis is to analyze Latvian Twitter posts’ sentiment classification using state of the art achievements in natural language processing: transformers. It has been researched that training models on differently pre-processed texts has an effect on multilingual BERT, ELECTRA and LaBSE classification results. It was demonstrated that the most successful model was LVBERT. It is the model that has been pretrained on Latvian literary texts. The best model has been used to create tweet sentiment and post count graphs in a time period, which can be used in marketing to find out the Twitter users’ opinions on a company. The analysis showed that the most suitable text pre-processing method for work with transformers has been removing user references and URLs from the posts but leaving punctuation and capital and small letters untouched. Adding frequently used unknown tokens or emoji to the model’s vocabulary also has had a positive effect. The results obtained in this thesis can be used in further Latvian and other similar languages processing.
dc.language.isolav
dc.publisherLatvijas Universitāte
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subjectDatorzinātne
dc.subjectTwitter
dc.subjectnoskaņojuma analīze
dc.subjectBERT
dc.subjectLaBSE
dc.subjectELECTRA
dc.titleLatviešu valodas Twitter tekstu noskaņojuma analīze populāro uzņēmumu uztveres novērtēšanai
dc.title.alternativePopular brand perception evaluation through Latvian Twitter posts sentiment analysis
dc.typeinfo:eu-repo/semantics/bachelorThesis


Файлы в этом документе

Thumbnail

Данный элемент включен в следующие коллекции

Показать сокращенную информацию