• English
    • Latviešu
    • Deutsch
    • русский
  • Help
  • Deutsch 
    • English
    • Latviešu
    • Deutsch
    • русский
  • Einloggen
Dokumentanzeige 
  •   DSpace Startseite
  • B4 – LU fakultātes / Faculties of the UL
  • A -- Eksakto zinātņu un tehnoloģiju fakultāte / Faculty of Science and Technology
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses
  • Dokumentanzeige
  •   DSpace Startseite
  • B4 – LU fakultātes / Faculties of the UL
  • A -- Eksakto zinātņu un tehnoloģiju fakultāte / Faculty of Science and Technology
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses
  • Dokumentanzeige
JavaScript is disabled for your browser. Some features of this site may not work without it.

Latviešu valodas Twitter tekstu noskaņojuma analīze populāro uzņēmumu uztveres novērtēšanai

Thumbnail
Öffnen
302-89172-Govoruhina_Alina_ag18071.pdf (1.411Mb)
Autor
Govoruhina, Alīna
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Skadiņa, Inguna
Datum
2022
Metadata
Zur Langanzeige
Zusammenfassung
Bakalaura darba mērķis ir analizēt latviešu Twitter publikāciju noskaņojuma analīzi, izmantojot jaunākos sasniegumus dabiskās valodās apstrādē: transformeru modeļus. Ir izpētīts, kā apmācīšana ar tekstiem, kas tika apstrādāti ar dažādām metodēm, ietekmē multilingvālu BERT, ELECTRA un LaBSE klasifikatoru rezultātus. Noskaidrots labākais un piemērotākais modelis darbā ar latviešu tvītiem – LVBERT, apmācīts ar latviešu literāriem rakstiem. Labākais modelis tika izmantots, lai veidotu noskaņojuma un tvītu publicēšanas biežuma grafus laikā, ko var izmantot marketingā, lai noskaidrotu sabiedrības viedokli par kādu uzņēmumu Twitter sociālā tīklā. Piemērotākās teksta priekšapstrādes metodes darbā ar transformeru modeļiem bija atsauču uz lietotājiem un vietrāžu URL izmešana un pieturzīmju un lielo un mazo burtu saglabāšana. Pozitīvu ietekmi uzrādīja populāro nezināmo tekstvienību vai emocijzīmju pievienošana modeļa vārdnīcai. Bakalaura darbā iegūtos rezultātus iespējams izmantot latviešu un citu līdzīgu valodu apstrādē.
 
The aim of the thesis is to analyze Latvian Twitter posts’ sentiment classification using state of the art achievements in natural language processing: transformers. It has been researched that training models on differently pre-processed texts has an effect on multilingual BERT, ELECTRA and LaBSE classification results. It was demonstrated that the most successful model was LVBERT. It is the model that has been pretrained on Latvian literary texts. The best model has been used to create tweet sentiment and post count graphs in a time period, which can be used in marketing to find out the Twitter users’ opinions on a company. The analysis showed that the most suitable text pre-processing method for work with transformers has been removing user references and URLs from the posts but leaving punctuation and capital and small letters untouched. Adding frequently used unknown tokens or emoji to the model’s vocabulary also has had a positive effect. The results obtained in this thesis can be used in further Latvian and other similar languages processing.
 
URI
https://dspace.lu.lv/dspace/handle/7/60017
Collections
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses [5688]

University of Latvia
Kontakt | Feedback abschicken
Theme by 
@mire NV
 

 

Stöbern

Gesamter BestandBereiche & SammlungenErscheinungsdatumAutorenTitelnSchlagwortenDiese SammlungErscheinungsdatumAutorenTitelnSchlagworten

Mein Benutzerkonto

Einloggen

Statistik

Benutzungsstatistik

University of Latvia
Kontakt | Feedback abschicken
Theme by 
@mire NV