• English
    • Latviešu
    • Deutsch
    • русский
  • Help
  • English 
    • English
    • Latviešu
    • Deutsch
    • русский
  • Login
View Item 
  •   DSpace Home
  • B4 – LU fakultātes / Faculties of the UL
  • A -- Eksakto zinātņu un tehnoloģiju fakultāte / Faculty of Science and Technology
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses
  • View Item
  •   DSpace Home
  • B4 – LU fakultātes / Faculties of the UL
  • A -- Eksakto zinātņu un tehnoloģiju fakultāte / Faculty of Science and Technology
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Patronizējošu un nosodošu tekstu noteikšana(SemEval 2022 uzdevums)

Thumbnail
View/Open
302-89088-Zakis_Romijs.Gabriels_rz18035.pdf (1.234Mb)
Author
Zaķis, Romijs Gabriels
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Paikens, Pēteris
Date
2022
Metadata
Show full item record
Abstract
Darbā tiek apskatīta problēma par nosodošu tekstu noteikšanu, kas ir viens no SemEval 2022 izvirzītajiem uzdevumiem. Tiek apskatīti teksti angļu valodā uz jau gatavas un novērtētas datu kopas. Darba mērķis ir apskatīt iespējamus risinājumus un no izvēlētajiem izstrādāt programmu izmantojot dažādus valodas tehnoloģijas modeļus kuri spētu nolasīt doto datu kopu un atgriezt paredzējumu vai teksts ir nosodošs vai nav, kā arī apkopot informāciju par dažādiem sistēmas uzbūves slāņiem un to darbību. Galvenie modeļi, kuri darbā tiek apskatīti, realizēti un testēti ir BERT, RoBERTA un distilBERT, kā arī Naive Bayes modelis, kurš kalpo kā bāzlīnija salīdzināšanai. Beigās tiek iegūti rezultāti ar katra modeļa efektivitāti pēc to precīzumspējas, pārklājuma un precizitātes un veikti secinājumi par tiem, kā arī par to kā modeļus varētu uzlabot vai kādas nepilnības tajos bija. Atslēgvārdi: nosodoši teksti, BERT, mašīnmācīšanās, transformatori, SemEval, teksta klasifikācija, datu kopa
 
The paper looks at a problem of detecting condescending and patronizing texts, which is one of the tasks from SemEval 2022 workshop. Texts used are in english and from an already available and annotated dataset. The aim of this paper is firstly to find possible solutions for this task and to create a working model or multiple from the chosen ones, which would be able to read data from the given dataset and return a prediction of whether the text is condescending or not. Secondly, the aim was also to gather information about different possibilities for fine tuning the models with different types of layers and parameters. The main models that are analyzed, used and tested are BERT, RoBERT and distilBERT, as well as a Naive Bayes model, which works as a baseline model for comparison. At the end, results were gathered about the effectiveness of each model by their precision, recall and accuracy. Conclusions were made about each model, possible improvements in the future and what were some possible deficiencies in the models. Keywords: condescending and patronizing texts, BERT, machine learning, transformators, SemEval, text classification, dataset PATRONIZING AND CONDESCENDING TEXT DETECTION(SEMEVAL 2022 TASK)
 
URI
https://dspace.lu.lv/dspace/handle/7/60007
Collections
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses [5688]

University of Latvia
Contact Us | Send Feedback
Theme by 
@mire NV
 

 

Browse

All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

My Account

Login

Statistics

View Usage Statistics

University of Latvia
Contact Us | Send Feedback
Theme by 
@mire NV