Patronizējošu un nosodošu tekstu noteikšana(SemEval 2022 uzdevums)
Author
Zaķis, Romijs Gabriels
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Paikens, Pēteris
Date
2022Metadata
Show full item recordAbstract
Darbā tiek apskatīta problēma par nosodošu tekstu noteikšanu, kas ir viens no SemEval 2022 izvirzītajiem uzdevumiem. Tiek apskatīti teksti angļu valodā uz jau gatavas un novērtētas datu kopas. Darba mērķis ir apskatīt iespējamus risinājumus un no izvēlētajiem izstrādāt programmu izmantojot dažādus valodas tehnoloģijas modeļus kuri spētu nolasīt doto datu kopu un atgriezt paredzējumu vai teksts ir nosodošs vai nav, kā arī apkopot informāciju par dažādiem sistēmas uzbūves slāņiem un to darbību. Galvenie modeļi, kuri darbā tiek apskatīti, realizēti un testēti ir BERT, RoBERTA un distilBERT, kā arī Naive Bayes modelis, kurš kalpo kā bāzlīnija salīdzināšanai. Beigās tiek iegūti rezultāti ar katra modeļa efektivitāti pēc to precīzumspējas, pārklājuma un precizitātes un veikti secinājumi par tiem, kā arī par to kā modeļus varētu uzlabot vai kādas nepilnības tajos bija. Atslēgvārdi: nosodoši teksti, BERT, mašīnmācīšanās, transformatori, SemEval, teksta klasifikācija, datu kopa The paper looks at a problem of detecting condescending and patronizing texts, which is one of the tasks from SemEval 2022 workshop. Texts used are in english and from an already available and annotated dataset. The aim of this paper is firstly to find possible solutions for this task and to create a working model or multiple from the chosen ones, which would be able to read data from the given dataset and return a prediction of whether the text is condescending or not. Secondly, the aim was also to gather information about different possibilities for fine tuning the models with different types of layers and parameters. The main models that are analyzed, used and tested are BERT, RoBERT and distilBERT, as well as a Naive Bayes model, which works as a baseline model for comparison. At the end, results were gathered about the effectiveness of each model by their precision, recall and accuracy. Conclusions were made about each model, possible improvements in the future and what were some possible deficiencies in the models. Keywords: condescending and patronizing texts, BERT, machine learning, transformators, SemEval, text classification, dataset PATRONIZING AND CONDESCENDING TEXT DETECTION(SEMEVAL 2022 TASK)