Aizskarošu tekstu filtrēšana ar neironu tīklu metodēm

Bērzkalns, Andris

View/Open

302-75838-Berzkalns_Andris_ab16118.pdf (1.174Mb)

Author

Bērzkalns, Andris

Co-author

Latvijas Universitāte. Datorikas fakultāte

Advisor

Paikens, Pēteris

Date

2020

Metadata

Show full item record

Abstract

Pētījuma mērķis ir izstrādāt neironu tīklu modeli, kas spēj izvērtēt angļu valodā rakstītu tekstu un noteikt aizskaroša satura esamību. Pētījuma ietvaros apskatītas tādas teksta apstrādes metodes kā lemmatizēšana un teksta sadalīšana tekstvienībās, veikta datu kopas sagatavošana un salīdzināti vairāki neironu tīklu arhitektūru tipi. Rezultātā iegūts neironu tīkla modelis, kas ar 93,75% precizitāti spēj noteikt aizskaroša teksta esamību noteiktā teksta gabalā. Izstrādātais modelis pārsēj pētījumā apskatīto bāzlīnijas metodes precizitāti par 33,28%. Pētījuma ietvaros izstrādāta tīmekļa lietotne, kas pielieto izstrādāto modeli un vizuāli ataino iegūtos rezultātus.

The purpose of this paper is to develop a neural network model, that can filter text that is written in English and determine if it contains offensive speech. The research looks at text processing methods like lemmatization and tokenization, it describes the creation of a dataset and evaluates different neural network architecture types. The result is a neural network model, that can detect offensive language in a body of text with a 93,75% precision. The developed model surpasses the baseline method’s accuracy by 33,28%. As part of the study a Web application is designed, that uses the most optimal model and visualizes the results.

URI

https://dspace.lu.lv/dspace/handle/7/50758

Collections

Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses [5688]