Vārdu nozīmju piekārtošana starp leksiskajiem tīkliem
Author
Strankale, Laine
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Paikens, Pēteris
Date
2021Metadata
Show full item recordAbstract
Latvian WordNet ir latviešu valodas leksiskais tīkls – resurss, kurā vārdu nozīmes ir savienotas, balstoties uz to semantiskajām attieksmēm. Pašlaik tiek manuāli veidots pamattīkls, sasaistot ierobežotu skaitu vārdu nozīmju, taču teksta analīzei ir nepieciešams plašs pārklājums. Šī darba mērķis ir papildināt eksistējošo leksisko tīklu, automātiski piesaistot jaunas vārdu nozīmes un piekārtojot tās angļu valodas leksiskajam tīklam Princeton WordNet. Izvēlētā metode identificē angļu un latviešu valodām kopīgo informāciju, izmantojot latviešu skaidrojošās vārdnīcas Tēzaurs.lv un Princeton WordNet datus un salīdzinot ar vārdlietojuma kartējuma (angliski word embeddings) palīdzību nozīmju definīcijas, piemērus un sinonīmus. Rezultātā tika atrastas 54 924 nozīmes, ko var potenciāli pievienot Latvian WordNet, ar precizitāti 69% lietvārdiem, 40% darbības vārdiem, 70% īpašības vārdiem un 64% apstākļa vārdiem. Latvian WordNet is a resource where the senses of words are connected based on their semantic relationships. The core network is currently being manually built, linking the senses of a limited number of words, however, text processing tasks require broad coverage. This work aims to extend the existing Latvian WordNet by automatically linking new word senses and aligning them to the English-language Princeton WordNet. The method chosen identifies common information for English and Latvian languages, using the data from the Latvian online dictionary Tēzaurs.lv and Princeton WordNet, and compares the word sense definitions, examples and synonyms using word embeddings. As a result, 54 924 meanings were found that can potentially be added to Latvian WordNet, with an accuracy of 69% for nouns, 40% for verbs, 70% for adjectives and 64% for adverbs.