Semantisko kopu automātiska izguve no teksta korpusa

Višņevskis, Gatis

dc.contributor.advisor	Paikens, Pēteris	en_US
dc.contributor.author	Višņevskis, Gatis	en_US
dc.contributor.other	Latvijas Universitāte. Datorikas fakultāte	en_US
dc.date.accessioned	2015-03-24T08:23:04Z
dc.date.available	2015-03-24T08:23:04Z
dc.date.issued	2014	en_US
dc.identifier.other	43794	en_US
dc.identifier.uri	https://dspace.lu.lv/dspace/handle/7/23152
dc.description.abstract	Vārdu nozīmju datubāzes kalpo kā nozīmīgs rīks dažādās datorlingvistikas apakšnozarēs. Vairākās pasaules valodās tās jau ir izveidotas un tiek aktīvi lietotas. Datorlingvistikā notiek aktīva pētniecība par šādu datubāzu automātisku izveidi un papildināšanu. Viena no svarīgākajām apakšproblēmām šajā nozarē ir vārdu semantisku kopu automātiska izguve no teksta korpusiem. Šī pētījuma mērķis ir pārbaudīt kā un cik precīzi strādā statistiskā vārdu automātiskas izguves metode latviešu valodā. Darba rezultātā tika savākts un morfoloģiski un sintaktiski nomarķēts vairāk nekā 130 miljonu vārdu korpuss, ar kura palīdzību šī metode tika pārbaudīta. Rezultātā tika sasniegta 38% precizitāte. Darbā arīdzan tiek doti norādījumi kā to palielināt, kā arī ir apskatīti citu valstu pētījumi šajā virzienā un sniegti ieteikumi turpmākai pētniecībai.	en_US
dc.description.abstract	Word sense databases are important tools in various fields of computational linguistics. Such databases have already been created and are in use in various languages. Active research is being carried out to make possible an automatic compilation of such databases. One of the most important problems in this field is the automatic acquisition of synsets from text corpora. The aim of this paper is to test the precision of statistical synset acquisition method in Latvian language. For this reason a 130 million word text corpus was compiled and parsed morphologically and syntatically. The method was able to acquire synsets with a precision of 38%. This paper also gives an overview of related research, makes suggestions of how to further increase the precision of the method in Latvian languages and provides topics for further research.	en_US
dc.language.iso	N/A	en_US
dc.publisher	Latvijas Universitāte	en_US
dc.rights	info:eu-repo/semantics/openAccess	en_US
dc.subject	Datorzinātne	en_US
dc.title	Semantisko kopu automātiska izguve no teksta korpusa	en_US
dc.title.alternative	Automatic acquisition of synsets from textual corpus	en_US
dc.type	info:eu-repo/semantics/bachelorThesis	en_US

Файлы в этом документе

Имя:: 302-43794-Visnevskis_Gatis_gv0 ...
Размер:: 932.9Kb
Формат:: PDF

Открыть

Данный элемент включен в следующие коллекции

Bakalaura un maģistra darbi (DF) / Bachelor's and Master's theses [3177]

Показать сокращенную информацию