Rīku kopa latviešu valodas semantikas analīzei : publikāciju kopa

Paikens, Pēteris

dc.contributor.advisor	Bārzdiņš, Guntis
dc.contributor.author	Paikens, Pēteris
dc.contributor.other	Latvijas Universitāte. Datorikas fakultāte
dc.date.accessioned	2018-01-26T02:01:15Z
dc.date.available	2018-01-26T02:01:15Z
dc.date.issued	2018
dc.identifier.other	61732
dc.identifier.uri	https://dspace.lu.lv/dspace/handle/7/37936
dc.description.abstract	Promocijas darba pētījuma priekšmets ir automātiskas teksta analīzes metodes, apskatot visus dabiskās valodas apstrādes līmeņus, kas nepieciešami teksta semantiskai analīzei, īpaši pievēršoties risinājumiem, kuri trūka latviešu valodas teksta analīzei. Darbs ir izstrādāts 5 gadu laikā LU MII 4 pētījumu projektu un 2 valsts pētījumu programmu ietvaros. Darbā tiek aprakstītas autora realizētās metodes latviešu valodas nosaukto entitāšu atpazīšanai un piesaistei reālijām. Zināšanu formālās reprezentācijas vajadzībām ir izveidota FrameNet ontoloģija personu un organizāciju datu un attiecību modelēšanai. Darbā ir piedāvāts un realizēts latviešu valodas morfoloģiskās struktūras formāls modelis ar plašu pārklājumu, kas ir piemērots patvaļīga teksta analīzei. Darbā ir apskatītas autora realizētās metodes latviešu valodas morfosintaktiskajai analīzei un realizēts neironu tīklu risinājums daudznozīmības novēršanai. Izstrādātais modelis ir aprobēts praksē vairākos projektos un dabiskās valodas rīku izstrādē. Tāpat darbā ir piedāvāta un realizēta arhitektūra informācijas izguves rīku kopai. Pētīto metožu praktiskai aprobācijai darba gaitā ir izveidots informācijas izguves un zināšanu bāzes aizpildes sistēmas prototips faktu izguvei no latviešu valodas ziņu tekstiem. Šis prototips ir aprobēts ziņu aģentūrā LETA latviešu valodai, kā arī rezultāti ir novērtēti kontekstā ar labakajiem angļu valodas teksta analīzes rezultātiem. Atslēgas vārdi: Morfoloģiskā un morfosintaktiskā analīze, informācijas izguve
dc.description.abstract	This work contains reasearch results on algorithms, resources and tools required for semantic text analysis, with a particular focus on filling in the gaps required for semantic analysis of Latvian language. This work has been developed during the last 5 years in University of Latvia Institute of Mathematics and Computer Science in 4 research projects and 2 state research programmes. This work describes methods developed by the author for Latvian named entity recognition and linking with real world entities. A FrameNet ontology has been developed for formal knowledge representation and modeling person and organization attributes and relations. A formal model of Latvian morphology is proposed and implemented in this work, adapted for wide coverage text analysis. This work covers methods for morphosyntactic tagging of Latvian developed by author, introducing a neural network solution for resolving ambiguity. The developed morphology model is approbated in multiple research projects and natural language tools. As a part of this work, an architecture for an information extraction system and an entity-centric knowledge base is proposed and implemented, integrating the researched methods. This concept is validated on a prototype system for biographic data extraction from Latvian newswire data in news agency LETA and evaluated in context with best results in shared task competions for English knowledge base population. Keywords: Morphosyntactic analysis and tagging, information extraction, knowledge representation
dc.language.iso	lav
dc.publisher	Latvijas Universitāte
dc.rights	info:eu-repo/semantics/openAccess
dc.subject	Datorzinātnes
dc.subject	Datoru un sistēmu programmatūra
dc.subject	Computer science
dc.subject	Morfoloģiskā un morfosintaktiskā analīze
dc.subject	informācijas izguve
dc.title	Rīku kopa latviešu valodas semantikas analīzei : publikāciju kopa
dc.title.alternative	Lexicon-based morphological analysis of latvian language
dc.type	info:eu-repo/semantics/doctoralThesis

Files in this item

Name:: 298-61732-Paikens_Peteris_pp11 ...
Size:: 5.306Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Promocijas darbi (2007-) / Theses PhD [1372]

Show simple item record