Koreferenču noteikšana latviešu valodā
Author
Znotiņš, Artūrs
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Paikens, Pēteris
Date
2014Metadata
Show full item recordAbstract
Koreferenču noteikšana ir aktuāla problēma dabiskās valodas apstrādes (NLP) pētījumos. Pēdējos gados ir vērojams ievērojams progress ne tikai koreferenču noteikšanā angļu valodai, bet arī citām valodām, kurām nav tik daudz pieejamo lingvistisko resursu.
Darba mērķis ir izveidot pamatu tālākiem pētījumiem koreferenču noteikšanai latviešu valodai. Darbs ietver anotēšanas vadlīniju un manuāli anotēta koreferenču korpusa izstrādi latviešu valodā. Teorētiskajā daļā ir apskatītas dažādas pieejas koreferenču noteikšanai. Darba galvenais rezultāts ir likumos bāzēta koreferenču sistēma latviešu valodai, kas sasniedz 58,0% F-mēru (76,5%, izmantojot manuāli anotētus pieminējumus). Darbs apraksta pašreizējos mašīnmācīšanās eksperimentus un centienus uzlabot nosaukto entītiju atpazīšanas veiktspēju.
Atslēgvārdi: dabiskās valodas apstrāde, informācijas izgūšana, koreferenču noteikšana, nosaukto entītiju atpazīšana Coreference resolution in Latvian
Coreference resolution is a current problem in natural language processing (NLP) research. Over the last years considerable progress has been made not only in coreference resolution for English but also for other languages with much less linguistic resources available.
The aim of this work is to create a baseline for further research in coreference resolution for Latvian. The work includes creation of annotation guidelines and manually annotated coreference corpus in Latvian. In theoretical part different approaches for coreference resolution are considered. The main result of this work is the rule based coreference system that currently reaches 58.0% F-score (76.5% using manually annotated mentions). This paper also describes current machine learning experiments and efforts to improve the performance of a named entity recognizer.
Keywords: natural language processing, information extraction, coreference resolution, named entity recognition