Show simple item record

dc.contributor.advisorGrūzītis, Normundsen_US
dc.contributor.authorPretkalniņa, Laumaen_US
dc.contributor.otherLatvijas Universitāte. Datorikas fakultāteen_US
dc.date.accessioned2015-03-24T07:05:11Z
dc.date.available2015-03-24T07:05:11Z
dc.date.issued2011en_US
dc.identifier.other18370en_US
dc.identifier.urihttps://dspace.lu.lv/dspace/handle/7/16986
dc.description.abstractDarbā aplūkota sintaktiski anotētu korpusu (treebank) izstrādes problemātika ar mērķi radīt stabilu tehnoloģisko pamatu sintaktiski anotēta latviešu valodas korpusa izstrādei. Darbā apskatīti klasiskie sintaktiskās analīzes (reprezentācijas) modeļi — vārdkopu struktūru un atkarību gramatikas — un SemTi-Kamola hibrīdais gramatikas modelis valodām ar relatīvi brīvu vārdu secību. Darbā analizēta pasaulē lielāko sintaktiski anotēto korpusu pieredze un formāti, īpašu uzmanību pievēršot vadošā atkarību pieejā balstītā korpusa — Prāgas atkarību korpusa (Prague Dependency Treebank — PDT) — vairāklīmeņu anotāciju struktūrai. Darbā izstrādāts SemTi-Kamola gramatikas modeļa paplašinājums, kas nodrošina sintaktiski neierobežotu teikumu anotēšanu. Izveidots PML (Prague Markup Language) profils SemTi-Kamols datu aprakstīšanai starptautiski atzītā mašīnlasāmā formā. Izstrādātais XML balstītais datu formāts ir integrēts ar SemTi-Kamola automātiskās sintaktiskās analīzes rīkiem un vizuālo kokveida datu struktūru redaktoru TrEd, kas ir izmantots PDT izveidē. Tādejādi ir radīts tehnoloģiskais un metodoloģiskais pamats latviešu valodas sintaktiski anotēta korpusa radīšanai — vide (integrētu rīku un formātu kopums), kas ļauj tekstus formāli anotēt atbilstoši SemTi-Kamols modelim, bet neprasa specifiskas tehnoloģiju zināšanas no lietotāja (valodnieka). Izstrādātā vide tiek sekmīgi pielietota praksē — izveidotas anotācijas apmēram 200 teikumiem.en_US
dc.description.abstractThe problem of developing syntactically annotated text corpus (treebank) is considered in this work. The aim of this work is to develop a sound technological base for developing Latvian Treebank. General approaches of the syntactic analysis are described — the phrase structure approach and the dependency approach. The SemTi-Kamols hybrid dependency based grammar for languages with rather free word order is also described. The experience of world’s largest treebanks, particularly Prague Dependency Treebank (PDT) and its multi-level annotation structure, is analysed as well. An extension of the SemTi-Kamols model has been developed to cover syntactically unrestricted sentences of Latvian language. A PML (Prague Markup Language) profile for displaying SemTi-Kamols data in the internationally acknowledged machine-readable form has been developed. This XML based format is integrated with SemTi-Kamols parser and visual tree editor TrEd originally developed for PDT. The main result of this work is the technological and methodological base for creating Latvian Treebank — a framework consisting of integrated tools and formats that allows to annotate treebank data accordingly to the SemTi-Kamols model without requiring deep technological knowledge from the end-user (linguist). Approximately 200 sentences have been annotated using the developed framework.en_US
dc.language.isoN/Aen_US
dc.publisherLatvijas Universitāteen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectDatorzinātneen_US
dc.titleIntegrēta sistēma sintaktiski anotēta latviešu valodas teksta korpusa izveideien_US
dc.title.alternativeAn integrated system for the development of Latvian Treebanken_US
dc.typeinfo:eu-repo/semantics/masterThesisen_US


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record