Ierobežotas latviešu valodas formālā gramatika un semantika
Author
Grūzītis, Normunds
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Spektors, Andrejs
Date
2011Metadata
Show full item recordAbstract
Promocijas darba pētījuma priekšmets ir latviešu valodas kā izteikti fleksīvas, sintētiskas
valodas automātiska gramatiskā un semantiskā analīze. Darbā ir piedāvāts oriģināls,
hibrīds gramatikas modelis, kas ir piemērots tādu valodu sintaktiskajai analīzei, kurās
vārdu secība ir relatīvi brīva. Izstrādātais modelis ir aprobēts praksē, formalizējot latviešu
valodas apakškopu, kas aptver dažādas vienkāršos paplašinātos teikumos sastopamas
sintaktiskās konstrukcijas. Tālāk problēma tiek sašaurināta ne tikai sintaktiski, bet arī
semantiski, izstrādājot viennozīmīgu, taču iespējami dabisku ierobežotu latviešu valodu
(un atbilstošus automātiskas analīzes/sintēzes līdzekļus), kuras semantika ir definēta
aprakstošajā loģikā. Darbā ir parādīts, ka teikuma informatīvās struktūras analīze ir
pietiekams līdzeklis viennozīmīgai kvantoru un koreferenču noteikšanai ierobežotas
sintētiskas valodas formā dotās OWL terminoloģiskajās aksiomās, SWRL izvedumu
likumos un SPARQL integritātes vaicājumos. Darbā ir piedāvāta un realizēta divlīmeņu
tulkošanas pieeja, demonstrējot ierobežotās latviešu valodas teikumu automātisku,
semantiski precīzu translēšanu uz OWL (un otrādi), lietojot esošu ierobežotu angļu
valodu kā starpvalodu un atkalizmantojot tās rīkus. Papildus ir piedāvāta pusautomātiska
metode sistemātiskas leksiskās daudznozīmības atbalstam un nozīmju precīzai izšķiršanai
ierobežotas valodas tekstos, vienlaikus risinot OWL ontoloģiju sastatīšanas problēmu. The research subject of this doctoral thesis is the formal, automatic grammatical and
semantic analysis of the highly inflective, synthetic Latvian language. A novel hybrid
grammar model is proposed, which is especially suited for languages with relatively free
word order. The model has been tested on a syntactically restricted subset of Latvian,
covering various constructions that can be found in simple extended sentences. The
problem is then restricted also from the semantic perspective by developing a
deterministic, yet natural subset of Latvian (accompanied with its parser and generator),
whose semantics is defined in description logic. The author shows that the analysis of the
information structure of a sentence is a reliable way to unambiguously identify the
implicit quantifiers and coreferences in OWL terminological axioms, SWRL inference
rules and SPARQL integrity queries that are given in a form of a controlled synthetic
language. A two-level translation approach is proposed and implemented in a prototype
that demonstrates the semantically precise machine translation from controlled Latvian to
OWL (and vice versa) by using an existing controlled English as an interlingua and by
reusing its readily available tools. In addition, a semi-automatic method is proposed to
enable controlled, systematic polysemy and word sense disambiguation in controlled
language texts, simultaneously dealing with the OWL ontology merging problem.