Situāciju modeļu izveidošana no teksta korpusa
Autor
Romāne, Gunta
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Bārzdiņš, Guntis
Datum
2013Metadata
Zur LanganzeigeZusammenfassung
Mašīnmācīšanās, lai saprastu dabisko valodu, ir pētniecībā aktuāla tēma, tāpēc darba mērķis ir izstrādāt un aprakstīt metodi, kas iemācītu datoram noteiktai tematikai iegūt datus no teksta.
Darbā tiks izveidota sistēma, kas nodrošinātu iepriekš definētiem faktu veidiem atbilstošu datu iegūšanu no latviešu valodas teksta (piemēram, ziņu arhīviem). Uz šo datu pamata tiks automātiski veidoti situāciju (ang. frame) modeļi, kuros šie fakti tiks aprakstīti valodā. Modeļi būs datorlasāmi, un tajos aprakstītie likumi varētu tikt izmantoti par pamatu automātiskai informācijas iegūšanai no nestrukturēta vai daļēji strukturēta teksta.
Darbā tiks izpētīti arī citi veidi, kā notiek strukturētas informācijas iegūšana no valodas teksta un kā tiek veidoti datu iegūšanai nepieciešamie likumu modeļi.
Atslēgas vārdi: strukturēta informācija, izvilkšanas likumi, datu izvilcējs, situācijas modelis Machine learning for natural language understanding is an actual topic in research, therefore the goal of this work is to develop and describe a method of teaching computer systems to extract data of a specific subject from the textual content.
The scope of this work is to develop a system, which could provide appropriate data retrieval from Latvian language text (like news archives) for previously defined facts. On the basis of retrieved data, frame models will be created where previously mentioned facts are described in natural language. Rules described in these machine readable models could be used as the basis for automatic information extraction from unstructured or semi-structured text.
Analysis also will be performed of other ways how to extract structured information from natural language text and how to make models of extraction rules.
Keywords: structured information, extraction rules, data extractor, situation model