Показать сокращенную информацию

dc.contributor.advisorBārzdiņš, Guntis
dc.contributor.authorPīrāgs, Reinholds
dc.contributor.otherLatvijas Universitāte. Datorikas fakultāte
dc.date.accessioned2016-07-02T01:08:24Z
dc.date.available2016-07-02T01:08:24Z
dc.date.issued2016
dc.identifier.other53328
dc.identifier.urihttps://dspace.lu.lv/dspace/handle/7/32221
dc.description.abstractŠobrīd pasaulē ir vērojams milzīgs informācijas daudzuma pieaugums un ir arvien grūtāk iepazīties ar šo informāciju. Automātiskas teksta konspektēšanas mērķis ir spēt pārveidot lielu tekstuālas informācijas daudzumu īsākā formātā, kurš spēj saglabāt oriģinālā teksta svarīgāko informāciju. Viena no metodēm kā automātiski konspektēt tekstu ir izvēlēties svarīgākos teikumus no teksta. Mērķis ir izvēlēties teikumus tā, lai tajos esošā informācija savstarpēji nepārklājas, kā arī nosedz pietiekamu daļu no konspektējamā teksta. Lai to izdarītu ir jāsalīdzina teikumu ietvertās informācijas līdzīgums. Jēdzientelpa ir moderns rīks, ar kura palīdzību var noteikt vārdu nozīmi un līdzību ar citiem vārdiem. Šajā darbā tiek izveidota sistēma, kura automātiski konspektē tekstu izmantojot jēdzientelpas vektorus, lai mērītu teikumu informācijas saturu. Pēc tam iegūtie rezultāti tiek salīdzināti ar tradicionālo TF-IDF metodi. Jēdzientelpas vektoru metodes rezultāti ir labi, bet tie ir nedaudz zemāki par tradicionālās TF-IDF metodes rezultāti.
dc.description.abstractCurrently the world is experiencing a huge increase in the amount of information and it is getting harder and harder to process it. The goal of automated text summarisation is to transform large amounts of textual information into much shorter summary text, which maintains the main information from the original. One of the methods of automated summarisation is to select the most important sentences. The objective is to select sentences in a way that the information in the sentences does not overlap and covers enough of the original text content. To do that one must compare the similarity of sentences. Word embedding is a modern tool for determining the meaning of a word and similarity to other words. In this work a system for automated summarisation of text using word embeddings is created. The resulting summaries are compared to standard TF-IDF system summaries. The word embedding method results are good, but it fails to outperform the TF-IDF system.
dc.language.isolav
dc.publisherLatvijas Universitāte
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subjectDatorzinātne
dc.subjectekstraktīva konspektēšana
dc.subjectjēdzientelpa
dc.subjectword2vec
dc.subjectTF-IDF
dc.titleAutomātiska teksta konspektēšana izmantojot jēdzientelpu
dc.title.alternativeAutomated Text Summarisation Using Word Embeddings
dc.typeinfo:eu-repo/semantics/masterThesis


Файлы в этом документе

Thumbnail

Данный элемент включен в следующие коллекции

Показать сокращенную информацию