Show simple item record

dc.contributor.advisorArnicāns, Guntisen_US
dc.contributor.authorRomāne, Aigaen_US
dc.contributor.otherLatvijas Universitāte. Fizikas un matemātikas fakultāteen_US
dc.date.accessioned2015-03-24T08:43:35Z
dc.date.available2015-03-24T08:43:35Z
dc.date.issued2009en_US
dc.identifier.other12710en_US
dc.identifier.urihttps://dspace.lu.lv/dspace/handle/7/25536
dc.description.abstractNozīmīga daļa no elektroniski pieejamajiem dokumentiem tiek klasificēti kā daļēji strukturēti dokumenti, piemēram, HTML vai XML. Un tā kā aizvien palielinās šāda veida dokumentu apjoms, saspiešanas metožu attīstība ir aktuāla pētniecības sfēra. Bakalaura darbā tiek apskatītas gan jau esošās daļēji strukturētu dokumentu saspiešanas metodes, gan arī sniegts jauns risinājums. Izstrādātais saspiešanas algoritms balstās uz saspiežamo dokumentu struktūras īpašībām un ir orientēts nevis uz viena, bet gan uz daudzu līdzīgu daļēji strukturētu dokumentu saspiešanu. Kā jaunu ideju risinājums piedāvā regulāras gramatikas izveidošanu dokumentu struktūrai. Darbā tiek sniegts arī risinājuma novērtējums, kas gūts testējot algoritmu uz vairākām datu kopām un salīdzinot ar esošo saspiešanas rīku rezultātiem.en_US
dc.description.abstractSignificant amount of electronically available documents are classified as semi-structured, such as HTML or XML. Due to rapid growth of such document volumes, data compression is a challenging research area. In this work, the review of existing compression techniques for semi-structured documents is made and also a new solution is presented. Developed compression algorithm is based on document structure properties and is oriented to compress many similar semi-structured documents rather than one document. A simple idea to improve compression ratio is to build left regular grammar for document structure. The solution is tested on several different data sets and the experimental results are compared with existing compressors.en_US
dc.language.isoN/Aen_US
dc.publisherLatvijas Universitāteen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectDatorzinātneen_US
dc.titleDaudzu līdzīgu daļēji strukturētu dokumentu saspiešanaen_US
dc.title.alternativeCompression of many similar semi-structured documentsen_US
dc.typeinfo:eu-repo/semantics/bachelorThesisen_US


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record