Daudzu līdzīgu daļēji strukturētu dokumentu saspiešana
Author
Romāne, Aiga
Co-author
Latvijas Universitāte. Fizikas un matemātikas fakultāte
Advisor
Arnicāns, Guntis
Date
2009Metadata
Show full item recordAbstract
Nozīmīga daļa no elektroniski pieejamajiem dokumentiem tiek klasificēti kā daļēji strukturēti dokumenti, piemēram, HTML vai XML. Un tā kā aizvien palielinās šāda veida dokumentu apjoms, saspiešanas metožu attīstība ir aktuāla pētniecības sfēra.
Bakalaura darbā tiek apskatītas gan jau esošās daļēji strukturētu dokumentu saspiešanas metodes, gan arī sniegts jauns risinājums. Izstrādātais saspiešanas algoritms balstās uz saspiežamo dokumentu struktūras īpašībām un ir orientēts nevis uz viena, bet gan uz daudzu līdzīgu daļēji strukturētu dokumentu saspiešanu. Kā jaunu ideju risinājums piedāvā regulāras gramatikas izveidošanu dokumentu struktūrai. Darbā tiek sniegts arī risinājuma novērtējums, kas gūts testējot algoritmu uz vairākām datu kopām un salīdzinot ar esošo saspiešanas rīku rezultātiem. Significant amount of electronically available documents are classified as semi-structured, such as HTML or XML. Due to rapid growth of such document volumes, data compression is a challenging research area.
In this work, the review of existing compression techniques for semi-structured documents is made and also a new solution is presented. Developed compression algorithm is based on document structure properties and is oriented to compress many similar semi-structured documents rather than one document. A simple idea to improve compression ratio is to build left regular grammar for document structure. The solution is tested on several different data sets and the experimental results are compared with existing compressors.