Sekvenču līdzināšanas attēlojuma datņu saspiešanas rīka iespējamie uzlabojumi MPEG-G standartam
Author
Straupenieks-Brancis, Andris Kārlis
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Vīksna, Juris
Date
2021Metadata
Show full item recordAbstract
Darba mērķis ir apskatīt datu saspiešanu genomisko datu datņu standartizācijas projektā MPEG-G, identificēt kādus uzlabojumus tajā iespējams veikt, un tos realizēt. Veikts literatūras apskats par MPEG-G standartu un bezzudumu datu saspiešanas algoritmiem. Identificēts, realizēts un profilēts iespējams uzlabojums. Viens no kandidātiem MPEG-G sekvenču līdzinājuma datņu saspiešanai – programma tsc izmanto datu saspiešanas bibliotēku zlib, kas savukārt izmanto DEFLATE datu saspiešanas algoritmu. Darbā apskatītas potenciālās alternatīvas zlib, viena no tām – zstd - ieviesta tsc, tās veikums profilēts un salīdzināts ar oriģinālās tsc versijas sniegumu. Izmainītā tsc versija iegūst vidēji 3% lielākas datnes ar 64% īsāku datu saspiešanas laiku un 4.6% īsāku datu dekodēšanas laiku. The goal of this work is to examine the genomic data compression techniques proposed in the upcoming MPEG-G standard and to identify and implement possible improvements. A brief introduction to the relevant parts of the MPEG-G standard and lossless data compression is given. A potential improvement is identified, implemented, and profiled. One of the candidate programs for sequence alignment file compression, called tsc, uses the data compression library zlib, which is based on the DEFLATE data compression algorithm. This work examines the alternatives and modifies tsc to use one of them – zstd. The performance of the modifications is profiled and compared to the original version. The new version produces 3% larger output files on average with a 64% improvement in compression speed and a 4.6% improvement in decoding speed.