Show simple item record

dc.contributor.advisorVīksna, Juris
dc.contributor.authorLaķis, Edgars
dc.contributor.otherLatvijas Universitāte. Eksakto zinātņu un tehnoloģiju fakultāte
dc.date.accessioned2025-06-28T01:06:34Z
dc.date.available2025-06-28T01:06:34Z
dc.date.issued2025
dc.identifier.other107875
dc.identifier.urihttps://dspace.lu.lv/dspace/handle/7/71069
dc.description.abstractAugstas efektivitātes skaitļotāji ļauj veikt liela apjoma datu analīzi. Genoma sekvencēšanas datu apstrāde sastāv no daudz soļiem un ietver sarežģītas skaitļošanas operācijas. Piemēram, 3 miljardu bāzu garš cilvēka genoms aizņem 100 GB līdz pat terabaita atmiņas. Salīdzināmos pētījumos tiek lietoti simti vai tūkstoši genomi, kas eksponenciāli palielina apstrādājamo datu apjomu. Augstas efektivitātes skaitļotāji ļauj darbības ar datiem veikt paralēli un izmantot plašu atmiņas apgabalu. Maģistra darbā tiek apskatītas darbplūsmas liela mēroga genoma datu analīzei, tai skaitā datu pirmapstrādei, kvalitātes kontrolei un skaitļošanas paralelizēšanu ar Nextflow programmu. Darbā praktiski tika uzstādīta nf-core/sarek darbplūsma genoma variāciju identificēšanai un anotēšanai, izmantojot kanālu veidošanas platformas Nextflow rīkus GATK Haplotypecaller, Google Deepvariant un Strelka2. Variantu saukšana tika salīdzināt uz gan uz augstas efektivitātes skaitļotāju pudura, gan mākoņskaitļošanas platformā. Darba noslēgumā doti vairāki praktiski padomi un secinājumi par genoma variāciju analīzes mērogošanu uz pilna genoma un populāciju pētījumiem.
dc.description.abstractHigh-performance computers allow you to perform large-scale data analysis. The processing of genome sequencing data consists of many steps and involves complex computational operations. For example, a human genome 3 billion bases long takes up to 100 GB of up to a terabyte of memory. Hundreds or thousands of genomes are used in comparable studies, which exponentially increases the amount of data to be processed. High-performance computer clusters allow you to perform operations with data in parallel and use a large area of memory. The master's thesis explores workflows for large-scale genomic data analysis, including data preprocessing, quality control, and computational parallelization with Nextflow. The work practically installed the nf-core/sarek workflow for identifying and annotating genome variations using the tools of the Nextflow channeling platform GATK Haplotypecaller, Google Deepvariant and Strelka2. Variant calling was compared to both on a cluster of high-performance computers and on a cloud computing platform. The work concludes with a number of practical tips and conclusions on scaling genome variation analysis to full-genome and population studies.
dc.language.isolav
dc.publisherLatvijas Universitāte
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subjectDatorzinātne
dc.subjectbioinformātika
dc.subjectaugstas efektivitātes skaitļošana
dc.subjectHPC
dc.subjectgenoma variāciju analīze
dc.titleGenoma sekvencēšanas datu apstrāde ar augstas efektivitātes skaitļotāju puduri
dc.title.alternativeGenome sequencing data processing with high-performance computing cluster
dc.typeinfo:eu-repo/semantics/masterThesis


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record