Metode tīkla struktūras saglabāšanai randomizētajos hromatīna interakciju datos
Author
Sizovs, Andrejs
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Melkus, Gatis
Date
2024Metadata
Show full item recordAbstract
Hromatīna interakciju dati (piemēram, augstas caurlaidspējas hromatīna konformācijas notveres jeb Hi-C dati) bioinformātikas pētījumos mēdz tikt analizēti tīkla reprezentācijā, taču dažādu Hi-C eksperimentu datu kopas ir savstarpēji grūti salīdzināmas to neviendabīguma dēļ. Tas rada grūtības izveidot labu nulles modeli, lai aprakstītu hromatīna interakciju datus kopumā un pārbaudītu pētījumos iegūtos rezultātus. Šī iemesla dēļ ir nepieciešami dažādi Hi-C datu simulācijas rīki. Literatūrā pieejamie risinājumi nepietiekami saglabā datu tīkla reprezentācijas struktūru, jo tie nav paredzēti topoloģisku analīžu pārbaudei. Bakalaura darba ietvaros ir izstrādāta metode reālu hromatīna interakciju datu kopu randomizēšanai, lai ģenerētu tīkla struktūras ziņā līdzīgas datu kopas un saglabātu to tīkla struktūras būtiskos elementus – gan virsotņu pakāpes, gan šķautņu garumu sadalījumu. Darbā ir aprakstīts, kā izstrādātā metode tika veiksmīgi izmantota bioinformātikas pētījuma “Hromatīna interakciju tīklu struktūras izpēte” ietvaros. Chromatin interaction data (e.g., high-throughput chromatin conformation capture, or Hi-C data) is often analyzed in network representation in bioinformatics studies. However, datasets from different Hi-C experiments are difficult to compare due to their heterogeneity. This creates challenges in developing a robust null model to describe chromatin interaction data in general and to validate results obtained in studies. Therefore, there is a need for various Hi-C data simulation tools. Existing solutions in the literature do not consider the network representation structure of the data, as they are not specifically designed for studies analyzing the structure of data networks. Within the framework of the bachelor's thesis, a method has been developed for randomizing real chromatin interaction data sets to generate data sets that are similar in terms of network structure and preserve the essential properties of their network structure – both node degrees and the distribution of link lengths. The thesis describes how the developed method was successfully used in the bioinformatics study "Structural features of chromatin interaction networks".