top of page

Biyolojik Sorudan Bilimsel Sonuca: Genomik Veri Analiz Süreci

Genomik veri analizlerinde ilk aşamada araştırmanın amacını oluşturan biyolojik sorunun açık ve net bir şekilde tanımlanması gerekmektedir. Kullanılacak deneysel yaklaşımlar ve veri analiz stratejilerinin belirlenmesi çalışmanın odak noktasına bağlıdır. Hedef organizma numunelerinden yüksek kaliteli DNA veya RNA izole edilmesi büyük önem taşımaktadır. Deneysel çalışmalarda herhangi bir kontaminasyon ileri aşamalarda analiz sonuçlarını doğrudan etkilemektedir. 

Bir sonraki aşamada izole edilen nükleik asitlerin dizilenmesi için uygun bir dizileme platformu seçilmesi yer alır. Platform seçimi yapılırken okuma uzunluğu, hata oranı, maliyet ve veri çıktısı gibi parametreler göz önünde bulundurulmalıdır. Kısa okuma dizileme teknolojilerinde Illumina, uzun okuma teknolojilerinde Oxford Nanopore yaygın olarak tercih edilen platformlar arasında yer almaktadır. DNA dizileme yöntemleri detayları için DNA Dizileme Yöntemleri yazımıza göz atabilirsiniz.


Dizileme işlemlerinin tamamlanması ile analizde kullanılacak ham veriler elde edilir. Bu veriler çoğunlukla FASTQ formatında olup, her bir okumanın nükleotid dizilimi ve kalite skorlarını içerir. FASTQ dosya biçimi dört satırdan oluşur. Şekil 1’de görüldüğü üzere ilk satırda “@” sembolüyle başlayan kısım okumanın adını oluşturur. İkinci satırda okuma dizisi, üçüncü satırda dosyayı okumayı kolaylaştırması için “+” işareti olan bir ayırıcı ve son satırda ise kalite puan satırı yer alır (1). Ham verilerin kalitesi, veri analizinin sonraki aşamalarında elde edilecek sonuçların doğruluğu ve güvenirliği açısından kritik bir öneme sahiptir.


Şekil 1. FASTQ Dosyası Görünümü (2)
Şekil 1. FASTQ Dosyası Görünümü (2)

FASTQ dosyasındaki her bir dizi için dördüncü satırda yer alan kalite puan bilgileri okunur. Dizileme verilerinin kalitesini değerlendirmek için genellikle FASTQC adında bir biyoinformatik araç kullanılır. Bu araç, ham dizileme verilerine hızlı bir şekilde kalite kontrol analizi uygulayarak olası hataları veya sorunları tespit etmeye olanak sağlar.  Kalite kontrol sonuçlarına göre analizde yalnızca yüksek kaliteli bazların kullanılmasını sağlamak için düşük kaliteli bazların bir miktar kırpılması gerekebilir. Özellikle kısa okuma teknolojilerinde adaptör dizilere sıkça rastlanır. Bu kontaminasyonların temizlenmesi gerekmektedir. Temizlenen veri ile analiz ve raporlama aşamalarına geçilebilir (Şekil 2.).


Şekil 2. Basit genomik veri analizi akış şeması (2).
Şekil 2. Basit genomik veri analizi akış şeması (2).

Analizi yapılacak hedef genomda yapılan ön işlemlerin ardından dizi hizalama aşamasına geçilir. Eğer araştırılan genoma ait bir referans genomu mevcutsa süreç daha kolay hale gelir. Bu aşamada temel amaç, okuma dizilerinin referans genom üzerinde en uygun konumların bulunarak hizalanmasıdır. Bu işlem kısa veya uzun dizilerin genom üzerindeki yerini belirler ve varyant analizi, gen ifadesi ölçümleri gibi analizlerin yorumlanmasına zemin hazırlar.


Hizalama stratejisi okuma verisinin uzunluğu, hassasiyet ihtiyacı, hata profili ve hız gibi faktörlere göre belirlenir. Tercih edilen dizileme yöntemine göre elde edilen kısa veya uzun okumalar için farklı araçlar kullanılabilir. Kısa okumalar için yaygın olarak kullanılan BWA (Burrows - Wheeler Aligner), Bowtie2 veya uzun okumalarda güçlü sonuçlar çıkarabilen Minimap2 bunlardan bazılarıdır. BWA, Smith-Waterman algoritmasını kullanır ve özellikle Illumina gibi kısa okuma platformları için optimize edilmiştir. Oxford Nanopore, PacBio gibi uzun okumalar için tasarlanan Minimap2 hizalayıcısı da bu kategoride hızlı çalışan bir araç olarak görülmektedir (3).


Hizalama verileri bir sonraki aşamada görselleştirilebilmesi için SAM (Sequence Alignment/Map) formatında kaydedilir. Sekans Hizalama Haritası olarak adlandırılan bu tür, DNA okumalarının görselleştirilmesi için gerekli bir dosya formatıdır. Bu dosyalar genellikle büyük boyutlarda olduğundan analiz aşamalarını kolaylaştırmak amacıyla BAM (Binary Alingment/Map) formatına dönüştürülmeleri gerekmektedir. Bu formattaki dosyalar bilgisayarın okuyabileceği şekilde tasarlanır. Bu dönüşüm işlemi Samtools veya Picard gibi araçlar aracılığıyla gerçekleştirilebilir.


Varyasyon analizlerinde örnekler arasındaki genetik farkların tespit edilmesi amaçlanır. Bu farklar tek nükleotid polimorfizmleri (SNP), küçük ekleme – silme mutasyonları (indel) veya yapısal varyasyonlar şeklinde olabilir. Hizalanmış dizilerin dosyası ile varyant çağırma işlemi gerçekleştirilir. Bu aşamada okumalarda referansla veya karşılaştırılan örnek genomlar arasında uyumsuzluk gösteren pozisyonlar belirlenir. Bu pozisyonlar VCF (Variant Call Format) formatında kaydedilir (4). Kullanılan yaygın araçlar GATK HaplotypeCaller, BCFtools olarak örneklendirilebilir.


Sürecin devamında düşük kaliteli veya hatalı çağırılmış varyantların filtrelenmesi işlemi yer alır. VCF dosyasında yer alan QUAL (kalite puanı), MQ (hizalama kalitesi) gibi kriterlere bakılır. Bu işlem, GATK VariantFiltration veya vcftools gibi araçlar ile gerçekleştirilebilir.  Elde edilen dosyalar ile Integrative Genomics Viewer (IGV) gibi hizalama görüntüleme araçları ile varyantlar görselleştirilebilir. IGV, varyantın güvenilirliğini sorgulamak için okuma derinliği, baz kalitesi ve hizalama tutarlılığı gibi parametrelerin incelenmesini sağlar.


Varyantların belirlenmesi tek başına çoğu zaman yeterli olmayabilir. Bu durumda varyant anotasyonu; tespit edilen genetik varyantların biyolojik olarak anlamlandırılabilmesi için önemli bir aşama olarak ele alınır. Belirlenen varyantın gen bölgesinde mi yoksa intergenik (yani genler arası bölgede) mi yer aldığı bilgisi anotasyon ile elde edilir. Varyantın yer aldığı genin adı, genin bilinen hastalıklarla ilişkisi, varyantın protein düzeyine etkisi gibi oldukça önemli bilgilere anotasyon ile ulaşılır. Bunun için SnpEff (5), ANNOVAR (6) gibi araçlar kullanılabilir.


Varyantların yer aldığı genlerin görevlerinin ve hangi biyolojik süreçlerde yer aldığının ortaya koyularak yorumlanması fonksiyonel analiz olarak adlandırılır. Fonksiyonel analiz, genomik verinin biyolojik bağlam içerisinde yorumlanmasını sağlar. Anotasyon sonrasında genlerin hangi biyolojik işlevlerle anlamlı biçimde ilişkili olduğunu değerlendirmek amacıyla fonksiyonel zenginleştirme analizi yapılır. Gene Ontology (GO) genleri; biyolojik süreç, moleküler işlev, hücresel bileşen olmak üzere üç kategori altında sınıflandırır.  KEGG (Kyoto Encyclopedia of Genes and Genomes) ise genlerin yer aldığı biyokimyasal yolakları gösterir (7). Fonksiyonel analiz sonucunda diferansiyel olarak ifade edilen genlerin hastalık veya enfeksiyon durumlarıyla ilişkilendirilmesi mümkündür. Örneğin; Şekil 3.’te araştırılan genlerin meme kanseri ve mesane kanseri ile ortaklaşa ilişkisi olduğu görsel olarak desteklenmiştir.


Şekil 3. Bazı genlerin meme ve mesane kanseri ile ilişkisini gösteren görselleştirme (8).
Şekil 3. Bazı genlerin meme ve mesane kanseri ile ilişkisini gösteren görselleştirme (8).

Genomik analizlerde elde edilen bulguların geçerliliğinin desteklenmesi amacıyla istatistiksel analizler yapılır. İstatistiksel analiz genellikle örnekler arası karşılaştırmalarda varyantların anlamlılığını değerlendirmeyi hedeflemektedir. Bu analizlerde p-değeri, odds ratio, false discovery rate gibi istatistiksel yöntemler kullanılır. P-değeri, örneğin bir varyantın hastalık grubunda sağlıklı gruba göre daha sık görülüp görülmediğini test etmek için kullanılır (9). Odds ratio ise bir varyantın belirli bir fenotiple ilişki olma olasılığını gösteren bir ölçüdür. Genom çapında binlerce varyant test edildiğinde yalnızca şansa bağlı olarak birçok anlamlı sonuç elde edilebilir. False discovery rate ise bu tür çoklu testler sonucu yanlış pozitif bulguların oranını kontrol etmek için kullanılan bir yöntemdir (10).


Elde edilen genomik verilerin uluslararası veri tabanlarına yüklenmesi ve açık erişimli bir şekilde paylaşılması, verilerin yeniden kullanılabilirliği ve başka çalışmalara rehber olması açısından büyük önem taşımaktadır. Çalışmanın son adımlarında ham dizileme verileri NCBI SRA (Sequence Read Archive) veya European Nucleotide Archive (ENA) gibi veri tabanlarına yüklenirken, gen ekspresyon profilleri GEO (Gene Expression Omnibus) gibi platformlarda depolanır. Varyant verileri ise VCF formatında paylaşılır ve belirli projelere (örneğin ClinVar) dahil edilebilir.


Ayrıca raporlama ve elde edilen bulguların bilimsel yayınlar aracılığıyla toplulukla paylaşılması da gereklilikler arasındadır. Yayınlarda; kullanılan yöntemler, kullanılan referans genomun versiyonu, kullanılan yazılımlar ve parametrik tercihler gibi detayların şeffaf biçimde sunulması gereklidir. Genomik veri analizleri, biyolojik bir sorunun ham dizileme verilerinden biyolojik sonuçlara kadarki yolunda başvurduğumuz çok aşamalı ve sistematik bir süreçtir. Ham verinin kalite kontrolünden hizalamaya, varyant analizinden yorumlamaya kadar uzanan bu süreç, uzmanlık gerektirmektedir. Son olarak, açık veri paylaşımı ve bilimsel raporlama, bu süreci daha şeffaf, erişilebilir ve üretken hale getirerek, genomik bilginin daha geniş topluluklarca değerlendirilmesine olanak tanır.



Referanslar

  1. Burian, A. N., Zhao, W., Lo, T.-W., & Thurtle-Schmidt, D. M. (2021). Genome sequencing guide: An introductory toolbox to whole-genome analysis methods. Biochemistry and Molecular Biology Education, 49(5), 815-825. https://doi.org/10.1002/bmb.21561

  2. Hatem Mohamed Elshazly. (2016). Optimizing bioinformatics variant analysis pipeline for clinical use (Master’s thesis). https://doi.org/10.13140/RG.2.2.14653.67040  

  3. Taşar, O., Çınar, E., & Onay, H. (2018). Hastalık Tanısı İçin Yeni Nesil Dizileme Verisi Analizi: Gereksinimler ve Bir Çözüm Önerisi. CERU-WS. org2201, 12.

  4. Broad Institute. (2024). VCF (Variant Call Format). GATK. https://gatk.broadinstitute.org/hc/en-us/articles/360035531692-VCF-Variant-Call-Format  Son erişim: 01.05.2025

  5. Cingolani, P. et al. (2012). A program for annotating and predicting the effects of single nucleotide polymorphisms, SnpEff. Fly, 6(2), 80–92. https://doi.org/10.4161/fly.19695

  6. Wang, K., Li, M., & Hakonarson, H. (2010). ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data. Nucleic Acids Research, 38(16), e164. https://doi.org/10.1093/nar/gkq603

  7. Lu Shi Jing, Muzaffar Shah, F. F., Mohamad, M. S., Moorthy, K., Deris, S., Zakaria, Z., & Napis, S. (2015). A review on bioinformatics enrichment analysis tools towards functional analysis of high throughput gene set data. Current Bioinformatics, 12(1), 14–27. https://doi.org/10.2174/157016461201150506200927

  8. Yu, G. Chapter 5: enrichplot. In Biomedical Knowledge Mining Book. https://yulab-smu.top/biomedical-knowledge-mining-book/enrichplot.html Son erişim: 02.05.2025

  9. Balding, D. J. (2006). A tutorial on statistical methods for population association studies. Nature Reviews Genetics, 7(10), 781–791. https://doi.org/10.1038/nrg1916

  10. Benjamini, Y., & Hochberg, Y. (1995). Controlling the false discovery rate: a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society: Series B (Methodological), 57(1), 289–300. https://www.jstor.org/stable/2346101 

Comments

Rated 0 out of 5 stars.
No ratings yet

Add a rating
bottom of page