top of page

Genomik Veri Analizi Araçları ve Yöntemleri

Genomik veri analizi, biyolojik araştırmalarda devrim yaratan yeni nesil dizileme (NGS) teknolojilerinin ürettiği muazzam veriyi anlamlandırmak için kullanılan yöntem ve araçların bütününü ifade etmektedir. Genomik veri; DNA dizileri, RNA transkriptleri, metagenomik örnekler ve epigenetik modifikasyonlar gibi geniş bir yelpazedeki bilgileri kapsar. Bu verilerden biyolojik anlam çıkarmak, ham dizilime okumalarının (raw reads) işlenmesinden biyolojik sonuçların yorumlanmasına uzanan çok aşamalı bir biyoinformatik iş akışı gerektirmektedir. Tipik bir NGS analiz süreci kalite kontrol ile başlar, veriler referans bir genoma hizalanır, varyantlar tespit edilip fonksiyonel olarak anotasyonlanır ve sonuçlar görselleştirilir. Bu sürecin her adımında farklı araçlar devreye girer. Örneğin, yaygın bir genomik analiz iş akışı FastQC ile kalite kontrolü, BWA ile hizalama, GATK ile varyant çağırma ve IGV ile görselleştirme adımlarını içerebilir. Bu yazıda genomik veri türlerini ve elde edilme yöntemlerini ele aldıktan sonra, NGS verilerinin analizi için uygulanan temel adımları ve her aşamada kullanılan yaygın araçları inceleyeceğiz.


Genomik Veri Türleri

Genomik veri denildiğinde akla ilk olarak DNA dizileme verisi gelir. Genom dizilemesi (genomics), bir organizmanın tüm DNA bilgisini (genomunu) çözmeyi hedefler ve genetik materyalin yapısını, işlevini ve varyasyonlarını incelememize yarar. DNA dizilemesi ile tüm genom (whole genome sequencing) veya ekzon bölgeleri (whole exome sequencing) yüksek verimde okunabilir. RNA dizileme verisi (RNA-Seq) ise transkriptom analizine yöneliktir; bir hücre ya da dokuda belirli bir anda üretilen tüm RNA moleküllerini (transkriptom) dizileyerek gen ekspresyon profillerini ortaya koymaktadır. Transkriptomik çalışmalar, hangi genlerin ne düzeyde aktif olduğunun ölçülmesini sağlar ve bu alandaki analizler gen ekspresyon farklılıklarını tespit etmeye odaklanır. Metagenomik veri, çevresel bir örnek veya mikrobiyal topluluk içindeki tüm mikroorganizmalara ait DNA dizilerini içerir. Metagenomik yaklaşımla toprak, su ve insan bağırsak florası gibi ortamlardaki mikroorganizmaların genetik çeşitliliği ve fonksiyonel potansiyeli incelenebilmektedir. Epigenomik veri ise DNA dizisi değişmeden gen ifadesini düzenleyen kimyasal ve yapısal modifikasyonların (örn. DNA metilasyonu, histon modifikasyonları, kromatin erişilebilirliği) genom çapında ölçülmesiyle elde edilen veri bütünüdür. Epigenomik analizler, epigenetik değişimleri haritalayarak gen ekspresyonunun düzenlenme mekanizmalarını anlamayı amaçlar. Veri elde etme yöntemleri bakımından genomik veriler günümüzde büyük ölçüde yeni nesil dizileme (NGS) teknolojileri ile üretilmektedir, NGS teknolojileri hakkında daha geniş bilgi için https://www.insilicodesign.com/post/dna-dizileme-y%C3%B6ntemleri adresindeki yazımıza ulaşabilirsiniz.


Ham Veride Kalite Kontrolü ve Ön İşleme

Yeni nesil dizileme cihazlarından elde edilen ham veriler genellikle FASTQ formatında sunulur. FASTQ dosyaları dizilenmiş okuma dizilerini ve her baz için kalite skorlarını içerir. Ham veriye analiz sürecinde ilerlemeden önce uygulanan kalite kontrol (QC) adımı, verinin güvenilirliğini değerlendirmek ve olası hataları tespit etmek için uygulanmaktadır. Bu amaçla en yaygın kullanılan araçlardan biri FastQC programıdır (1). FastQC, ham sekans verisi üzerinde baz kalitesi dağılımı, GC içeriği, pozisyona bağlı kalite düşüşleri, adaptör kontaminasyonu, overrepresented diziler ve k-mer tekrarları gibi metrikleri analiz ederek araştırmacıya verinin genel kalitesi hakkında başlangıç düzeyinde kapsamlı bir değerlendirme sunar. Ham veri kalitesini artırmak için QC sonrasında genellikle ön işleme (preprocessing) adımları uygulanır. Bu adımlar arasında en önemlileri adaptör sekanslarının kesilmesi ve düşük kaliteli bazların kırpılmasıdır. Dizileme kütüphanelerini hazırlarken eklenen adaptör dizileri, okuma uçlarında kalıntı halinde bulunabilir ve analizleri bozabileceğinden temizlenmelidir. Bu iş için yaygın olarak Trimmomatic (2) ve Cutadapt (3) gibi araçlar kullanılmaktadır. Kalite kontrol ve trimming adımlarının ardından verinin genel kalitesi tekrar değerlendirilir. Birden fazla örneğe ait veriler mevcutsa, MultiQC aracı ile tüm FastQC raporları birleştirilerek tek bir özet rapor elde edilebilir (4). MultiQC, onlarca FastQC çıktısını tarayarak tüm örnekler için ortak bir kalite özeti sunar ve böylece herhangi bir örneğin diğerlerinden sapma gösterip göstermediği kolayca anlaşılır. Örneğin, bir örnekte ortalama okuma kalitesi belirgin şekilde düşükse veya adaptör kirliliği sadece belirli örneklerde görülüyorsa MultiQC raporu bunu ortaya koyarak araştırmacıyı uyarmaktadır.


Şekil 1. FastQC ‘Per Base Sequence Quality’ grafiği. Okuma boyunca baz kalitesindeki düşüşü gösteren dağılımı (5).
Şekil 1. FastQC ‘Per Base Sequence Quality’ grafiği. Okuma boyunca baz kalitesindeki düşüşü gösteren dağılımı (5).

Dizi Hizalaması (Alignment) ve Haritalama

Ön işlemden geçmiş yüksek kaliteli okumalar, genellikle bir referans genoma hizalama (alignment) adımına tabi tutulur. Bu adımda amaç, her bir kısa dizinin orijinde geldiği genomik konumu tespit etmektir. Hizalama işlemi için geliştirilmiş algoritmalar, okuma dizilerini referans genom dizisi içerisinde en uygun yere eşleştirir. NGS verilerinin hacminin hızla artmasıyla birlikte, bu işi hızlı ve hassas şekilde yapabilen birçok hizalama yazılımı geliştirilmiştir. En sık kullanılan DNA okuma hizalama araçlarından biri BWA (Burrows-Wheeler Aligner) programıdır (6). BWA, referans genomu verimli bir şekilde indeksleyip Burrows-Wheeler dönüşümü tabanlı algoritmasıyla kısa okumaları (özellikle 100–150 bp Illumina okumaları) hızlıca eşleştirir. Alternatif olarak, benzer amaçla kullanılan Bowtie2 aracı da kısa okuma hizalamasında yaygın olarak tercih edilmektedir (7). Bowtie’nin önceki sürümü bellek kullanımında son derece verimli olduğundan özellikle küçük genomlar veya dar hedef bölgeler için hızlı sonuç verebilirken, Bowtie2 daha esnek hizalama yetenekleriyle gapped okumalara uyum sağlar. DNA hizalaması sonrasında elde edilen eşleşmeler SAM/BAM formatında kaydedilir ve bu dosyalar her okumanın haritalandığı konumun yanı sıra hizalama kalitesi gibi ek bilgileri içerir. RNA-Seq verilerinde hizalama ek bir zorluk içerir: ökaryotik transkriptlerin ekson-intron yapısı nedeniyle mRNA’dan elde edilen cDNA okumaları referans genom üzerinde parçalı eşleşmeler oluşturur. Bu nedenle splicing farkındalığına sahip hizalama araçları kullanılır. RNA-Seq için en yaygın kullanılan hizalayıcılar arasında HISAT2 (8) ve STAR (9) yer alır. HISAT2 intron-ekson sınırlarını (splice junction) modelleyerek mRNA okumalarını genomda doğru pozisyonlarına (intronları atlayarak) hizalar. STAR (Spliced Transcripts Alignment to a Reference) ise hız konusunda önemli bir performans sergilemektedir.


Hizalama sonrasında hizalama kalitesini değerlendirmek ve veriyi daha ileri analizlere hazırlamak için bazı ek işlemler yapılır. İlk olarak, hizalanmış BAM dosyaları üzerinde eşleşme kalitesi kontrolü yapılmalıdır. Bu kapsamda SAMtools, Picard ve Qualimap gibi araçlar kullanılarak hizalama oranı, ortalama kapsama derinliği, tekil konuma hizalanan okuma yüzdesi ve PCR duplikasyon oranı gibi metrikler hesaplanır. Örneğin Picard’ın MarkDuplicates (10) aracı, aynı özgün DNA fragmanından kaynaklanan ve PCR ile oluşturulmuş birden fazla kopyayı tespit ederek bu okumaları duplikat olarak işaretler. Yüksek duplikasyon oranı genellikle kütüphane kompleksitesinin düşük olduğuna veya aşırı PCR amplifikasyonuna işaret eder. Varyant analizlerinde duplikat okumalar yalancı pozitif sonuçlara yol açabileceğinden bu okumaların işaretlenmesi ve analizlerde göz ardı edilmesi tercih edilmektedir. Qualimap ise hizalamanın genom boyunca dağılımını, kapsama derinliğinin uniformluğunu ve GC içeriğine bağlı hizalama önyargıları gibi olası sapmaları görselleştirerek kapsamlı raporlar sunar. Bu değerlendirmeler sayesinde hizalama adımında bir sorun olup olmadığı anlaşılabilir. Örneğin beklenenin çok altında bir hizalanma oranı, kullanılan referans genomun yanlış tür olduğuna veya veride yaygın kontaminasyon bulunduğuna işaret edebilir.


DNA varyant analizi için GATK tabanlı iş akışlarında hizalama sonrasında bir dizi ön işleme adımı uygulanması önerilir. Bu adımlardan biri baz kalitesi yeniden kalibrasyonu (BQSR) olup dizileme araçlarından kaynaklanan sistematik hataları modelleyerek kalite skorlarını düzeltir ve varyant çağırma sırasında yanlış pozitiflerin azaltılmasına katkı sağlamaktadır. GATK’nin eski sürümlerinde ayrı bir adım olan lokal realignment, indel bölgelerinde hizalama hatalarını düzeltmek amacıyla problemlik bölgelerin yeniden hizalanmasını içerirken, modern GATK HaplotypeCaller bu işlemi dahili olarak gerçekleştirmektedir. Bu hizalama sonrası hazırlık adımlarının tamamlanmasıyla, varyant analizine temel oluşturacak güvenilir ve işlenmiş bir hizalama veri seti elde edilir.

 

Varyant Çağırma (Variant Calling) ve Genotipleme

Genom ölçeğinde DNA dizilemesinin temel amaçlarından biri bireyin genomundaki varyantları belirlemektir. Varyant çağırma, hizalanmış veriden genomdaki nükleotid değişimlerinin saptanmasıdır. Bu değişiklikler çoğunlukla tek nükleotid polimorfizmleri (SNP’ler) ve küçük ekleme/silmelerden (indeller) oluşur; daha büyük kopya sayısı değişimleri ve yapısal varyantlar ise özel araçlarla tespit edilir. Günümüzde varyant çağırmada en yaygın kullanılan yazılımlardan biri Broad Institute tarafından geliştirilen GATK paketidir. GATK, “Best Practices” iş akışı ve özellikle HaplotypeCaller aracıyla SNP ve indelleri yüksek duyarlılıkla saptamaktadır (11). Bu süreç, hizalanmış BAM dosyalarında duplikat işaretleme ve baz kalitesi yeniden kalibrasyonu (BQSR) gibi ön adımların uygulanmasını ve ardından HaplotypeCaller ile ham varyantların çıkarılmasını içerir. HaplotypeCaller, okuma kümelerini yeniden birleştirerek olası haplotipleri modeller ve bu yaklaşım klasik pileup yöntemlerine göre özellikle indel tespitinde daha iyi sonuç verir.

Ham varyant çağırma sonucunda elde edilen VCF (Variant Call Format) dosyası, her bir varyantın genomik konumunu, referans ve alternatif allel bilgisini ve kalite ile kapsama gibi değerlendirme metriklerini içerir. Bu ham varyant listesi üzerinde filtreleme yapılarak güvenilir çağrıların ayrıştırılması önemlidir. GATK içindeki VariantRecalibrator aracı (VQSR), kalite metriklerine dayalı bir modelleme yaklaşımıyla varyantları yeniden puanlayabilir; daha küçük veri setlerinde ise hard-filtering uygulanarak derinlik, kalite skoru ve strand dengesizliği gibi eşiklere göre düşük güvenilirlikli çağrılar elenebilir. Genellikle çok düşük kapsama veya düşük kaliteye sahip varyantlar çıkarılır çünkü bunların dizileme hatası olma olasılığı yüksektir. Filtreleme sonrası elde edilen varyant seti, bireyin genomunda referansa göre bulunan güvenilir mutasyonları temsil etmektedir.

Çağrılan varyantların biyolojik açıdan anlamlandırılması için bir sonraki adım fonksiyonel anotasyondur. Varyant anotasyonu, saptanan değişikliklerin genomda hangi gene veya bölgeye karşılık geldiğini, protein düzeyinde amino asit değişimine yol açıp açmadığını, literatürde veya veri tabanlarında daha önce bildirilmiş olup olmadığını ve olası fonksiyonel etkilerini değerlendirmeyi amaçlar. Bu amaçla ANNOVAR, SnpEff ve Ensembl VEP (Variant Effect Predictor) gibi araçlar yaygın olarak kullanılmaktadır. Bu yazılımlar VCF dosyasını referans gen anotasyonlarıyla eşleştirerek her varyantın konumunu ve olası biyolojik etkisini raporlar. Bu araçlar sayesinde bir varyantın hangi gende yer aldığı ve ekzon içinde mi yoksa intron veya düzenleyici bir bölgede mi bulunduğu belirlenebilir. Kodlayıcı bir bölgede bulunan varyantlar için ise otomatik olarak missense (amino asit değiştiren), nonsense (erken stop kodonu oluşturan) veya sessiz değişiklik gibi etki sınıfları raporlanabilir.



Şekil 2. Variant Calling Workflow: Alignment, BAM Cleanup, Variant Calling, Filtering ve Fonksiyonel Anotasyon adımlarını gösteren iş akışı (12).
Şekil 2. Variant Calling Workflow: Alignment, BAM Cleanup, Variant Calling, Filtering ve Fonksiyonel Anotasyon adımlarını gösteren iş akışı (12).

Sonuç olarak, genomik veri analizi günümüz biyolojik ve tıbbi araştırmalarının merkezinde yer alarak karmaşık biyolojik sistemleri anlamamıza olanak tanıyan güçlü bir çerçeve sunmaktadır. Ham dizileme verilerinin kalite kontrolünden hizalama, varyant tespiti, fonksiyonel yorumlama ve görselleştirmeye uzanan bu çok aşamalı süreç, yalnızca doğru araçların seçimini değil, aynı zamanda analiz adımlarının biyolojik soruya uygun şekilde yapılandırılmasını da gerektirir. Yeni nesil dizileme teknolojilerinin sürekli gelişmesiyle birlikte genomik analiz yöntemleri de daha hassas, hızlı ve kapsamlı hâle gelmektedir.


Referanslar

1.Park, S. J., Kim, J. H., Yoon, B. H., & Kim, S. Y. (2017). A ChIP-Seq Data Analysis Pipeline Based on Bioconductor Packages. Genomics & informatics, 15(1), 11–18. https://doi.org/10.5808/GI.2017.15.1.11

2.Bolger, A. M., Lohse, M., & Usadel, B. (2014). Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics (Oxford, England), 30(15), 2114–2120. https://doi.org/10.1093/bioinformatics/btu170

3.Martin, M. (2011). Cutadapt removes adapter sequences from high-throughput sequencing reads. EMBnet. journal, 17(1), 10-12.

4.Ewels, P., Magnusson, M., Lundin, S., & Käller, M. (2016). MultiQC: summarize analysis results for multiple tools and samples in a single report. Bioinformatics (Oxford, England), 32(19), 3047–3048. https://doi.org/10.1093/bioinformatics/btw354

5. Andrews S. FastQC: A quality control tool for high throughput sequence data [Internet]. Babraham Bioinformatics; 2010 [cited 2025 Nov 30]. Available from: https://www.bioinformatics.babraham.ac.uk/projects/fastqc/

6.Li, H., & Durbin, R. (2009). Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics (Oxford, England), 25(14), 1754–1760. https://doi.org/10.1093/bioinformatics/btp324

7.Langmead, B., & Salzberg, S. L. (2012). Fast gapped-read alignment with Bowtie 2. Nature methods, 9(4), 357–359. https://doi.org/10.1038/nmeth.1923

8.Kim, D., Paggi, J. M., Park, C., Bennett, C., & Salzberg, S. L. (2019). Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype. Nature biotechnology, 37(8), 907–915. https://doi.org/10.1038/s41587-019-0201-4

9.Dobin, A., Davis, C. A., Schlesinger, F., Drenkow, J., Zaleski, C., Jha, S., Batut, P., Chaisson, M., & Gingeras, T. R. (2013). STAR: ultrafast universal RNA-seq aligner. Bioinformatics (Oxford, England), 29(1), 15–21. https://doi.org/10.1093/bioinformatics/bts635

10.Broad Institute. Picard command-line tools: MarkDuplicates [Internet]. 2025 Nov 30 [cited 2025 Nov 30]. Available from: https://broadinstitute.github.io/picard/command-line-overview.html#MarkDuplicates

11.Broad Institute. (2025, November 30). About the GATK Best Practices. GATK Documentation. https://gatk.broadinstitute.org/hc/en-us/articles/360035894711-About-the-GATK-Best-Practices

12.HBC Training & Outreach. (2025, November 30). Read Alignment for Next-Generation Sequencing. In-Depth NGS Data Analysis Course. https://hbctraining.github.io/In-depth-NGS-Data-Analysis-Course/sessionVI/lessons/01_alignment.html

Yorumlar

5 üzerinden 0 yıldız
Henüz hiç puanlama yok

Puanlama ekleyin
bottom of page