top of page

Genomik Veri Tabanlarına Genel Bakış

Güncelleme tarihi: 10 Haz

Genom araştırmalarında üretilen veri miktarı hızla arttıkça bu verileri depolamak ve anlamlandırmak için genomik veri tabanları kullanılır. Genom dizileri, varyantlar, gen ifade profilleri ve hastalık ilişkileri gibi farklı veri türlerine hızlıca erişmek için çeşitli veri tabanlarından yararlanılmaktadır.  Bu yazıda bazı genomik veri tabanlarının temel amacı, sağladığı veri türleri, öne çıkan özellikleri vurgulanacaktır.  


NCBI (National Center for Biotechnology Information)


NCBI, ABD Ulusal Biyoteknoloji Bilgi Merkezi olup bilim insanlarına biyomedikal ve genomik bilgilere erişim sağlar. Tek başına bir veri tabanı olmaktan ziyade, birden fazla önemli veri tabanını barındıran bir platformdur. Örneğin, GenBank halka açık olarak tüm DNA dizilerini içeren temel bir veri tabanıdır​. Benzer şekilde RefSeq, genomik ve protein dizileri için düzenlenmiş referans kayıtlar sunar; Gene veri tabanı, gen düzeyinde kapsamlı bilgiler içerir; GEO (Gene Expression Omnibus) yüksek boyutlu gen ifade (mikrodizin ve RNA-seq) verilerini depolar. NCBI, aynı zamanda PubMed gibi literatür veri tabanlarını da içererek biyomedikal bilgiye entegre bir erişim noktası sağlamaktadır. NCBI’nin önemi, farklı veri türlerini tek çatı altında sunmasından gelmektedir. Araştırmacılar NCBI üzerinden bir geni aratarak o genin dizisine, varyasyonlarına, ilgili literatüre ve daha fazlasına ulaşabilir. Örneğin, bir genin DNA dizisine veya protein sekansına Nucleotide ve Protein veri tabanlarından, o genin işlevsel anotasyonlarına Gene veri tabanından bakılabilir. NCBI, web tabanlı arayüzü ile kullanıcı dostudur ve E-utilities gibi RESTful API servisleriyle otomatizasyona da izin verir. Ayrıca büyük ölçekli veriler FTP yoluyla indirilebilir. Kısaca, NCBI genomik araştırmalar için vazgeçilmez bir başlangıç noktası ve veri deposudur (1). NCBI platformuna https://www.ncbi.nlm.nih.gov/ adresi üzerinden ulaşılabilmektedir.

Şekil 1. Genetik veri ve analiz araçlarına erişim sağlayan NCBI biyoinformatik portalı.
Şekil 1. Genetik veri ve analiz araçlarına erişim sağlayan NCBI biyoinformatik portalı.

ClinVar

ClinVar, genomik varyantların klinik önemi hakkında bilgileri bir araya getiren NCBI bünyesindeki bir veri tabanıdır. Farklı laboratuvarlar, klinisyenler ve araştırmacılar tarafından paylaşılan verileri birleştirerek belirli bir varyantın sağlık üzerindeki etkisine dair kapsamlı bilgiler sunmaktadır. ClinVar’ın temelinde, bir varyant ile insan fenotipi (özellikle hastalıklar) arasındaki ilişki yer alır. Örneğin bir varyantın patojenik (hastalığa neden olan), olası patojenik, benign (iyi huylu) veya belirsiz anlamlı olarak sınıflandırmaları bulunabilir. Bir genetik test sonucunda ortaya çıkan mutasyonun daha önce rapor edilip edilmediği ve edildiyse ne şekilde yorumlandığı ClinVar üzerinden kontrol edilebilir. Örneğin, bir hastada saptanan BRCA1 genindeki bir değişimin ClinVar kaydına bakıldığında, bunun daha önce meme kanseri ile ilişkili patojenik bir mutasyon olarak raporlandığı görülebilir​. Sonuç olarak ClinVar, araştırmacılara ve klinisyenlere genomik varyantların klinik anlamını hızlıca değerlendirebilmeleri için güvenilir bir platform sunar (2). ClinVar veri tabanına https://www.ncbi.nlm.nih.gov/clinvar/ adresi üzerinden ulaşılabilmektedir.

Şekil 2. BRCA1 genine ait varyantların ClinVar arama sonuçları ve klinik yorumları.
Şekil 2. BRCA1 genine ait varyantların ClinVar arama sonuçları ve klinik yorumları.

OMIM

OMIM (Online Mendelian Inheritance in Man), insan genleri ve genetik hastalıklar hakkında zengin bilgiler içeren, sürekli güncellenen bir katalog niteliğindeki veri tabanıdır. OMIM her bir gen için o genle ilişkili hastalıklar veya fenotipler hakkında ayrıntılı özetler sunmaktadır. Bu özetlerde ilgili genin fonksiyonu, bilinen patolojik varyantları, klinik bulgular, kalıtım modelleri (otozomal dominant, resesif vb.) ve önemli literatür referansları yer alır. OMIM’in pratik değeri, bir gen-hastalık ilişkisinin hızla öğrenilebilmesidir. Örneğin, kalıtsal bir hastalığın adı veya MIM numarası (OMIM her kayıt için benzersiz bir numara verir) aratılarak, o hastalığa neden olan gen(ler) ve bu genlerdeki mutasyon mekanizmaları öğrenilebilir. Aynı şekilde bir genin adı girilerek, o genle ilişkilendirilen bilinen hastalıklar listelenebilir. OMIM verisi bir ansiklopedi formatında olduğundan, sayfalar halinde okunur ancak bu bilgiler genellikle diğer veri tabanlarıyla da bağlantılıdır (örneğin; NCBI, Ensembl veya ClinVar gibi). Örneğin OMIM’de listelenen bir mutasyonun ClinVar kaydına link verilebilir. Erişim olarak OMIM, web sitesi üzerinden hızlı arama imkanı sağlar ve günlük olarak güncellendiği için literatürdeki yeni bulgular hızla eklenir (3)​. OMIM veri tabanına https://omim.org/ adresi üzerinden ulaşılabilmektedir.

Şekil 3. PKM2 ile bağlantılı gen ve fenotip kayıtları (OMIM).
Şekil 3. PKM2 ile bağlantılı gen ve fenotip kayıtları (OMIM).

Ensembl

Ensembl, Avrupa Biyoinformatik Enstitüsü (EMBL-EBI) ve Wellcome Sanger Enstitüsü iş birliğiyle geliştirilmiş, birçok canlı türü için kapsamlı bir genom tarayıcısı ve veri tabanıdır​. Ensembl, özellikle karşılaştırmalı genomik, evrim, dizi varyasyonu ve transkripsiyonel düzenleme alanlarında araştırmaları desteklemek üzere tasarlanmıştır​. Bu platform, insan da dahil yüzlerce türün genomlarını barındırır ve her bir genom için gen anotasyonları, varyant verileri, homolog gen bilgileri ve düzenleyici elemanlar gibi geniş kapsamlı veriler sunar. Ensembl’in önemli bir özelliği, bir türdeki genlerin ve genom bölgelerinin diğer türlerle karşılaştırılmasına olanak tanıyan Compara adlı karşılaştırmalı genomik veri tabanıdır​.

Ensembl’in kullanımı hem web arayüzüyle hem de güçlü araçlarla desteklenir: Ensembl Genome Browser ile gen veya kromozomal bölge bazında detaylı grafiksel görüntüleme yapılabilir; BioMart aracı sayesinde büyük ölçekli sorgularla özel veri alt kümeleri çekilebilir; ayrıca REST API desteği sayesinde programcılar Ensembl verilerine doğrudan erişebilir. Ensembl, BLAST/BLAT aracı, Variant Effect Predictor (VEP) gibi entegre analiz araçları da sunarak kullanıcıların bir varyantın olası etkilerini türler arası verilerle yorumlamasını sağlar​. Özetle, Ensembl araştırmacılara birden fazla türde genomik veriyi karşılaştırmalı olarak inceleyebilecekleri zengin bir platform sunmaktadır (4). Ensemble veri tabanına https://www.ensembl.org/index.html adresi üzerinden ulaşılabilmektedir.

Şekil 4. Ensembl ana sayfasının kullanıcı arayüzü.
Şekil 4. Ensembl ana sayfasının kullanıcı arayüzü.

GTEx

GTEx (Genotype-Tissue Expression) projesi, genotip ile doku-spesifik gen ifadesi arasındaki ilişkileri incelemek üzere tasarlanmış büyük ölçekli bir NIH projesidir. Bu projenin temel amacı, çok sayıda sağlıklı bireyden alınan farklı doku örneklerinde gen ifade düzeylerini ölçerek, DNA’daki doğal varyantların gen ekspresyonunu nasıl etkilediğini ortaya koymaktır​. Projenin yayınlanmış son veri seti (v8), 54 farklı doku ve 2 hücre hattından alınmış 17.382 RNA-seq örneğinin gen ifade profillerini ve 838 bireyin genotip verilerini içermektedir. Bu sayede, her bir genin farklı dokulardaki bazal ifade seviyeleri ve eQTL (ifade miktarıyla ilişkili kantitatif özellik lokuslar) analizleri kamuya açılmıştır. GTEx’in en önemli çıktılarından biri, dokular arası gen ifadesi farklılıklarının haritalanması olmuştur. Örneğin, bir genin karaciğer, beyin, kalp gibi farklı organlarda ne düzeyde ifade edildiği GTEx portalı üzerinden interaktif olarak incelenebilir. Araştırmacılar, bir varyantın gen ekspresyonuna etkisini (eQTL analizleriyle) GTEx verisinden görebilir; örneğin belirli bir SNP’nin tiroid bezinde bir genin ifadesini artırdığı bulunabilir. Sonuç olarak GTEx, gen ekspresyonunun genetik temellerini anlamak isteyen araştırmacılar için çok güzel bir kaynaktır; hangi genin hangi dokuda ne kadar çalıştığı ve bunun DNA varyantları ile ilişkisi konusunda bilgiler sunar (5)​. GTEx veri tabanına https://www.gtexportal.org/home/ adresi üzerinden ulaşılabilmektedir.

Şekil 5. GTEx Portalı'nda TP53 geninin farklı insan dokularındaki ekspresyon düzeylerini gösteren grafik. 
Şekil 5. GTEx Portalı'nda TP53 geninin farklı insan dokularındaki ekspresyon düzeylerini gösteren grafik. 

UCSC Genome Browser

UCSC Genome Browser, UC Santa Cruz tarafından sunulan, genomları grafiksel olarak keşfetmek için popüler bir web tabanlı genom tarayıcısıdır. Bu tarayıcı, kullanıcının seçtiği herhangi bir genom bölgesini istenen ölçekte hızlı bir şekilde görüntüler ve aynı anda birden çok anotasyon katmanını (“track”) hizalanmış olarak gösterir. Tek bir ekranda ilgili bölgeye dair tüm bilgiler toplanır; örneğin gen tahminleri, mRNA ve EST dizilerinin genomla hizalanmaları, bilinen SNP varyantları, DNA metilasyonu ve histon modifikasyonları gibi epigenetik işaretler, fenotipik varyasyonlar ve farklı türler arası karşılaştırmalı genomik hizalamalar aynı pencerede görülebilir. Bu yaklaşım, araştırmacıların belirli bir genom bölgesini çok yönlü analiz etmelerini sağlar. Kullanıcılar belirli bir genin veya genom bölgesinin farklı veri setlerindeki durumunu anında gözlemleyebilir. Örneğin, bir kanser genomunda belirli bir gen bölgesindeki mutasyonlar, aynı pencerede o bölgenin normal varyasyon sıklıkları (1000 Genomes veya gnomAD verileri), gen yapısı (ekson-intron organizasyonu) ve korunmuşlık düzeyi (çoklu tür karşılaştırması) ile birlikte incelenebilir. Table Browser adlı aracı, tarayıcıda görülen altta yatan veri tabanı tablolarına erişim sağlar; bu sayede kullanıcılar sorgu yazarak veya tabloyu indirerek ham veriyi alabilirler​. Erişim yöntemleri bakımından UCSC Genome Browser doğrudan web arayüzünden kullanılabildiği gibi, büyük veriler için indirme (FTP veya doğrudan MySQL sorguları) ve programatik erişim (REST API) seçenekleri de sunmaktadır (6)​. UCSC Genome Browser veri tabanına https://genome.ucsc.edu/ adresi üzerinden ulaşılabilmektedir.

Şekil 6. UCSC tarayıcısında TP53 genine ait genomik bilgi katmanları.
Şekil 6. UCSC tarayıcısında TP53 genine ait genomik bilgi katmanları.

Bu yazıda ele alınan NCBI, ClinVar, OMIM, Ensembl, GTEx ve UCSC gibi önde gelen genomik veri tabanları, modern biyolojik araştırmaların temel yapı taşlarını oluşturmaktadır. Genetik dizilerden gen ifadesine, klinik varyantların yorumlanmasından karşılaştırmalı genomik analizlere kadar uzanan geniş veri yelpazesiyle bu kaynaklar, araştırmacıların genetik veriyi anlamlandırmasını ve biyolojik sorulara daha hızlı ve etkili çözümler üretmesini mümkün kılar. Her biri farklı bir ihtiyaca yanıt vermek üzere tasarlanmış bu veri tabanları, birlikte kullanıldığında çok daha derin ve kapsamlı analizlerin önünü açmakta hem temel bilimlerde hem de tıbbi uygulamalarda genomik bilginin potansiyelini ortaya koymaktadır.

 

Genomik Veri tabanlarının Karşılaştırmalı Özet

Yukarıda detaylarıyla ele alınan genomik veri tabanlarının temel özelliklerini aşağıdaki tablodaki gibi özetleyebiliriz. Bu tablo, her bir kaynağın hangi amaçla kullanıldığı ve ne tür veriler içerdiğini karşılaştırmalı olarak sunmaktadır: 

Veri Tabanı

Amacı / İçeriği

Veri Türleri

 

NCBI (Genel)

Genomik verilerin entegre deposu; birçok alt veri tabanı barındırır (GenBank, PubMed, dbSNP vB).

DNA/RNA dizileri, protein dizileri, genom anotasyonları, varyantlar, literatür, vb.

UCSC Genome Browser

Genomların grafiksel görüntülenmesi, bir bölgede çoklu veri “track” lerinin görsel entegrasyonu.

Gen konumları ve ekson-intron yapıları, mRNA/EST hizalamaları, SNP ve diğer varyasyonlar, epigenetik işaretler, çoklu tür karşılaştırmaları

Ensembl

Birçok canlı türün genomları için anotasyonlu genom tarayıcısı; çoklu tür karşılaştırma, varyasyon ve gen regülasyonu verileri.

Gen ve transkript anotasyonları, varyantlar (SNP, indel), karşılaştırmalı genomik hizalamalar, düzenleyici elementler.

ClinVar

Klinik öneme sahip genomik varyantların yorumlanmış veri tabanı (NCBI).

Varyant kayıtları (genom konumu), klinik sınıflandırmaları (patojenik, benign, VBUS), ilişkili hastalık/fenotip bilgileri

OMIM

Mendel tipi kalıtsal hastalıklar ve bu hastalıklara neden olan genler hakkında güvenilir ve detaylı bilgiler sunan bir veri tabanı.

Her bir gen ve hastalık için metinsel özetler: fenotip tanımları, ilgili genler, mutasyon örnekleri, kalıtım modelleri, referanslar

GTEx

Genotip ile doku-spesifik gen ifadesi arasındaki ilişkileri haritalayan proje.

Çeşitli dokulardaki RNA-seq gen ifade seviyeleri; eQTL analiz sonuçları (varyant-ifadeye etki verileri); donör genotipleri

 

 Referanslar

  1. National Center for Biotechnology Information (NCBI) [Internet]. Bethesda (MD): National Library of Medicine (US), National Center for Biotechnology Information; [1988] – [cited 2025 Apr 12]. Available from: https://www.ncbi.nlm.nih.gov/

  2. ClinVar [Internet]. Bethesda (MD): National Library of Medicine (US), National Center for Biotechnology Information; [cited 2025 Apr 12]. Available from: https://www.ncbi.nlm.nih.gov/clinvar/

  3. Online Mendelian Inheritance in Man, OMIM® [Internet]. McKusick-Nathans Institute of Genetic Medicine, Johns Hopkins University (Baltimore, MD); [cited 2025 Apr 12]. Available from: https://omim.org/

  4. Ensembl [Internet]. European Bioinformatics Institute; [cited 2025 Apr 12]. Available from: https://www.ensembl.org/

  5. Genotype-Tissue Expression (GTEx) Portal [Internet]. Bethesda (MD): National Institutes of Health (US); [cited 2025 Apr 12]. Available from: https://gtexportal.org/

  6. UCSC Genome Browser [Internet]. Santa Cruz (CA): University of California, Santa Cruz; [cited 2025 Apr 12]. Available from: https://genome.ucsc.edu/

 

Yorumlar

5 üzerinden 0 yıldız
Henüz hiç puanlama yok

Puanlama ekleyin
bottom of page