top of page

Biyoinformatiğe Giriş ve Temel Kavramlar

Güncelleme tarihi: 13 Nis

Biyoinformatik, biyolojik verilerin (özellikle genom ve proteom verilerinin) bilgisayar teknolojisi ve matematiksel yaklaşımlar kullanılarak analiz edilmesi, saklanması ve işlenmesi gibi kullanımları konu edinen multidisipliner bir bilim dalıdır. Biyoinformatik; genetik, proteomik ve moleküler biyoloji gibi biyoloji dalları ile bilgisayar bilimi ve istatistik gibi teknik disiplinlerin kesişiminde yer almaktadır (1). Biyoinformatik, biyolojik sistemleri daha iyi anlamak ve karmaşık verilerden anlamlı sonuçlar elde etmek için kullanılır. Örneğin, genom dizileme projelerinden elde edilen DNA ve RNA dizilerini anlamlandırır, protein yapılarını ve fonksiyonlarını modelleyerek hücresel mekanizmaları inceler ve hastalık mekanizmalarını anlamak veya biyobelirteçler keşfetmek için veri analizi yapar. Biyoinformatik, çeşitli alt alanlarda çalışır. Sekans analizi; DNA, RNA ve protein dizilerinin hizalanması ve karşılaştırılmasını kapsarken yapısal biyoinformatik ise protein ve nükleik asitlerin üç boyutlu yapılarının tahmini ve analizine odaklanmaktadır. Genomik ve epigenomik, genetik materyalin organizasyonu ve epigenetik değişikliklerin işlevlerini analiz ederken transkriptomik ise    RNA-Seq gibi teknolojiler kullanarak gen ekspresyon profillerini inceler (2). Bu alt alanlar, biyoinformatiğin biyolojik verilere yaklaşımını çeşitlendirir ve birçok bilimsel soruya çözüm sağlamaktadır. Biyoinformatik, geniş bir yelpazede uygulama alanına sahiptir. Tıbbi genetikte, hastalıklarla ilişkili genetik varyasyonların analizi ve kişiselleştirilmiş tedavi yöntemlerinin geliştirilmesi sağlanır. Kanser araştırmalarında, tümör genomlarının incelenmesi ve biyobelirteçlerin keşfi için kullanılmaktadır. Tarımsal biyoteknolojide, genomik veriler ışığında hastalıklara dayanıklı ve verimli bitki türleri geliştirilmektedir. Ayrıca, metagenomik çalışmalar yoluyla çevresel mikrobiyal topluluklar analiz edilir ve ilaç keşfi süreçlerinde protein-ligand etkileşimleri modellenerek potansiyel ilaç adayları belirlenir (3).


Şekil 1. Görsel, biyoinformatiğin disiplinler arası doğasını vurgulamaktadır. DNA'nın etrafında dizilmiş biyolojik moleküller, veriler, grafikler ve araçlar, genetik bilginin işlenmesinde kullanılan teknolojileri ve bilim dallarını simgelemektedir. (Görsel, yapay zeka kullanılarak oluşturulmuştur).
Şekil 1. Görsel, biyoinformatiğin disiplinler arası doğasını vurgulamaktadır. DNA'nın etrafında dizilmiş biyolojik moleküller, veriler, grafikler ve araçlar, genetik bilginin işlenmesinde kullanılan teknolojileri ve bilim dallarını simgelemektedir. (Görsel, yapay zeka kullanılarak oluşturulmuştur).

Biyoinformatiğin Tarihçesi

Protein veya DNA dizilerini karşılaştırmak için kullanılabilecek ilk algoritma Needleman ve Wunsch tarafından 1970 yılında yayımlanmıştır (4). 1977'de bakteriyofaj ΦX174'ün genomu ilk kez tamamen dizilenmiştir (5). Biyoinformatik terimi ilk olarak 1978'de türetilmiş ve "Biyotik Sistemlerdeki Bilişimsel Süreçlerin İncelenmesi için Biyoinformatik" olarak tanımlanmıştır (6). 1981'de Smith ve Waterman tarafından yerel dizi hizalaması için bir algoritma yayımlanmıştır (7). 1986'da polimeraz zincir reaksiyonu (PCR) tekniği geliştirilmiştir (8). Bu teknik, DNA'nın belirli bir bölgesini milyonlarca kez çoğaltmayı mümkün kılmış ve genetik araştırmalarda devrim yaratmıştır. Aynı yıl Tom Roderick tarafından genlerin ve genetik materyalin geniş ölçekli çalışmasını tanımlamak için Genomik terimi türetilmiştir (9). 1990'da İnsan Genomu Projesi başlatılmış ve bu proje, biyoinformatik araçlarının geliştirilmesini ve kullanımını büyük ölçüde teşvik etmiştir (10). 1995 yılında Haemophilus influenzae adlı bakterinin tam genom dizisi yayımlanmıştır; bu, ilk kez bir canlı organizma genomunun tamamen dizilenmesidir (11). 2000 yılına gelindiğinde İnsan Genomu Projesi büyük ölçüde tamamlanmış ve biyoinformatik; genomik, proteomik ve sistem biyolojisi gibi alanların temelini oluşturan bir disiplin haline gelmiştir (10). Özellikle, veritabanları (örneğin GenBank) ve analiz araçları (örneğin BLAST), bilim insanlarının büyük biyolojik veri setlerini kolayca analiz etmesini sağlamıştır. Sonraki yıllarda biyoinformatik, yapay zeka ve makine öğrenmesi gibi teknolojilerle daha da entegre olmuştur.

Özellikle CRISPR-Cas9 gibi gen düzenleme teknolojilerinin geliştirilmesiyle biyoinformatik, genetik mühendisliği alanında da kilit bir rol oynamaya başlamıştır (12). Ayrıca, kişiselleştirilmiş tıp ve büyük veri analitiği, biyoinformatiğin uygulama alanlarını genişletmeye devam etmektedir.

 

Biyoinformatikte Kullanılan Bazı Temel Terimler


Baz Çifti (bp): DNA molekülünün yapısında bulunan ve karşılıklı iki nükleotidin eşleşmesini ifade eder. Genellikle DNA dizilerinin uzunluğunu ifade etmek için kullanılır; örneğin 200bp, 200 baz çift uzunluğunda bir DNA dizisidir (13). Kilobaz (kb) 1000 baz çiftini ifade eder. Genomik ve genetik araştırmalarda büyük DNA veya RNA segmentlerinin uzunluğunu belirtmek için kullanılır (14). Megabaz (Mb) 1 milyon baz çiftini ifade eder. Kromozom seviyesindeki genetik uzunlukları tanımlamak için kullanılır (15). Gigabaz (Gb) ise 1 milyar baz çiftini ifade eder. Tüm genom uzunluklarını tanımlamak için kullanılır (16).

Kodon: DNA veya RNA'da, üç nükleotitten oluşan ve belirli bir amino asidi kodlayan birimlerdir. Örneğin, AUG kodonu metiyonin amino asidini kodlar ve protein sentezini başlatır (17).

Antikodon: tRNA'nın yapısında bulunan ve mRNA'nın kodonuyla eşleşen üçlü nükleotid dizisidir. Protein sentezi sırasında amino asitleri ribozoma taşımada önemli bir rol oynar (18).

ORF (Open Reading Frame): Başlangıç kodonundan (örneğin, AUG) başlayıp durdurma kodonunda (örneğin, UAA, UAG, UGA) biten DNA veya RNA dizisidir (19).

Promoter: Gen ekspresyonunu başlatan DNA bölgesidir. Promoter bölgeleri, RNA polimerazın bağlanmasını sağlar ve transkripsiyonun başlangıcını kontrol eder (20).

İntronlar (Introns): Bir genin protein kodlamayan, ancak RNA'dan kesilerek çıkarılan bölümleridir (21).

Eksonlar (Exons): Bir genin protein kodlayan veya fonksiyonel RNA molekülüne dönüştürülen bölümleridir. Transkripsiyondan sonra eksonlar birleştirilerek olgun RNA’yı oluşturur (22).

Genom: Bir organizmanın tüm genetik materyalini ifade eder. Genom, hem kodlayan (protein sentezine katkı sağlayan) hem de kodlamayan DNA bölgelerini içerir. Genomların yapılarını, işlevlerini ve evrimlerini inceleyen bilim dalına ise genomik denir (25).

Proteom: Bir organizmadaki tüm proteinlerin toplamıdır. Proteom, belirli bir zaman diliminde veya koşul altında ifade edilen tüm proteinleri kapsar. Proteomun incelenmesiyle ilgilenen bilim dalına ise proteomik denir (26).

Transkriptom: Bir hücrede belirli bir anda ifade edilen tüm RNA moleküllerinin toplamıdır. Transkriptom, gen ekspresyon seviyelerini ve genlerin düzenlenmesini anlamada kritik öneme sahiptir. Transkriptomların analizini yapan bilim dalına ise transkriptomik denir (27).

Metabolomik: Bir hücrede, dokuda veya organizmada bulunan tüm küçük moleküllerin (metabolitlerin) analiziyle ilgilenir. Metabolomik, metabolik yolakların işleyişini ve organizmanın çevresel değişikliklere tepkisini anlamak için kullanılır (28).

Metagenomik: Bir çevresel örnekteki tüm mikroorganizmaların (bakteri, virüs ve arke gibi) genetik materyalini analiz eder. Metagenomik, mikrobiyal çeşitliliği ve ekosistemlerin fonksiyonel özelliklerini incelemek için kullanılır (29).

Viromik: Bir organizmada veya çevrede bulunan tüm virüslerin genetik materyalini analiz eder. Viromik, viral çeşitliliği anlamak ve yeni virüs türlerini keşfetmek için kullanılır (30).

İndel: DNA dizisinde bir veya birkaç bazın eklenmesi (insersiyon) ya da silinmesi (delesyon) olayını ifade eder (23).

Gen: Bir organizmanın DNA'sında yer alan ve bir protein veya RNA molekülünün üretiminden sorumlu olan genetik bilgi birimidir. Genler, proteinlerin sentezlenmesi için gerekli kodları taşır ve biyolojik işlevlerin temel yapı taşlarını oluşturur (24).

Epigenomik: DNA metilasyonu, histon modifikasyonları ve diğer epigenetik değişiklikleri analiz ederek gen ekspresyonunun nasıl düzenlendiğini inceler (31).

Filogenetik: Türler veya genler arasındaki evrimsel ilişkileri inceleyen bilim dalıdır. Filogenetik analizler, organizmaların evrimsel geçmişlerini anlamak için filogenetik ağaçlar kullanmaktadır (32).


Şekil 2. Örnek bir filogenetik ağaç görseli (33).
Şekil 2. Örnek bir filogenetik ağaç görseli (33).

Dizi Hizalaması (Sequence Alignment): DNA, RNA veya protein dizilerinin karşılaştırılarak benzerliklerin belirlenmesi sürecidir (34).

Global Hizalama (Global Alignment):  Tüm diziyi karşılaştırır (örneğin, Needleman-Wunsch algoritması) (35).

Yerel Hizalama (Local Alignment):  Sadece benzer bölgelere odaklanır (örneğin, Smith-Waterman algoritması) (36).

Homoloji: İki biyolojik dizi (DNA, RNA veya protein) arasındaki ortak atadan kaynaklanan benzerlikleri anlatmaktadır. Homolog diziler, genellikle benzer işlevlere sahiptir (37).

SNP (Single Nucleotide Polymorphism, Tek Nükleotit Polimorfizmi): DNA dizisindeki tek bir nükleotidin değişmesiyle oluşan genetik varyasyonlardır. SNP'ler, genetik çeşitliliğin önemli kaynaklarındandır ve hastalık risklerinin belirlenmesinde kullanılmaktadır (25).

NGS (Next Generation Sequencing, Yeni Nesil Hizalama): Yeni nesil dizileme teknolojileri, DNA veya RNA dizilerinin hızlı ve yüksek doğrulukla okunmasını sağlar. NGS teknolojilerine Illumina, Oxford Nanopore, Ion Torrent vb. gibi örnek verilebilir (38).

Kapsama Derinliği (Coverage): NGS projelerinde, bir genom bölgesinin kaç kez dizilendiğini ifade eder. Yüksek kapsama derinliği, daha doğru dizilim sağlamaktadır. Örneğin, 30x coverage, genomun her bölgesinin ortalama 30 kez dizilendiği anlamına gelir (39).

Veri Tabanı: Biyoinformatikte genetik ve biyolojik bilgilerin saklandığı sistemlerdir. GenBank buna örnek olarak verilebilir (40).

 

Biyoinformatikte Kullanılan Bazı Yazılımlar ve Araçlar

 

Hizalama ve Genomik Analiz Araçları

BLAST: DNA, RNA veya protein dizilerini karşılaştırarak benzerlik analizi yapmak için kullanılan temel biyoinformatik araçlardan biridir (41).

Clustal Omega: Çoklu dizi hizalaması (multiple sequence alignment) için kullanılır (42).

BWA (Burrows-Wheeler Aligner): Kısa genomik dizilerin uzun referans genomlarla hizalanması için kullanılan hızlı bir araçtır (43).

 

Transkriptomik Verilerin Analizi

tRNAscan-SE: tRNA genlerini bulmak ve analiz etmek için kullanılır (44).

HISAT2: RNA dizilerinin (RNA-Seq), referans genomlarla hizalanması için hızlı bir araçtır (45).

Cufflinks: RNA-Seq verilerinden gen ekspresyon seviyelerini tahmin etmek için kullanılır (46).

StringTie: Transkript düzeyinde gen ekspresyon analizi ve birleştirilmiş transkript anotasyonu sağlar (47).

 

Filogenetik ve Evrimsel Analiz

MEGA (Molecular Evolutionary Genetics Analysis): Filogenetik analizler ve moleküler evrim çalışmalarında kullanılır (48).

PhyML: Maksimum olabilirlik (Maximum likelihood) yöntemiyle filogenetik ağaç oluşturmaktadır (49).

RAxML: Büyük veri setlerinin filogenetik analizlerinde kullanılır (50).

 

Metagenomik Analiz

QIIME: Mikrobiyal örnekleri analiz etmek için kullanılan bir araç setidir (51).

Kraken: Hızlı ve hassas metagenomik dizileme sınıflandırması için kullanılan bir yazılımdır (52).

Metabat: Metagenomik dizilerden bireysel genomları tahmin etmek için kullanılır (53).

 

Biyoinformatikte Kullanılan Bazı Veritabanları

NCBI (National Center for Biotechnology Information): BLAST, GenBank gibi araçların ve veri tabanlarının resmi kaynağıdır (54).

ENSEMBL: ENSEMBL, özellikle omurgalı genomlarına odaklanır ve gen tahminleri, varyasyonlar, düzenleyici (regulator) elementler gibi bilgiler sunar. Ayrıca, genomları karşılaştırmalı analiz için araçlar sağlamaktadır (55).

UCSC Genome Browser: Genom haritalarını interaktif bir şekilde sunar ve kullanıcıların genler, transkriptler, varyasyonlar ve düzenleyici (regulator) bölgeler gibi verileri incelemesine olanak tanımaktadır. İnsan genomu için en sık kullanılan tarayıcılardan biridir (56).

KEGG (Kyoto Encyclopedia of Genes and Genomes): KEGG özellikle biyokimyasal yollar (metabolik yollar, sinyal iletim yolları vb.) üzerinde yoğunlaşır ve genlerin, proteinlerin ve metabolitlerin fonksiyonel bağlamda analizine odaklanmaktadır (57).

 

 

 

REFERANSLAR

1.       Selzer, P. M., Marhöfer, R. J., Koch, O. (2018). Applied Bioinformatics: An Introduction. Germany: Springer International Publishing. https://doi.org/10.1007/978-3-319-68301-0 

2.       BIOINFORMATICS, FIFTH EDITION: METHODS AND APPLICATIONS - GENOMICS, PROTEOMICS AND DRUG DISCOVERY. (2022). (n.p.): PHI Learning Pvt. Ltd.

3.       Gupta, O. P., & Rani, S. (2010). Bioinformatics applications and tools: An overview. CiiT-International Journal of Biometrics and Bioinformatics, 3(3), 107-110.

4.       Needleman, S. B., & Wunsch, C. D. (1970). A general method applicable to the search for similarities in the amino acid sequence of two proteins. Journal of molecular biology, 48(3), 443-453. https://doi.org/10.1016/0022-2836(70)90057-4 

5.       Sanger, F., Coulson, A. R., Friedmann, T., Air, G. M., Barrell, B. G., Brown, N. L., ... & Smith, M. (1978). The nucleotide sequence of bacteriophage φX174. Journal of molecular biology, 125(2), 225-246. https://doi.org/10.1016/0022-2836(78)90346-7 

6.       Hogeweg, P. (2011). The roots of bioinformatics in theoretical biology. PLoS computational biology, 7(3), e1002021. https://doi.org/10.1371/journal.pcbi.1002021 

7.       Smith, T. F., & Waterman, M. S. (1981). Identification of common molecular subsequences. Journal of molecular biology, 147(1), 195-197. https://doi.org/10.1016/0022-2836(81)90087-5 

8.       Mullis, K., Faloona, F., Scharf, S., Saiki, R., Horn, G., & Erlich, H. (1986, January). Specific enzymatic amplification of DNA in vitro: the polymerase chain reaction. In Cold Spring Harbor symposia on quantitative biology (Vol. 51, pp. 263-273). Cold Spring Harbor Laboratory Press. https://doi.org/10.1101/sqb.1986.051.01.032 

9.       Yadav, S. P. (2007). The wholeness in suffix-omics,-omes, and the word om. Journal of biomolecular techniques: JBT, 18(5), 277.

10.   Human Genome Project Timeline. (2025). Retrieved 3 January 2025, from https://www.genome.gov/human-genome-project/timeline

11.   Fleischmann, R. D., Adams, M. D., White, O., Clayton, R. A., Kirkness, E. F., Kerlavage, A. R., Bult, C. J., Tomb, J. F., Dougherty, B. A., & Merrick, J. M. (1995). Whole-genome random sequencing and assembly of Haemophilus influenzae Rd. Science (New York, N.Y.)269(5223), 496–512. https://doi.org/10.1126/science.7542800 

12.   Jiang, F., & Doudna, J. A. (2017). CRISPR–Cas9 structures and mechanisms. Annual review of biophysics, 46(1), 505-529. https://doi.org/10.1146/annurev-biophys-062215-010822 

13.   Varani, G., & McClain, W. H. (2000). The G· U wobble base pair. A fundamental building block of RNA structure crucial to RNA function in diverse biological systems. EMBO reports, 1(1), 18-23. https://doi.org/10.1093/embo-reports/kvd001 

14.   KILOBASE (KB). (2025). Retrieved 3 January 2025, from https://www.genome.gov/genetics-glossary/Kilobase-kb

15.   MEGABASE (MB). (2025). Retrieved 3 January 2025, from https://www.genome.gov/genetics-glossary/Megabase-Mb.

16.   GIGABASE (GB). (2025). Retrieved 3 January 2025, from https://www.genome.gov/genetics-glossary/Gigabase-Gb.

17.   codon. (2025). Retrieved 3 January 2025, from https://www.cancer.gov/publications/dictionaries/genetics-dictionary/def/codon.

18.   Kaufmann, G. (2000). Anticodon nucleases. Trends in biochemical sciences, 25(2), 70-74. https://doi.org/10.1016/s0968-0004(99)01525-x 

19.   Sieber, P., Platzer, M., & Schuster, S. (2018). The definition of open reading frame revisited. Trends in Genetics, 34(3), 167-170. https://doi.org/10.1016/j.tig.2017.12.009 

20.   Cartharius, K., Frech, K., Grote, K., Klocke, B., Haltmeier, M., Klingenhoff, A., ... & Werner, T. (2005). MatInspector and beyond: promoter analysis based on transcription factor binding sites. Bioinformatics, 21(13), 2933-2942. https://doi.org/10.1093/bioinformatics/bti473 

21.   Chorev, M., & Carmel, L. (2012). The function of introns. Frontiers in genetics, 3, 55. https://doi.org/10.3389/fgene.2012.00055 

22.   Keren, H., Lev-Maor, G., & Ast, G. (2010). Alternative splicing and evolution: diversification, exon definition and function. Nature Reviews Genetics, 11(5), 345-355. https://doi.org/10.1038/nrg2776 

23.   Redelings, B. D., Holmes, I., Lunter, G., Pupko, T., & Anisimova, M. (2024). Insertions and deletions: Computational methods, evolutionary dynamics, and biological applications. Molecular biology and evolution, 41(9), msae177. https://doi.org/10.1093/molbev/msae177 

24.   ​GENE. (2025). Retrieved 3 January 2025, from https://www.genome.gov/genetics-glossary/Gene.

25.   Roth, S. C. (2019). What is genomic medicine?. Journal of the Medical Library Association: JMLA, 107(3), 442. https://doi.org/10.5195/jmla.2019.604 

26.   Anderson, J. D., Johansson, H. J., Graham, C. S., Vesterlund, M., Pham, M. T., Bramlett, C. S., Montgomery, E. N., Mellema, M. S., Bardini, R. L., Contreras, Z., Hoon, M., Bauer, G., Fink, K. D., Fury, B., Hendrix, K. J., Chedin, F., El-Andaloussi, S., Hwang, B., Mulligan, M. S., Lehtiö, J., … Nolta, J. A. (2016). Comprehensive Proteomic Analysis of Mesenchymal Stem Cell Exosomes Reveals Modulation of Angiogenesis via Nuclear Factor-KappaB Signaling. Stem cells (Dayton, Ohio)34(3), 601–613. https://doi.org/10.1002/stem.2298 

27.   Pertea, M. (2012). The human transcriptome: an unfinished story. Genes, 3(3), 344-360. https://doi.org/10.3390/genes3030344 

28.   Clish C. B. (2015). Metabolomics: an emerging but powerful tool for precision medicine. Cold Spring Harbor molecular case studies1(1), a000588. https://doi.org/10.1101/mcs.a000588 

29.   National Research Council (US) Committee on Metagenomics: Challenges and Functional Applications. The New Science of Metagenomics: Revealing the Secrets of Our Microbial Planet. Washington (DC): National Academies Press (US); 2007. 1, Why Metagenomics? Available from: https://www.ncbi.nlm.nih.gov/books/NBK54011/

30.   Ramamurthy, M., Sankar, S., Kannangai, R., Nandagopal, B., & Sridharan, G. (2017). Application of viromics: a new approach to the understanding of viral infections in humans. Virusdisease28(4), 349–359. https://doi.org/10.1007/s13337-017-0415-3 

31.   Choi, M. Y., Fritzler, M. J., & Mahler, M. (2021). Development of multi-omics approach in autoimmune diseases. In Precision Medicine and Artificial Intelligence (pp. 189-201). Academic Press. https://doi.org/10.1016/B978-0-12-820239-5.00004-8

32.   Semple, C., & Steel, M. (2003). Phylogenetics (Vol. 24). Oxford University Press on Demand.

33.   Nair P. (2012). Woese and Fox: Life, rearranged. Proceedings of the National Academy of Sciences of the United States of America109(4), 1019–1021. https://doi.org/10.1073/pnas.1120749109 

34.   Mount, D. W. (2004). Bioinformatics: Sequence and Genome Analysis. Tayland: Cold Spring Harbor Laboratory Press.

35.   Huang X. (1994). On global sequence alignment. Computer applications in the biosciences : CABIOS10(3), 227–235. https://doi.org/10.1093/bioinformatics/10.3.227

36.   Altschul, S. F., Gish, W., Miller, W., Myers, E. W., & Lipman, D. J. (1990). Basic local alignment search tool. Journal of molecular biology215(3), 403–410. https://doi.org/10.1016/S0022-2836(05)80360-2

37.   Brigandt, Ingo, "Essay: Homology". Embryo Project Encyclopedia ( 2011-11-23 ). ISSN: 1940-5030 https://hdl.handle.net/10776/1754

38.   Hu, T., Chitnis, N., Monos, D., & Dinh, A. (2021). Next-generation sequencing technologies: An overview. Human Immunology, 82(11), 801-811. https://doi.org/10.1016/j.humimm.2021.02.012 

39.   Sims, D., Sudbery, I., Ilott, N. E., Heger, A., & Ponting, C. P. (2014). Sequencing depth and coverage: key considerations in genomic analyses. Nature Reviews Genetics, 15(2), 121-132. https://doi.org/10.1038/nrg3642 

40.   Sayers, E. W., Cavanaugh, M., Clark, K., Ostell, J., Pruitt, K. D., & Karsch-Mizrachi, I. (2020). GenBank. Nucleic acids research48(D1), D84–D86. https://doi.org/10.1093/nar/gkz956 

41.   Altschul, S.F., Gish, W., Miller, W., Myers, E.W., Lipman, D.J. (1990) “Basic local alignment search tool.” J. Mol. Biol. 215:403-410. https://doi.org/10.1016/S0022-2836(05)80360-2  

42.   Madeira, F., Madhusoodanan, N., Lee, J., Eusebi, A., Niewielska, A., Tivey, A. R., ... & Butcher, S. (2024). The EMBL-EBI Job Dispatcher sequence analysis tools framework in 2024. Nucleic Acids Research, gkae241. https://doi.org/10.1093/nar/gkae241 

43.   Li H. and Durbin R. (2009) Fast and accurate short read alignment with Burrows-Wheeler Transform. Bioinformatics, 25:1754-60. https://doi.org/10.1093/bioinformatics/btp324 

44.   Lowe, T. M., & Chan, P. P. (2016). tRNAscan-SE On-line: integrating search and context for analysis of transfer RNA genes. Nucleic acids research, 44(W1), W54–W57. https://doi.org/10.1093/nar/gkw413

45.   Kim, D., Langmead, B., & Salzberg, S. L. (2015). HISAT: a fast spliced aligner with low memory requirements. Nature methods, 12(4), 357–360. https://doi.org/10.1038/nmeth.3317

46.   Trapnell, C., Williams, B. A., Pertea, G., Mortazavi, A., Kwan, G., van Baren, M. J., Salzberg, S. L., Wold, B. J., & Pachter, L. (2010). Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nature biotechnology28(5), 511–515. https://doi.org/10.1038/nbt.1621

47.   Pertea, M., Pertea, G. M., Antonescu, C. M., Chang, T. C., Mendell, J. T., & Salzberg, S. L. (2015). StringTie enables improved reconstruction of a transcriptome from RNA-seq reads. Nature biotechnology, 33(3), 290-295. https://doi.org/10.1038/nbt.3122 

48.   Tamura, K., Stecher, G., & Kumar, S. (2021). MEGA11: molecular evolutionary genetics analysis version 11. Molecular biology and evolution, 38(7), 3022-3027. https://doi.org/10.1093/molbev/msab120 

49.   Guindon, S., Dufayard, J. F., Lefort, V., Anisimova, M., Hordijk, W., & Gascuel, O. (2010). New algorithms and methods to estimate maximum-likelihood phylogenies: assessing the performance of PhyML 3.0. Systematic biology, 59(3), 307-321. https://doi.org/10.1093/sysbio/syq010 

50.   Stamatakis, A. (2014). RAxML version 8: a tool for phylogenetic analysis and post-analysis of large phylogenies. Bioinformatics, 30(9), 1312-1313. https://doi.org/10.1093/bioinformatics/btu033 

51.   Bolyen E, Rideout JR, Dillon MR, Bokulich NA, Abnet CC, Al-Ghalith GA, Alexander H, Alm EJ, Arumugam M, Asnicar F, Bai Y, Bisanz JE, Bittinger K, Brejnrod A, Brislawn CJ, Brown CT, Callahan BJ, Caraballo-Rodríguez AM, Chase J, Cope EK, Da Silva R, Diener C, Dorrestein PC, Douglas GM, Durall DM, Duvallet C, Edwardson CF, Ernst M, Estaki M, Fouquier J, Gauglitz JM, Gibbons SM, Gibson DL, Gonzalez A, Gorlick K, Guo J, Hillmann B, Holmes S, Holste H, Huttenhower C, Huttley GA, Janssen S, Jarmusch AK, Jiang L, Kaehler BD, Kang KB, Keefe CR, Keim P, Kelley ST, Knights D, Koester I, Kosciolek T, Kreps J, Langille MGI, Lee J, Ley R, Liu YX, Loftfield E, Lozupone C, Maher M, Marotz C, Martin BD, McDonald D, McIver LJ, Melnik AV, Metcalf JL, Morgan SC, Morton JT, Naimey AT, Navas-Molina JA, Nothias LF, Orchanian SB, Pearson T, Peoples SL, Petras D, Preuss ML, Pruesse E, Rasmussen LB, Rivers A, Robeson MS, Rosenthal P, Segata N, Shaffer M, Shiffer A, Sinha R, Song SJ, Spear JR, Swafford AD, Thompson LR, Torres PJ, Trinh P, Tripathi A, Turnbaugh PJ, Ul-Hasan S, van der Hooft JJJ, Vargas F, Vázquez-Baeza Y, Vogtmann E, von Hippel M, Walters W, Wan Y, Wang M, Warren J, Weber KC, Williamson CHD, Willis AD, Xu ZZ, Zaneveld JR, Zhang Y, Zhu Q, Knight R, and Caporaso JG. 2019. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology 37: 852–857. https://doi.org/10.1038/s41587-019-0209-9.

52.   Wood, D. E., & Salzberg, S. L. (2014). Kraken: ultrafast metagenomic sequence classification using exact alignments. Genome biology, 15, 1-12. https://doi.org/10.1186/gb-2014-15-3-r46

53.   Kang, D. D., Froula, J., Egan, R., & Wang, Z. (2015). MetaBAT, an efficient tool for accurately reconstructing single genomes from complex microbial communities. PeerJ, 3, e1165. https://doi.org/10.7717/peerj.1165 

54.   Sayers, E. W., Bolton, E. E., Brister, J. R., Canese, K., Chan, J., Comeau, D. C., Connor, R., Funk, K., Kelly, C., Kim, S., Madej, T., Marchler-Bauer, A., Lanczycki, C., Lathrop, S., Lu, Z., Thibaud-Nissen, F., Murphy, T., Phan, L., Skripchenko, Y., Tse, T., … Sherry, S. T. (2022). Database resources of the national center for biotechnology information. Nucleic acids research50(D1), D20–D26. https://doi.org/10.1093/nar/gkab1112

55.   Peter W Harrison, M Ridwan Amode, Olanrewaju Austine-Orimoloye, Andrey G Azov, Matthieu Barba, If Barnes, Arne Becker, Ruth Bennett, Andrew Berry, Jyothish Bhai, Simarpreet Kaur Bhurji, Sanjay Boddu, Paulo R Branco Lins, Lucy Brooks, Shashank Budhanuru Ramaraju, Lahcen I Campbell, Manuel Carbajo Martinez, Mehrnaz Charkhchi, Kapeel Chougule, Alexander Cockburn, Claire Davidson, Nishadi H De Silva, Kamalkumar Dodiya, Sarah Donaldson, Bilal El Houdaigui, Tamara El Naboulsi, Reham Fatima, Carlos Garcia Giron, Thiago Genez, Dionysios Grigoriadis, Gurpreet S Ghattaoraya, Jose Gonzalez Martinez, Tatiana A Gurbich, Matthew Hardy, Zoe Hollis, Thibaut Hourlier, Toby Hunt, Mike Kay, Vinay Kaykala, Tuan Le, Diana Lemos, Disha Lodha, Diego Marques-Coelho, Gareth Maslen, Gabriela Alejandra Merino, Louisse Paola Mirabueno, Aleena Mushtaq, Syed Nakib Hossain, Denye N Ogeh, Manoj Pandian Sakthivel, Anne Parker, Malcolm Perry, Ivana Piližota, Daniel Poppleton, Irina Prosovetskaia, Shriya Raj, José G Pérez-Silva, Ahamed Imran Abdul Salam, Shradha Saraf, Nuno Saraiva-Agostinho, Dan Sheppard, Swati Sinha, Botond Sipos, Vasily Sitnik, William Stark, Emily Steed, Marie-Marthe Suner, Likhitha Surapaneni, Kyösti Sutinen, Francesca Floriana Tricomi, David Urbina-Gómez, Andres Veidenberg, Thomas A Walsh, Doreen Ware, Elizabeth Wass, Natalie L Willhoft, Jamie Allen, Jorge Alvarez-Jarreta, Marc Chakiachvili, Bethany Flint, Stefano Giorgetti, Leanne Haggerty, Garth R Ilsley, Jon Keatley, Jane E Loveland, Benjamin Moore, Jonathan M Mudge, Guy Naamati, John Tate, Stephen J Trevanion, Andrea Winterbottom, Adam Frankish, Sarah E Hunt, Fiona Cunningham, Sarah Dyer, Robert D Finn, Fergal J Martin, and Andrew D Yates Ensembl 2024Nucleic Acids Res. 2024, 52(D1):D891–D899PMID: 37953337 https://doi.org/10.1093/nar/gkad1049

56.   Perez G, Barber GP, Benet-Pages A, Casper J, Clawson H, Diekhans M, Fischer C, Gonzalez JN, Hinrichs AS, Lee CM, Nassar LR, Raney BJ, Speir ML, van Baren MJ, Vaske CJ, Haussler D, Kent WJ, Haeussler M. (2024). The UCSC Genome Browser database: 2025 update. Nucleic Acids Res. https://doi.org/10.1093/nar/gkae974

Kanehisa, M., Furumichi, M., Sato, Y., Kawashima, M., & Ishiguro-Watanabe, M. (2023). KEGG for taxonomy-based analysis of pathways and genomes. Nucleic acids research51(D1), D587–D592. https://doi.org/10.1093/nar/gkac963

Comments

Rated 0 out of 5 stars.
No ratings yet

Add a rating
bottom of page