top of page

AlphaFold2 Colab Kullanımı: Adım Adım Protein Yapı Tahmini

AlphaFold2, protein yapısı tahmininde çığır açan bir gelişme olup yapay zekanın (AI) bilim alanına en büyük katkılarından biri ve 21. yüzyılın en önemli bilimsel keşiflerinden biri olarak kabul edilmektedir (1). Bu değerlendirme abartılı değildir çünkü proteinlerin üç boyutlu yapılarını anlamak, biyoloji alanındaki en büyük zorluklardan biri olmuş ve bilim insanlarını uzun yıllardır meşgul etmiştir (2). 2020 yılında AlphaFold2 (3), ortalama bir karbon atomu çapından daha küçük bir hata payıyla (ortalama <1Å) protein katlanmasını en doğru şekilde tahmin ederek CASP14 yarışmasını kazanmıştır. Bu başarı, o döneme kadar elde edilen en iyi sonuç olup rakiplerinden çok daha üstün bir performans sergilemiştir. Sonuçların bu denli başarılı olması, bilim insanlarının ilk kez deneysel verilere gerçek anlamda yaklaşmaya başladığını göstermesi açısından büyük heyecan uyandırmıştır (4).

AlphaFold2, bir protein dizisini girdi olarak kullanarak çeşitli protein veri tabanlarından çoklu dizi hizalama (MSA) oluşturur ve böylece dizinin hangi bölgelerinin mutasyona yatkın olduğunu belirleyerek aralarındaki korelasyonu tespit eder. Ayrıca, hedef dizinin (şablon) ilk temsilini oluşturmak için benzer yapıya sahip proteinleri belirler. Bu iki strateji daha önce de kullanılmış ve CASP14'teki diğer algoritmalar tarafından benimsenmiştir. Ancak, AlphaFold2’nin çığır açan başarısı, sinir ağı mimarileri içinde özellikle evoformer ve yapı modülü olmak üzere iki temel sinir ağı modülüne dayanır (3,5). Evoformer, çoklu dizi hizalamalarından ve şablonlardan bilgi çıkararak ağ içerisinde ileri ve geri bilgi akışı sağlamaktadır.

AlphaFold2’nin protein yapısı tahmin performansı ve 200 milyondan fazla proteinin yapısının belirlenmesi yapısal biyolojiyi dönüştürmekte ve dolayısıyla protein yapısal bilgisine dayalı biyoloji ve tıp alanlarını derinden etkilemektedir. AlphaFold2 ve öngördüğü protein yapıları, araştırmacılara daha önce son derece karmaşık olduğu düşünülen sorunları çözme konusunda yeni fırsatlar sunmaktadır. Bu yenilikçi araç, yapısal biyoloji, ilaç keşfi, protein tasarımı, hedef tahmini, protein fonksiyon tahmini, protein-protein etkileşimleri ve biyolojik etki mekanizmalarının aydınlatılması gibi birçok alanda bilim insanlarına önemli katkılar sağlamaktadır (1).

GPU ve TPU gibi yüksek performanslı donanımlara erişimi olmayan araştırmacıların da AlphaFold2'yi kullanabilmesi için Google Colaboratory tabanlı bağımsız çözümler geliştirilmiştir. Google Colaboratory, Google tarafından barındırılan ve Jupyter Notebook’un tescilli bir sürümü olan bir platformdur. Oturum açmış kullanıcılar için ücretsiz erişim sunan Colaboratory, aynı zamanda güçlü GPU kaynaklarına ulaşma imkânı sağlamaktadır. Bu doğrultuda, Tunyasuvunakool ve çalışma arkadaşları, AlphaFold2’yi Google Colaboratory üzerinde çalıştırmak için özel bir Jupyter Notebook geliştirmiştir (6).


Google Colab — AlphaFold2’ye https://colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb sitesi üzerinden ulaşılabilir.

Şekil 1. Google Colab — AlphaFold2 Ekranı.
Şekil 1. Google Colab — AlphaFold2 Ekranı.

Örnek uygulamamızda deneysel yapısı PDB (Protein Data Bank)’de yer alan insan FTO proteini ile yapısı deneysel olarak belirlenmemiş (PDB’de yer almayan) bir protein olan FOXO6 dizisi kullanılacaktır.

1. Adım: Öncelikle bu iki proteinin dizisi UniProt veri tabanından elde edilir. FTO proteini için UniProt erişim numarası Q9C0B1 ve FOXO6 proteini için erişim numarası A8MYZ6 olan diziler kullanılacaktır.

Şekil 2. Homo sapiens için FOXO6 ve FTO protein dizilerinin Uniprot veri tabanından elde edilmesi.
Şekil 2. Homo sapiens için FOXO6 ve FTO protein dizilerinin Uniprot veri tabanından elde edilmesi.

2. Adım: Elde edilen diziler FASTA formatı olarak indirilir. Bunun için Download sekmesinde FASTA seçilip indirme yapılır.

Şekil 3. UniProt FASTA Formatında Dizi İndirme Sekmesi.
Şekil 3. UniProt FASTA Formatında Dizi İndirme Sekmesi.

3.Adım: Ardından Google Colab — AlphaFold2 sayfasına girilir. query_sequence kısmındaki default dizi silinir ve öncelikle FTO proteininin sadece dizi kısmı yapıştırılır. İsteğe bağlı olarak JobName girilebilir, num_relax kısmı “0” bırakılabilir ve template_mode kısmı ise “none” olarak bırakılır. Daha sonra sol kısımdaki butondan hücre çalıştırılır.

Şekil 4. AlphaFold2 aracına FTO proteinine ait dizinin girilmesi.
Şekil 4. AlphaFold2 aracına FTO proteinine ait dizinin girilmesi.

4.Adım: Butonun olduğu yerde yeşil onay işareti olduğunda hücre başarıyla çalıştırılmış anlamına gelir. Ve sırasıyla teker teker diğer hücreler de çalıştırılır. Hücrelerdeki tüm ayarlar default haliyle çalıştırılabilir. (Protein dizileri uzun olduğundan işlemler yarım saat veya 45 dk kadar sürebilmektedir.)

5.Adım: Yapılan işlemler Package and download results hücresine kadar sorunsuz çalıştığı takdirde son hücreyi de çalıştırıp FTO proteinine ait model yapılarını ve grafiklerini “.zip” uzantılı dosya şeklinde indirebilirsiniz.

6.Adım: Tüm hücreler çalıştırıldıktan sonra sıra FOXO6 proteinine gelir. FASTA dosyasındaki dizi query_sequence bölümüne yazılır ve en son hücreye kadar yeniden çalıştırılır. Tüm satırlar çalıştıktan sonra Package and download results sekmesinden FOXO6’ya ait yapılarını indirebilirsiniz.

Şekil 5. AlphaFold2 Aracına FOXO6 Protein Dizisinin Girilmesi.
Şekil 5. AlphaFold2 Aracına FOXO6 Protein Dizisinin Girilmesi.

7. Adım: İki protein için indirilen 5 model yapıya ait “pLDDT” ve “coverage” sonuçları incelenebilir. AlphaFold, her bir amino asit için 0 ile 100 arasında bir model güven skoru (pLDDT) üretir. İzole halde pLDDT’de 50’nin altındaki bazı bölgeler yapısal olarak düzensiz olabilmektedir. Covarage grafiği ise Y ekseninde karşılaştırılan dizi sayısını, X ekseninde girilen proteinin amino asit konumlarını vermektedir. Burada önemli olan girilen dizideki amino asitlerin çok fazla sayıda dizi ile benzerlik göstermesidir.

Şekil 6. FOXO6 Proteinine ait pLDDT Grafiği.
Şekil 6. FOXO6 Proteinine ait pLDDT Grafiği.

Örneğin FOXO6 ‘ya ait bu pLDDT grafiğinde yaklaşık 90 ile 130. amino asit arasındaki bölgenin güvenirlilik skoru 80’nin üzerindedir yani bu bölge iyi tahmin edilmiştir diye bir yorum yapılabilir. Benzer mantık uygulanarak diğer bölgeler de incelenebilir (Şekil 6.).


Şekil 7. FOXO6 Proteinine ait Covarage Grafiği.
Şekil 7. FOXO6 Proteinine ait Covarage Grafiği.

Örneğin FOXO6‘ya ait bu covarage grafiğinde, pLDDT grafiğine benzer şekilde iyi tahmin edilen bölgenin kullanılan 12.000 dizi içinde yaklaşık 11.700 diziyle eşleştiğini göstermektedir. 100-200 arası bölge oldukça korunmuş ve büyük olasılıkla fonksiyonel olarak önemli bir alan olduğu söylenebilir. 200’den sonra coverage keskin şekilde düştüğü için bu bölgeler esnek veya düzensiz olabilir (Şekil 7.).

Şekil 8. FTO proteinine ait pLDDT Grafiği.
Şekil 8. FTO proteinine ait pLDDT Grafiği.

8. Adım: FTO proteinine ait bu pLDDT grafiğinde protein dizisinin büyük bir kısmının güvenirlilik skoru 80’nin üzerindedir yani bu bölgeler iyi tahmin edilmiştir denebilir. Benzer mantık uygulanarak diğer bölgeler de incelenebilir. Örneğin proteinin uç kısımları (N ve C terminal) çok iyi modellenememiştir çünkü pIDDT değerleri 50’nin altındadır. Ama genel olarak bakıldığında FTO proteininde, FOXO6 proteinine göre daha fazla bölgenin iyi modellendiği söylenebilir (Şekil 8.). Ayrıca modeller (rank_1, rank_2, rank_3, rank_4 ve rank_5) arasında büyük bir farklılık gözlenmemektedir bu da tahmin edilen yapıların tutarlı olduğunu gösterir.

Şekil 9. FTO proteinine ait Covarage Grafiği.
Şekil 9. FTO proteinine ait Covarage Grafiği.

Covarage grafiğinde de benzer şekilde iyi tahmin edilen bölgenin kullanılan yaklaşık 1.100 dizi içinde yaklaşık 750 ila 780 diziyle eşleştiğini göstermektedir. Ayrıca FTO proteini genel olarak iyi korunmuş ancak uç bölgeler ve bazı iç bölgelerde çeşitlilik fazla olduğu görülmektedir (Şekil 9.).


Örnekte kullanılan iki proteini kıyaslamak gerekirse üç boyutlu yapısı deneysel olarak belirlenmiş FTO proteininin modellemesi, FOXO6’ya göre daha iyi yapılmıştır denebilir.

AlphaFold2 tarafından tahmini olarak belirlenmiş protein yapıları, çeşitli molekül görselleştirme araçlarıyla (PyMOL ve Chimera gibi) incelenebilir ve iyi bir şekilde modellendiği düşünülürse moleküler docking (yerleştirme) ve moleküler dinamik simülasyonları gibi yöntemlerde kullanılabilir.

 

Sonuç olarak, AlphaFold2’nin protein yapısı tahmininde ulaştığı yüksek doğruluk, yapısal biyolojide devrim niteliğinde bir ilerleme sağlamış ve biyomedikal araştırmalarda yeni ufuklar açmıştır. Bu yapay zeka tabanlı araç, bilim insanlarının proteinlerin üç boyutlu yapısını anlamalarına yardımcı olarak ilaç keşfi, protein mühendisliği ve hastalık mekanizmalarının aydınlatılması gibi birçok alanda büyük fırsatlar sunmaktadır. Ayrıca, Google Colaboratory gibi platformlar sayesinde geniş araştırmacı kitlesinin erişimine açılması, bu teknolojinin daha yaygın kullanılmasını sağlamaktadır.



REFERANSLAR

1. Yang, Z., Zeng, X., Zhao, Y., & Chen, R. (2023). AlphaFold2 and its applications in the fields of biology and medicine. Signal transduction and targeted therapy8(1), 115. https://doi.org/10.1038/s41392-023-01381-z

2. Dill, K. A., & MacCallum, J. L. (2012). The protein-folding problem, 50 years on. Science (New York, N.Y.)338(6110), 1042–1046. https://doi.org/10.1126/science.1219021

3. Jumper, J., Evans, R., Pritzel, A., Green, T., Figurnov, M., Tunyasuvunakool, K., et al. (2020). AlphaFold 2. Fourteenth Critical Assessment of Techniques for Protein Structure Prediction. London: DeepMind.

4. Xu, T., Xu, Q., & Li, J. (2023). Toward the appropriate interpretation of Alphafold2. Frontiers in artificial intelligence, 6, 1149748. https://doi.org/10.3389/frai.2023.1149748

5. Skolnick, J., Gao, M., Zhou, H., & Singh, S. (2021). AlphaFold 2: Why It Works and Its Implications for Understanding the Relationships of Protein Sequence, Structure, and Function. Journal of chemical information and modeling61(10), 4827–4831. https://doi.org/10.1021/acs.jcim.1c01114

6. Tunyasuvunakool, K., Adler, J., Wu, Z., Green, T., Zielinski, M., Žídek, A., Bridgland, A., Cowie, A., Meyer, C., Laydon, A., Velankar, S., Kleywegt, G. J., Bateman, A., Evans, R., Pritzel, A., Figurnov, M., Ronneberger, O., Bates, R., Kohl, S. A. A., Potapenko, A., … Hassabis, D. (2021). Highly accurate protein structure prediction for the human proteome. Nature596(7873), 590–596. https://doi.org/10.1038/s41586-021-03828-1

Comentarios

Obtuvo 0 de 5 estrellas.
Aún no hay calificaciones

Agrega una calificación
bottom of page