top of page

Kemoinformatiğe Giriş ve Temel Kavramlar

Kemoinformatik, kimyanın temel prensiplerini bilgisayar bilimiyle birleştirerek moleküllerin yapısal özelliklerini, biyolojik etkilerini ve etkileşimlerini analiz etmeyi amaçlayan bir bilim dalıdır. Modern ilaç tasarımı, malzeme bilimi ve çevre kimyası gibi pek çok alanda önemli bir rol oynayan kemoinformatik, özellikle büyük veri kümelerinin yönetimi ve analizi için güçlü bir araç sunmaktadır. Bu disiplin, molekül veri tabanlarının oluşturulmasından yapay zeka ve makine öğrenmesi teknikleri kullanılarak yeni bileşiklerin keşfine kadar geniş bir uygulama yelpazesine sahiptir.


Şekil 1. Görsel, kimya ve bilgisayar biliminin modern ilaç tasarımı, malzeme bilimi ve çevre kimyasındaki rolünü ifade etmektedir. (Görsel, yapay zeka kullanılarak oluşturulmuştur)
Şekil 1. Görsel, kimya ve bilgisayar biliminin modern ilaç tasarımı, malzeme bilimi ve çevre kimyasındaki rolünü ifade etmektedir. (Görsel, yapay zeka kullanılarak oluşturulmuştur)

1998 yılında Dr. Brown, kemoinformatik için şu tanımı yapmıştır: “Bilgi teknolojisi ve yönetiminin kullanımı, ilaç keşif sürecinin kritik bir parçası haline gelmiştir. Kemoinformatik, bu bilgi kaynaklarını bir araya getirerek verileri bilgiye ve bilgiyi, ilaç öncüsü tanımlama ve düzenleme alanında daha hızlı ve daha iyi kararlar almak amacıyla bilgiye dönüştürmektir.” (1).

 

Kemoinformatiğin Tarihçesi


1946 yılında King ve arkadaşları, IBM'in iş muhasebe (business accounting) makinelerini kullanarak asimetrik rotorların döner spektrumlarının oluşturulmasını gösteren bir makale yayınlamışlardır (2). Bu işlem, çizgi konumu ve çizgi yoğunluğu için matematiksel denklemlerin değerlendirilmesiyle gerçekleştirilmiştir. Bu çalışma, bilgisayar teknolojisinin kimya alanında uygulanmasına yönelik en erken çalışmalardan biridir ve bu nedenden dolayı 1946 yılı, kemoinformatiğin doğum yılı olarak kabul edilebilmektedir. Kemoinformatik alanındaki ilk öncü çalışmalarda, genellikle kütle spektrumları ve kimya literatürü gibi basılı kimyasal veri koleksiyonlarının elektronik formatlara dönüştürülmesine ve ilgili veri tabanı arama sistemlerinin geliştirilmesine odaklanılmıştır. Kütle spektrumlarının aranması için delikli kartlar kullanılarak spektral verilerin kodlanmasını içeren ilk yöntem, 1950 yılında Zemany (3) tarafından tanımlanmıştır. 1951 yılında ise Kuentzel (4), IR spektrumlarının saklanması ve sıralayıcılar (sorter) veya diziciler (collators) kullanılarak spektral eşleşmelerin bulunması için delikli kart sistemlerini geliştirmiştir.

Kemoinformatikteki önemli algoritmalardan biri olan alt yapı eşleştirme algoritması, 1957 yılında Ray ve Kirsch tarafından tanımlanmıştır (5). Bu algoritma, kimyasal yapıların temsili için bir bağlantı tablosuna ve bir geri izleme algoritmasına dayanmaktadır. Halen yaygın olarak kullanılan bu algoritma, genellikle "atom-atom eşleştirme" olarak adlandırılmaktadır. 1959 yılında Opler ve Baird, kimyasal yapıların bir katot ışın tüpü (CRT) yüzeyinde bilgisayar çıktısı olarak gösterildiği ilk grafiksel gösterimi tanımlamışlardır (6).

1960'larda, kimyasal veri tabanı erişim sistemlerinin geliştirilmesinde önemli ilerlemeler kaydedilmeye başlandı. 1964 yılında, binlerce IR spektrumunu içeren ASTM veri tabanını aramak için bilgisayar tekniklerinin kullanımı hakkında çeşitli raporlar yayınlandı (7). 1965 yılında, İngiliz Hükümeti'nin Atomic Weapons Research Establishment (AWRE), kütle spektrumları için küresel bir veri tabanı oluşturma projesi başlatmış ve bu Aldermaston'da Mass Spectrometry Data Centre (MSDC)'nin kurulmasına yol açmıştır. Birkaç yıl sonra ABD Ulusal Sağlık Enstitüleri (NIH) Kimya Laboratuvarı, MSDC'nin kütle spektrumu veri tabanları ve MIT’den Profesör Biemann’a ait bir veri tabanına dayalı bilgisayar tabanlı bir kütüphane erişim sistemi geliştirmeye başlamıştır (8). Önemli bir diğer gelişme ise kristal yapıları toplayan yeni bir veri tabanı olan Cambridge Structural Database (CSD)'nin 1965 yılında İngiltere’nin Cambridge şehrinde oluşturulmaya başlanmasıdır (9). CSD, deneysel üç boyutlu yapı verileri için ilk ve önemli kaynak haline gelmiştir. Örneğin, CONCORD ve CORINA gibi pek çok 3D yapısal oluşturucu, şablonlarını bu veri tabanından türetmiştir. CSD, yapısal kimya ve ilaç tasarımında zorlu problemlerin çözümünde giderek daha önemli bir rol oynamıştır. 1960'larda kemoinformatik alanındaki en heyecan verici öncü araştırma alanlarından biri, yapay zeka ve kimya alanındaki uygulamaları, özellikle kimyasal uzman sistemlerin keşfiydi. Bir uzman sistem, belirli bir uzmanlık gerektiren görevi yerine getirmek için kullanılan yapay zeka uygulama programıdır. İnsan uzmanları taklit ederek dar kapsamlı problemlere çözüm bulmaya çalışmaktadır. Kimya alanındaki ilk uzman sistem, 1965 yılında başlayan DENDRAL projesi ile geliştirilmiştir.

Bu proje, Stanford Üniversitesi'nde Lederberg’in yapısal izomerizmin kapsamı ve kimyasal yapıların matematiksel modellerle temsil edilmesi üzerine yaptığı çalışmalardan doğmuştur (10). DENDRAL projesinin amacı, bilinmeyen bir bileşiğin kütle spektrumundan otomatik olarak yapısını belirlemek için bir uzman sistem geliştirmekti.

1971 yılında Dr. Walter Hamilton, Brookhaven Ulusal Laboratuvarı'nda Protein Data Bank (PDB)'yi kurmuştur. PDB, proteinler ve nükleik asitler gibi biyolojik makromoleküllerin deneysel olarak belirlenmiş kristalografik verilerini (3 boyutlu yapılar) içeren bir veri tabanıdır (11). 1974 yılında Gund ve çalışma arkadaşları, üç boyutlu yapı arama için bir sistem tanımlamıştır. Bu çalışma, 3D yapı arama sistemlerinin daha da geliştirilmesi için bir temel oluşturmuştur. 1972 yılında Erni ve Clerc, 1H NMR, IR ve kütle spektrumlarının birleştirilmiş spektral veri tabanlarında arama yapılmasına olanak sağlayan ilk sistemi rapor etmişlerdir. 1973 yılında Kwok ve çalışma arkadaşları, kütle spektrumu aramalarından alt yapılar elde etmek için STIRS sistemini tanımlamıştır (12). 1979 yılında Dubois ve Bonnet, 13C NMR veri tabanı için DARC Pluridata sistemini açıkladılar (13). 1973 yılında Adamson ve Bush, iki kimyasal yapının benzerliğini ölçmek için ortak alt yapı (substructure) parçalarının sayısını kullanma olasılığını araştırmışlardır (14).

Daha sonra, bu yöntem 1985 yılında Carhart ve arkadaşları tarafından QSAR çalışmaları için ve 1986 yılında Willett ve arkadaşları tarafından veri tabanı aramaları için genişletilmiştir (15). 1980'lerde Willett’in ekibi, üç boyutlu kimyasal yapı dosyalarında farmakofor desen eşleştirme üzerine çalışmalarını rapor etti. Bu çalışmalar arasında atomlar arası mesafe taramaları (interatomic distance screens) seçimi (16), arama performansının değerlendirilmesi (17) ve geometrik arama algoritmalarının karşılaştırılması (18) yer almaktadır. 1987 yılında Brint ve Willett, üç boyutlu maksimum ortak alt yapıların tanımlanması için kullanılan çeşitli algoritmalar üzerine çalışmalarını yayımlamıştır.

1992 yılında Brown ve çalışma arkadaşları, alt yapı arama performansını geliştirmek amacıyla bir grup kimyasal yapıyı temsil etmek için hiper yapı modeli kullanma olasılığını araştıran çalışmalarını rapor ettiler (19). 1990'ların başında Artymiuk ve çalışma arkadaşları, graf-teorik teknikleri kullanarak üç boyutlu yapısal benzerlikleri inceleyen çalışmalar yayımladılar (20). Bu çalışmalar arasında 1992 yılında lösin aminopeptidaz ile karboksipeptidaz arasındaki ve 1993 yılında HIV ters transkriptazının ribonükleaz H ve bağlantı bölgeleri arasındaki yapısal benzerliklerin analizi yer almıştır (21). 1992'de Dalby ve arkadaşları, Molecular Design Limited (şimdiki adıyla Elsevier MDL) tarafından yıllar içinde kimyasal yapı bilgisini depolamak ve aktarmak için geliştirilen bir dizi kimyasal yapı dosya formatını tanımladılar (22). 1993 yılında Martin ve çalışma arkadaşları, Disco adlı ilk farmakofor haritalama sistemini tanımladılar (23). Aynı yıl Grindley, maksimum ortak alt grafik izomorfizmi algoritmasını kullanarak proteinlerin üçüncül yapısal benzerliklerini belirleme yöntemini duyurmuşlardır (24). 1997 yılında Allen ve Hoy, Cambridge Crystallographic Data Centre (CCDC) tarafından geliştirilen ilk bilgi tabanı kütüphanesi olan IsoStar’ı (25) açıkladılar. IsoStar, CSD (Cambridge Structural Database) ve Brookhaven Protein Data Bank (PDB) veri tabanlarından türetilmiş kapsamlı ve sistematik kovalent olmayan etkileşim bilgilerini, seçili etkileşim enerjileri ile birlikte içermekteydi. Bu enerjiler ab initio moleküler orbital yöntemleri ile hesaplanmıştır. IsoStar, rasyonel ilaç tasarımı ve kristal mühendisliği uygulamalarında kullanılabilmektedir.

2000'li yıllarda birçok ücretsiz veri tabanı kullanıma sunulmuştur. 2004 yılında NIH, PubChem adlı halka açık bir kimyasal yapı veri tabanını yayınladı (26). PubChem, küçük moleküllerin biyolojik aktivitelerine dair bilgi sağlar ve NIH'nin Molecular Libraries Roadmap Initiative girişiminin bir parçasıdır. 2005 yılında Irwin ve Shoichet, ZINC adlı bir veri tabanını duyurdular (27). Bu ücretsiz veri tabanı, moleküler yerleştirme (docking) programlarında kullanılmak üzere hazırlanmış 2.7 milyon ticari olarak temin edilebilir bileşik içermektedir. ZINC, ilaç keşfi için öncü bileşik arayan bilim insanları için önemli bir kaynak sağlamaktadır. Aynı yıl Girke ve çalışma arkadaşları, ChemMine adlı bir bileşik madenciliği (compound mining) veri tabanını tanımladılar (28). ChemMine, ilaç ve tarım kimyasalı keşfi ile kimyasal genomik taramaları kolaylaştırmayı amaçlamaktadır.

 

Kemoinformatikteki Temel Kavramlar

 

Kimyasal Bilgi Temsili: Kimyasal bileşiklerin bilgisayar ortamında anlaşılabilir bir biçimde ifade edilmesini sağlayan yöntemlerin genel adıdır. Bu temsiller; moleküllerin atomik yapısını, bağlarını, geometrik özelliklerini ve diğer kimyasal özelliklerini dijital formatlarda ifade etmektedir (29).

Moleküler Tanımlayıcılar (Descriptors): Bir molekülün kimyasal yapısını, özelliklerini ve davranışlarını sayısal veya sembolik bir biçimde özetleyen matematiksel göstergelerdir. Bu tanımlayıcılar, kimyasal yapı ile fizikokimyasal özellikler, biyolojik aktiviteler veya diğer moleküler özellikler arasındaki ilişkileri modellemek için kullanılır (30).

Kimyasal Veri Tabanları: Kimyasal bileşiklerin, biyomoleküllerin veya ilgili bilgilerin saklandığı, organize edildiği ve araştırmacılara sunulduğu dijital platformlardır. Bu veri tabanları; kimyasal yapıların, biyolojik aktivitelerin, fizikokimyasal özelliklerin ve diğer bilgilerin erişilebilir olmasını sağlamaktadır (31).

Kimyasal Uzay (Chemical Space): Mümkün olan tüm kimyasal bileşiklerin soyut bir temsilidir. Bu kavram, genellikle bir molekülün yapısının veya kimyasal bileşiğinin oluşturabileceği tüm potansiyel yapıların toplamını ifade etmektedir (32).

Kimyasal Çeşitlilik (Chemical Diversity): Kimyasal çeşitlilik kavramı, araştırmacıların yeni bileşikler keşfederken hedefledikleri bir özelliktir. Özellikle ilaç tasarımında, geniş çeşitlilikteki bileşikler, yeni biyolojik hedeflere etki gösterebilecek potansiyel ilaç adayları için değerli olabilir. Bu çeşitlilik, daha fazla keşif fırsatı ve potansiyel tedavi yöntemleri sunmaktadır (33).

Kimyasal Benzerlik (Chemical Similarity): İki veya daha fazla molekülün yapısal veya fizikokimyasal özellikler açısından birbirine ne kadar benzediğini ölçmektedir. Tanimoto katsayısı gibi matematiksel metriklerle hesaplanmaktadır (34).

Kimyasal Fragmanlar (Chemical Fragments): Moleküllerin daha küçük, yapısal olarak anlamlı parçalarına ayrılmasıdır (35).

ADMET Özellikleri: Bir molekülün farmasötik potansiyelini değerlendiren parametrelerdir. Buradaki A absorption (emilim), D distribution (vücuttaki dağılım), M metabolism (metabolizma), E elimination/excretion (atılım) ve T toxicity (toksisite) anlamına gelmektedir (36).

Farmakofor (Pharmacophore): Bir molekülün biyolojik hedefi ile etkileşimini sağlayan özellikler kümesidir (37).

QSAR/QSPR (Quantitative Structure-Activity/Property Relationships): QSAR ve QSPR, bir molekülün kimyasal yapısı ile biyolojik aktivitesi veya fizikokimyasal özellikleri arasındaki matematiksel ilişkileri inceleyen yöntemlerdir (38).


REFERANSLAR

1. Chemoinformatics:  Past, Present, and Future, by William Lingran Chen. Journal of Chemical Information and Modeling 2006 46 (6), 2230-2255. https://doi.org/10.1021/ci060016u  

2. King, G. W.; Cross, P. C.; Thomas, G. B. The Asymmetric Rotor. III. Punched-Card Methods of Constructing Band Spectra. J. Chem. Phys. 1946, 14, 35-42. https://doi.org/10.1063/1.1724059

3. Zemany, P. D. Punched Card Catalog of Mass Spectra Useful in Qualitative Analysis. Anal. Chem. 1950, 22, 920-922. https://doi.org/10.1021/ac60043a021 

4. Kuentzel, L. E. New Codes for Hollerith-Type Punched Cards. Anal. Chem. 1951, 23, 1413-1418. https://doi.org/10.1021/ac60058a016 

5. Ray, L. C.; Kirsch, R. A. Finding Chemical Records by Digital Computers. Science 1957, 126, 814-819. https://doi.org/10.1126/science.126.3278.814 

6. Opler, A.; Baird, N. Display of Chemical Structural Formulas as Digital Computer Output. Am. Doc. 1959, 10, 59-63.

7. Sparks, R. A. Storage and RetrieVal of Wyandotte-ASTM Infrared Spectral Data Using an IBM 1401 Computer; ASTM: Philadelphia, PA, 1964.

8. Heller, S. R. Mass Spectrometry Databases and Search Systems. In Computer-Supported Spectroscopic Databases; Zupan, J., Ed.; Ellis Horwood Limited: New York, 1986; Chapter 6, pp 118-132.

9. Allen, F. H.; Hoy, V. J. Cambridge Structural Database. In The Encyclopedia of Computational Chemistry; Schleyer, P. v. R., Allinger, N. L., Clark, T., Gasteiger, J., Kollman, P. A., Schaefer, H. F., Schreiner, P. R., Eds.; J. Wiley & Sons: Chichester, 1998; pp 155-167.

10. Lederberg, J. Topological Mapping of Organic Molecules. Proc. Natl. Acad. Sci. U.S.A. 1965, 53, 134-139. https://doi.org/10.1073/pnas.53.1.134

11. Sussman, J. L., Lin, D., Jiang, J., Manning, N. O., Prilusky, J., Ritter, O., & Abola, E. E. (1998). Protein Data Bank (PDB): database of three-dimensional structural information of biological macromolecules. Acta crystallographica. Section D, Biological crystallography, 54(Pt 6 Pt 1), 1078–1084. https://doi.org/10.1107/s0907444998009378 

12. Kwok, K.-S.; Venkataraghavan, R.; McLafferty, F. W. ComputerAided Interpretation of Mass Spectra. III. Self-Training Interpretive and Retrieval System. J. Am. Chem. Soc. 1973, 95, 4185-4194. https://doi.org/10.1021/ja00794a014 

13. Dubois, J. E.; Bonnet, J. C. The DARC Pluridata System: The 13C NMR Data Bank. Anal. Chim. Acta 1979, 112, 245-252. https://doi.org/10.1016/S0003-2670(01)83553-4

14. Adamson, G. W.; Bush, J. A. A Method for the Automatic Classification of Chemical Structures. Inf. Storage RetrieV. 1973, 9, 561-568. https://doi.org/10.1016/0020-0271(73)90059-4

15. Carhart, R. E.; Smith, D. H.; Venkataraghavan, R. Atom Pairs as Molecular Features in Structure-Activity Studies: Definition and Applications. J. Chem. Inf. Comput. Sci. 1985, 25, 64-73. https://doi.org/10.1021/ci00046a002 

16. Jakes, S. E.; Willett, P. Pharmacophoric Pattern Matching in Files of Three-Dimensional Chemical Structures. Selection of Interatomic Distance Screens. J. Mol. Graphics 1986, 4, 12-20. https://doi.org/10.1016/0263-7855(86)80088-1

17. Jakes, S. E.; Watts, N.; Willett, P.; Barden, D.; Fisher, J. D. Pharmacophoric Pattern Matching in Files of 3D Chemical Structures: Evaluation of Search Performance. J. Mol. Graphics 1987, 5, 41-48. https://doi.org/10.1016/0263-7855(87)80044-9

18. Brint, A. T.; Willett, P. Pharmacophoric Pattern Matching in Files of Three-Dimensional Chemical Structures: Comparison of Geometric Searching Algorithms. J. Mol. Graphics. 1987, 5, 49-56. https://doi.org/10.1016/0263-7855(87)80045-0

19. Brown, R. D.; Downs, G. M., Willett, P.; Cook, A. P. F. A Hyperstructure Model for Chemical Structure Handling: Generation and Atom-by-atom Searching of Hyperstructures. J. Chem. Inf. Comput. Sci. 1992, 32, 522-531. https://doi.org/10.1021/ci00009a020 

20. Artymiuk, P. J., Grindley, H. M., Park, J. E., Rice, D. W., & Willett, P. (1992). Three-dimensional structural resemblance between leucine aminopeptidase and carboxypeptidase A revealed by graph-theoretical techniques. FEBS letters303(1), 48–52. https://doi.org/10.1016/0014-5793(92)80475-v 

21. Artymiuk, P. J., Grindley, H. M., Kumar, K., Rice, D. W., & Willett, P. (1993). Three-dimensional structural resemblance between the ribonuclease H and connection domains of HIV reverse transcriptase and the ATPase fold revealed using graph theoretical techniques. FEBS letters324(1), 15–21. https://doi.org/10.1016/0014-5793(93)81523-3 

22. Dalby, A.; Nourse, J. G.; Hounshell, W. D.; Gushurst, A. K. I.; Grier, D. L.; Leland, B. A.; Laufer, J. Description of Several Chemical Structure File Formats Used by Computer Programs Developed at Molecular Design Limited. J. Chem. Inf. Comput. Sci. 1992, 32, 244-255. https://doi.org/10.1021/ci00007a012 

23. Martin, Y. C., Bures, M. G., Danaher, E. A., DeLazzer, J., Lico, I., & Pavlik, P. A. (1993). A fast new approach to pharmacophore mapping and its application to dopaminergic and benzodiazepine agonists. Journal of computer-aided molecular design7(1), 83–102. https://doi.org/10.1007/BF00141577 

24. Grindley, H. M., Artymiuk, P. J., Rice, D. W., & Willett, P. (1993). Identification of tertiary structure resemblance in proteins using a maximal common subgraph isomorphism algorithm. Journal of molecular biology229(3), 707–721. https://doi.org/10.1006/jmbi.1993.1074 

25. Allen, F. H.; Hoy, V. J. Cambridge Structure Database. In The Encyclopedia of Computational Chemistry; Schleyer, P. v. R., Allinger, N. L., Clark, T., Gasteiger, J., Kollman, P. A., Schaefer, H. F., Schreiner, P. R., Eds.; J. Wiley & Sons: Chichester, 1998; pp 155-167.

26. Bolton,E.E., Wang,Y., Thiessen,P.A. and Bryant,S.H. (2008) PubChem: integrated platform of small molecules and biological activities. In: Wheeler,RA and Spellmeyer,DC (eds). Annual Reports in Computational Chemistry. Elsevier, Amsterdam, Vol. 4 , pp. 217–241. https://doi.org/10.1016/S1574-1400(08)00012-1

27. Irwin, J. J., & Shoichet, B. K. (2005). ZINC--a free database of commercially available compounds for virtual screening. Journal of chemical information and modeling45(1), 177–182. https://doi.org/10.1021/ci049714+

28. Girke, T., Cheng, L. C., & Raikhel, N. (2005). ChemMine. A compound mining database for chemical genomics. Plant physiology138(2), 573–577. https://doi.org/10.1104/pp.105.062687 

29. Warr, W. A. (2011). Representation of chemical structures. Wiley Interdisciplinary Reviews: Computational Molecular Science, 1(4), 557-579. https://doi.org/10.1002/wcms.36 

30. Consonni, V., & Todeschini, R. (2010). Molecular descriptors. Recent advances in QSAR studies: methods and applications, 29-102. https://doi.org/10.1007/978-1-4020-9783-6_3 

31. Wishart D. S. (2007). Introduction to cheminformatics. Current protocols in bioinformaticsChapter 14, . https://doi.org/10.1002/0471250953.bi1401s18 

32. Reymond, J. L., Van Deursen, R., Blum, L. C., & Ruddigkeit, L. (2010). Chemical space as a source for new drugs. MedChemComm, 1(1), 30-38. https://doi.org/10.1039/C0MD00020E 

33. Pearlman, R. S., & Smith, K. M. (2002). Novel software tools for chemical diversity. In 3D QSAR in Drug Design: Ligand-Protein Interactions and Molecular Similarity (pp. 339-353). Dordrecht: Springer Netherlands. https://doi.org/10.1007/0-306-46857-3_18 

34. Willett, P., Barnard, J. M., & Downs, G. M. (1998). Chemical similarity searching. Journal of chemical information and computer sciences38(6), 983-996. https://doi.org/10.1021/ci9800211 

35. Chakravarti S. K. (2018). Distributed Representation of Chemical Fragments. ACS omega3(3), 2825–2836. https://doi.org/10.1021/acsomega.7b02045 

36. Norinder, U., & Bergström, C. A. (2006). Prediction of ADMET Properties. ChemMedChem1(9), 920–937. https://doi.org/10.1002/cmdc.200600155 

37. Yang S. Y. (2010). Pharmacophore modeling and applications in drug discovery: challenges and recent advances. Drug discovery today15(11-12), 444–450. https://doi.org/10.1016/j.drudis.2010.03.013 

38. Liu, P., & Long, W. (2009). Current mathematical methods used in QSAR/QSPR studies. International journal of molecular sciences10(5), 1978–1998. https://doi.org/10.3390/ijms10051978

Comments

Rated 0 out of 5 stars.
No ratings yet

Add a rating
bottom of page