Kimyasal Yapıların Kodları: SMILES, InChI ve SMARTS
- Emre Can Buluz
- 31 May
- 5 dakikada okunur
Güncelleme tarihi: 10 Haz
Kimyasal bileşiklerin dijital ortamda tanımlanması, modern kimya, biyoinformatik ve ilaç keşfi çalışmalarının temel taşlarından biridir. Bu amaçla geliştirilen SMILES (Simplified Molecular Input Line Entry System), InChI (International Chemical Identifier) ve diğer moleküler tanımlayıcı sistemler, moleküllerin yapısal bilgilerini metin formatında ifade etmeye olanak tanımaktadır. Bu sistemler sayesinde bileşikler veri tabanlarında aranabilir, karşılaştırılabilir ve yazılımlar aracılığıyla analiz edilebilir hale gelir.
SMILES Gösterimi
SMILES (1) gösteriminde atomlar, atomik sembolleriyle temsil edilir. Alifatik atomlar büyük harflerle, aromatik atomlar ise küçük harflerle yazılır. SMILES, hidrojenleri bastırılmış (hydrogen-suppressed) bir gösterim olduğu için hidrojen atomları genellikle açıkça gösterilmez. Çift bağlar “=” ile, üçlü bağlar ise “#” ile yazılır; tekli ve aromatik bağlar genellikle herhangi bir sembolle belirtilmez (bifenil gibi aromatik olmayan tekli bağlar gibi özel durumlar dışında; bu durumda “−” sembolü kullanılır). Bir SMILES dizisi oluşturmak için kimyasal yapının içinde tüm atomların sadece bir kez ziyaret edileceği şekilde “yürünmesi” gerekmektedir. En basit SMILES muhtemelen metan için olanıdır: C. Burada bağlı olan dört hidrojenin tamamının ima edildiğine dikkat edilmelidir. Etan CC, propan CCC ve 2-metilpropan CC(C)C şeklindedir (dallanma noktasına dikkat edilmeli). Siklohekzan, halka kapanış tamsayılarının kullanımını gösterir; SMILES gösterimi C1CCCCC1 şeklindedir. Benzen ise c1ccccc1 olarak yazılır (aromatik atomları belirtmek için küçük harf kullanıldığına dikkat edin). Asetik asit CC(=O)O şeklinde gösterilir (2).
Kiralite ve geometrik izomerlik hakkında bilgiler de SMILES gösteriminde belirtilebilir. Kiral atomlardaki stereokimya “@” sembolü kullanılarak gösterilebilir. Örnek olarak, alaninin iki stereoizomeri NC@HC(=O)O ve NC@@HC(=O)O şeklinde yazılır. Bu örnekte, kiral karbon üzerindeki hidrojen atomunun, kiral merkezin tanımlanmasında özellikle belirtildiğine dikkat edilmelidir. Çift bağlar etrafındaki geometrik izomerlik (E/Z ya da cis-trans izomerliği) eğik çizgiler kullanılarak gösterilir. Örneğin, trans-büten SMILES olarak C/C=C/C, cis-büten ise C/C=C\C şeklinde yazılır.

InChI Gösterimi
IUPAC Kimyasal Tanımlayıcı Projesi’nin (IChIP) amacı, kimyasal maddeler için benzersiz bir etiket olan IUPAC Uluslararası Kimyasal Tanımlayıcı (InChI)’yı oluşturmak idi. Bu tanımlayıcı, kimyasal maddeler için ticari olmayan bir tanımlayıcı olacak ve basılı ya da elektronik veri kaynaklarında kullanılabilmektedir. Böylece farklı veri derlemeleri arasında daha kolay bağlantı kurulmasını ve kimyasal maddelerin açık ve kesin bir şekilde tanımlanmasını sağlamaktadır. InChI, bileşik kimliğiyle ilgili tüm mevcut yapı bilgisini temsil etmek için katmanlı bir format kullanır. InChI temsilindeki her katman, belirli bir yapı bilgisini içermektedir. Bu katmanlar, girdi yapısındaki otomatik olarak çıkarılan verilerden oluşturulur ve her bir sonraki katman, tanımlayıcıya ek detay ekleyecek şekilde tasarlanmıştır. Oluşturulan belirli katmanlar, mevcut yapı detay seviyesine ve tautomerizme izin verilip verilmediğine bağlıdır. Bir InChI'nin ardışık katmanları şu şekilde karakterize edilir (3):
1. Formül
2. Bağlantı (resmi bağ sıralamaları yok)
a. Bağımsız metaller
b. Bağlantılı metaller
3. İzotoplar
4. Stereokimya
a. Çift bağ
b. Tetrahedral
5. Tautomerler (açık veya kapalı)
InChI gösteriminin bir örneği Şekil 2.'de verilmiştir. InChI dizelerinin bilgisayarlar tarafından kullanılmak üzere tasarlandığını ve nihai kullanıcıların bu detayları anlamalarının gerekmediğini unutmamak önemlidir. InChI'yi barkodlar gibi düşünmek gerekir. Aslında, InChI'nin açık yapısı ve temsilindeki esneklik, yazılım sistemlerine entegre edildikten sonra bilim insanlarının, bilgisayarlar tarafından yapı temsili detayları konusunda daha az endişelenmelerini sağlayabilir. InChI dizisindeki katmanlar, slash (/) ve ardından küçük harf ile ayrılır (ilk katman olan kimyasal formül hariç), katmanlar ise önceden belirlenmiş bir sırayla düzenlenmektedir (3).
Guanin için InChI sürüm numarası;
/kimyasal formül
/c bağlantı-1.1 (son H hariç)
/h bağlantı-1.2 (son H'nın konumları, dahil olan hareketli H ekleme noktaları)
/q yük
/p proton dengesi
/t tetrahedral paritesi
/m parite tersine çevrildi, relatif stereo elde etmek için
(1 = tersine çevrilmiş, 0 = tersine çevrilmemiş)
/s stereo türü (1 = mutlak, 2 = relatif, 3 = rasemik)
/f sabit-H yapısının kimyasal formülü, eğer farklıysa
/h bağlantı-2 (sabit hareketli H'nın konumları)

InChI'nin en önemli uygulamalarından biri, kimyasal bir maddenin internet tabanlı arama motorları kullanılarak bulunabilmesidir. Bu, InChIKey kullanılarak daha da kolaylaştırılmaktadır. InChIKey, sıkıştırılmış olduğu için orijinal yapıya geri dönüştürülemeyen 27 karakterlik bir temsildir ancak bazı arama motorları tarafından daha uzun karakter dizilerinin istenmeyen ve öngörülemeyen şekilde kırılmasına karşı korunur. InChIKey'in bir arama aracı olarak kullanışlılığı, eğer bir ‘standart’ InChI’den türetilmişse yani tautomerizm ve stereokimya gibi özellikler için standart seçenek ayarlarıyla üretilmişse daha da artırılmaktadır (3).
SMARTS Gösterimi
1980'lerin sonlarında Daylight Information Systems tarafından icat edilen SMARTS dili, kimyasal gösterimlerin tanımlanması için neredeyse standart bir dil haline gelmiştir. Tam olmasa da SMARTS çok özellikli olup kimyagerlerin akıllarında olan yapısal bir deseni tam olarak belirlemelerine olanak sağlamaktadır (4). SMILES dilinde atomlar ve bağlar olmak üzere iki temel sembol türü vardır. Bu SMILES sembolleri kullanılarak bir molekülün grafiği (düğümler ve kenarlar) tanımlanabilir ve grafiğin bileşenlerine etiketler atanabilir (yani her düğümün hangi atom türünü, her kenarın ise hangi bağ türünü temsil ettiği belirtilir). SMARTS’ta da durum benzerdir: Atomik ve bağ sembolleri kullanılarak bir grafik tanımlanır. Ancak SMARTS’ta bu düğüm (atom) ve kenar (bağ) etiketleri, mantıksal operatörler ve özel atomik/bağ sembolleri ile genişletilmiştir; bu sayede SMARTS atomları ve bağları daha genel tanımlamalar yapılmasına olanak tanımaktadır. Örneğin, [C,N] ifadesi alifatik bir karbon veya alifatik bir azot atomunu temsil eder; ~ (tilde) sembolü ise herhangi bir bağ türüyle eşleşir (5). SMARTS gösteriminde atomlar köşeli parantezle ([]) belirtilir. Örneğin: [C]: Karbon atomu, [N+]: Pozitif yüklü azot, [O-]: Negatif yüklü oksijen, [c]: Aromatik karbon. Bağlar ise - tek bağ , = çift bağ, # üçlü bağ, : aromatik bağ, ~ herhangi bir bağ ve @ kiral merkez olarak belirtilir. SMARTS örnekleri olarak; [OH] Hidroksil grubu, [NX3;H2] Primer amin (3 değerli azot, 2 H bağlı), [#6]~[#8] Karbon ile oksijen arasında herhangi bir bağ, [c][nH] Aromatik karbonla bağlanmış aromatik azot, [C;!R] Halkada olmayan karbon verilebilir.


Moleküler tanımlayıcılar, kimyasal bilgi çağının en temel yapı taşlarından biridir. SMILES’in pratikliği, InChI’nin standartlaştırılmış yapısı ve SMARTS’ın esnek arama gücü gibi her bir sistem, moleküllerin dijital dünyada etkin bir şekilde temsil edilmesini ve analiz edilmesini sağlar. Bu tanımlayıcılar sayesinde kimyasal veriler daha erişilebilir, karşılaştırılabilir ve yeniden üretilebilir hale gelir. Gelişen yazılım ve veri bilimi teknolojileriyle birlikte, bu sistemlerin önemi her geçen gün daha da artmakta; hesaplamalı kimya, ilaç tasarımı ve yapay zeka destekli molekül keşfi gibi alanlarda merkezi roller üstlenmektedir. Dolayısıyla, bu tanımlayıcıların mantığını ve kullanım alanlarını anlamak, modern kimya ile çalışan herkes için vazgeçilmez bir beceri haline gelmiştir.
Referanslar
1. Weininger D, A Weininger and J L Weininger (1989). SMILES. 2. Algorithm for Generation of Unique SMILES Notation. Journal of Chemical Information and Computer Sciences 29:97–101.
2. Andrew R. Leach, V.J. Gillet. (2003). An Introduction to Chemoinformatics. Springer Science & Business Media.
3. Heller, S., McNaught, A., Stein, S., Tchekhovskoi, D., & Pletnev, I. (2013). InChI - the worldwide chemical structure identifier standard. Journal of cheminformatics, 5(1), 7. https://doi.org/10.1186/1758-2946-5-7
4. Ehrt, C., Krause, B., Schmidt, R., Ehmki, E. S. R., & Rarey, M. (2020). SMARTS.plus - A Toolbox for Chemical Pattern Design. Molecular informatics, 39(12), e2000216. https://doi.org/10.1002/minf.202000216
5. James C A, D Weininger and J Delany (2002). Daylight Theory Manual. Also at http://www.daylight.com/dayhtml/doc/theory/theory.toc.html.
6. Mellor, C. L., Steinmetz, F. P., & Cronin, M. T. (2016). Using Molecular Initiating Events to Develop a Structural Alert Based Screening Workflow for Nuclear Receptor Ligands Associated with Hepatic Steatosis. Chemical research in toxicology, 29(2), 203–212. https://doi.org/10.1021/acs.chemrestox.5b00480
Comments