03.05.2012 Nezahat Karahan DNA, RNA veya Protein dizilerinin düzenlenerek benzer bölgelerinin tespit edilmesidir. Biyoinformatikte birçok inceleme, iki ya da daha çok sayıda DNA veya protein dizisinin karşılaştırılmasına d DNA t i di i i i k l t l dayanmaktadır. DNA: nükleotidlerin uzun bir dizisi Protein: aminoasitlerin uzun bir dizisi Dizi karşılaştırmasının temelinde dizi hizalama kavramı yatmaktadır. Örneğin elimizde ACGCTTTGGCATAA ve ACCGGCTTCGGCCAA gibi iki dizi parçası olsun; bu dizileri Karşılaştırması yapılan dizilerin benzerliğini ölçmek, türlerin karşılaştırılması, gen ailelerinin belirlenmesi ve akrabalık derecelerinin tespiti, ortak ata yönünden k b l k d l i i i i k ö ü d inceleme AC –GCTTTGGCATAA ACCGGCTTCGGCCAA veya AC –GCTTT– GGCATAA ACCGGCTTCGGCCAA‐ veya AC – –GC TTTGGCATAA ACC GGCTTCGGCC –AA Şeklinde hizalayabiliriz. Bir DNA dizi parçası nesilden nesile geçerken bazı durumlarda değişikliklere (mutasyonlara) uğramaktadır. En basit mutasyonlar dizi parçasındaki bir nükleotidin yerine başka bir nükleotidin gelmesi (substitution), dizi parçasından bir nükleotidin silinmesi (deletion) veya di i parçasına nükleotid dizi ükl id girmesidir i idi (insertion). (i i ) Fonksiyon tahmini Veritabanı arama Gen bulma Yapılan karşılaştırmalarda insersiyon (insertion) veya delesyon (deletion) olayını anlatmak için “indel” denen “‐“ işareti kullanılmaktadır. Bir tane veya yanyana olan çizgilere (insersiyonlara, delesyonlara) gedik (gap) denir. 1 03.05.2012 Homoloji: Homolog iki gen, yüksek seviyede dizilim Orthologous Genler: ortak bir atadan geldikleri benzerliğine ve özdeşliğine sahiptirler, bu paylaşım ile dizilimler aynı soydan geldikleri hipotezini de desteklemektedirler. desteklemektedirler Dizilim homolojisi aynı zamanda ortak işlev göstergesi de olabilmektedir. düşünülen, benzer bir fonksiyonu olabilen, farklı türlere ait homolog diziler. Paralogous P l G l A tü i i d Genler: Aynı tür içinde gen duplikasyonu d lik sonucu oluşmuş homolog diziler. Protein Domains: Bir proteinin bağımsız olarak katlanabildiği ve çalışılabildiği kabul edilen parçası. İki dizi parçası tüm olarak (global) veya bazı kısımları yerel (local) olarak hizalanabilir. Hizalamanın gediksiz (ungapped) yapılması istenebilir veya gediklere müsaade edilebilir. İki dizi parçasının veya ikiden çok dizi parçasının İki di i ikid k di i hizalanması söz konusu olabilir. DNA dizileri veya protein dizilerinin hizalanması söz konusu olabilir. Dizi hizalamasındaki mantık DNA veya protein dizisi açısından fark etmemektedir. hizalamalarda her dizideki her harfin hizalanması amaçlanır. Sorgu kümesindeki diziler birbirine benzer ve yaklaşık aynı uzunlukta olursa global hizalamalar en yararlı olur Benzer kısa dizi motiflerinin tespitinde lokal hizalamalar kullanılır Dizi hizalaması için kullanılan hesaplamalı yöntemler genelde iki gruba ayrılır: global optimizasyon ve yerel optimizasyon. Global hizalamanın bulunması bir global optimizasyon çeşididir ve elde edilecek hizalamanın, sorgulanan dizilerin tamamını kapsamaya "zorlar". k " l " Buna karşın, yerel hizalamalar genelde birbirinden çok farklılık gösteren uzun dizilerde benzer bölgeleri tespit eder. Çoğu zaman yerel hizalamalar tercih edilir ama bunların bulunması daha zor olabilir. Global İkili hizalama yöntemleri, iki sorgu dizisinin birbiriyle en iyi uyuşan parçalarının (lokal veya global) hizalamasını bulmakta kullanılır. !! Eğer diziler yeterince birbirine benziyorsa lokal ve global hizalama sonuçları arasında bir fark olmaz. 2 03.05.2012 Nokta Matris Yöntemleri Dinamik Programlama Sözcük Yöntemleri Çoklu dizi hizalaması ikiden daha fazla dizi içermesiyle ikili hizalamanın bir uzantısı sayılır. Çoklu dizileme yöntemleri sorgu kümesindeki tüm dizileri hizalamaya çalışır. Çoklu hizalamalar çoğu zaman birbiriyle evrimsel ilişkisi olduğu hipotez edilen bir grup dizideki korunmuş bölgeleri tespit etmek için kullanılır. Bu tür hizalamalar ayrıca filogenetik ağaç inşa ederek evrimsel bir ili ki i ortaya koymak ilişkiyi k k için i i kullanılır. k ll l Böylesi Bö l i korunmuş k di il diziler, yapısal ve mekanistik bilgilerle beraber kullanılarak enzimlerin katalitik aktif bölgesinin yerini bulmaya yarar. Çoklu dizi hizalamaların üretimi bakımdan zordur ve bu problemin çoğu formülasyonu NP‐tam kombinatoryal optimizasyon problemlerine dönüşür. Buna rağmen, bu hizalamaların biyoinformatikteki faydaları nedeniyle 3 veya daha fazla dizinin hizalanmasını sağlıyan çeşitli yöntemler geliştirilmiştir. Elde edilen çoklu dizi hizalamasından homoloji olduğu çıkarımı yapılabilir ve filogenetik analiz ile dizilerin evrimsel kökenleri değerlendirilebilir. Hizalamanın sağdaki resimdeki gibi gösterimiyle noktasal mutasyonlar, hizalamadaki sütunlardan birinde farklı bir harf ve delesyonlar ise bi h f olarak, l k ensersiyon i d l l i hizalamadaki satırlardan bir veya daha fazlasında tire şeklinde beliren eklemeler şeklinde mutasyon olayları görülebilir. Protein bölgelerinde, ikincil veya üçüncül yapılarda ve hatta bireysel amino asit veya nükleotitlerin dizi korunumunu değerlendirmek için çoklu dizi hizalamaları sıkça kullanılır. Milyonlarca nükleotidin depolanması ve organizasyonu için veri tabanlarının oluşturulması, araştırıcıların bu bilgilere ulaşabilmeleri ve yeni veriler girebilmeleri için ilk aşamadır. Gen bankası (GenBank), Avrupa Moleküler Biyoloji Laboratuvarı (EMBL) DNA Japonya veri tabanıdır (DDBJ) 3 03.05.2012 Bunlardan birincisi; yazarlar/diziyi veritabanına ilk işleyenler, kaynak gösterimleri, biyolojik atıflar ve dizinin kendisiyle; intronlar, eksonlar, başlangıç ve bitiş kodonları vb bilgiyi içeren bir tablodan oluşan tam bilgi formatıdır. İkincisi ise; hızlı benzerlik araştırmaları için kullanılan ve sadece diziyi içeren FASTA formatıdır. Accession (ulaşma) numaraları, herbir diziyi belirleyen özgün kimliklerdir ve dizi veritabanına ilk kez girildiğinde verilir. Accession number (GenBank): Bir dizi GenBank’a kaydedildiği zaman bu kayıt için verilen yada kayda özel kimlik numarasıdır. Bir büyük harf ve ardından gelen 5 rakam veya 2 büyük harf ve 6 rakamdan oluşur. Accession number (RefSeq): Bütün bir RefSeq dizisine atanmış kimlik numarasıdır. Sırasıyla iki büyük harf, bir alt çizgi (_) ve 6 rakamdan oluşur (NT_123456). * NT_123456 birleştirilmiş kontigler * NM_123456 mRNA’lar (mRNA’dan oluşturulmuş cDNA’lar) * NP_123456 proteinler * NC_123456 kromozomlar NCBI Alt Veri Tabanları PubMed PubMed, NCBI bunyesinde bulunan, yaklasık 20 milyon atıflık biyomedikal literaturubarındıran, NCBI’ın makale, kitap vb. ile ilgili bilgileri barındırdığı alt veri tabanıdır. y g g, PubMedlinkinden,, anahtar kelimeye gore bilimsel dergi, makale, kitap vb.aramalar yapılabilmektedir. Dahası, NCBI da yapılan ozgun aramalarda ve cıkan sonuclarda NCBI, PubMed linkineerisim sağlayan bağlantıları sunmaktadır. Ornek vermemiz gerekirse, NCBI bunyesinde gen arama islemi yapılırken, NCBI’ın sağladığı bağlantılarla, kolay bir sekilde ilgili gen ile ilgiliyayınlara ulasılması mumkundur. OMIM (Online Mendelian Inheritance in Man) OMIM bilinen insan genleri ve bu genlerin ilişkilendirildiği hastalık fenotip bilgisini barındıran NCBI alt lt verii tabanıdır. t b d S kl kl güncellenmektedir. Sıklıkla ü ll kt di İnsan genleri ve bu genlerin ilişkilendirildiği hastalıklar, hastalıkların özellikleri ve bu hastalıkların moleküler mekanizmaları ile ilgili birçok özet bilgiyi ve ilgili referansları barındırır. Nucleotide (Nukleotit Veri Tabanı) Nükleotid veri tabanı GenBank, Refseq, TPA ve PDB gibi çeşitli kaynaklardan toplanmış ve düzenlenmiş, DNA ve RNA dizi bilgilerini barındıran veri tabanıdır. Bu amaçla genom, gen, transkript dizi bilgisini barındırır. GSS Bolumu(Genome Survey Sequence) Bu bolümde barındırılan diziler, EST’lere benzemektedir. GSS dizileri, karakterize edilmemiş, kısa parçalar halinde olan, genomik dil i k l h li d l ik DNA parçalarının dizi bilgilerini DNA l di i bil il i i belirtmektedir. Protein İlgili gen ürünlerinin, ifade ettiği proteinlerin dizi bilgisini belirten bolumdur. Unigene Unigene bolumu, ilgili genlerin ve ifade edilen psueodogenlerin (yalancı genler) ürünlerini, ifade edildikleri gen ismi altında toplayan bolumdur. 4 03.05.2012 RefSeq Veri tabanlarında birçok dizi birden fazla kezbelirtilmiş ve gösterilmiştir. Sekans bilgileri için gereksiz fazlalığı olan gösterimleri engellemek ve bu belirtimleri düzenlemek icin NCBI, RefSeq ikincil alt veri tabanını oluşturmuştur. Bu amaçla RefSeq bolumu, genomik DNA, RNA ve protein dizi bilgileri için, geniş kapsamlı, düzenlenmiş ve gerekli olan sekans bilgilerini tekrar duzenlemistir. Bir baska deyisle, Refseq bolumu, her bir DNA, RNA ve protein dizisi için doğruluğu kanıtlanmış ve kabul edilmiş sekans bilgilerini içerir. BLAST uygulaması sorgulatılmak istenen protein veya nükleik asit dizisini, benzerlik kıstaslarına ve kendi içinde barındırdığı algoritmaya göre, veri tabanı içinde arayan bir dizi karşılaştırma programıdır. BLAST, sorgulatılan diziyi veri tabanı içindeki diğer dizilerle karşılaştırabildiği gibi kullanıcı tanımlı dizileri ikili olarak da karşılaştırabilmektedir. Bu yazılım verilen bir nükleotid ve protein dizisini kullanarak ilgili veri tabanlarını tarar ve olası homolog genleri bulurlar 5 03.05.2012 BLAST arama sonuçlarının karşılaştırılmasında önemli olan bazı parametreler vardır. Bu parametrelere ve bu parametreler arasındaki ilişki incelenerek, sonuçların güvenirliliği veya sorulan bilimsel soruya göre, göre arama sonuçlarını seçmek mümkündür. BLAST arama sonuçlarının karşılaştırılmasında kullanılan değişkenler; Global hizalama yapan Needleman‐Wunsch algoritması ile yerel hizalama yapan Smith‐Waterman algoritması gibi yöntemler iki proteinin benzerlik skorunun hesaplanmasında kullanılmaktadır. kullanılmaktadır İkisi de dinamik programlama temeline dayanmaktadır. Bu tip yöntemlerin anahtar parçası skor matrisi adı verilen matrislerdir. • Maksimum Skor (Maximum Score) • Toplam Skor (Total Score) • Sorgulama Kapsamı (Query Coverage) • E‐Değeri (E‐Value) • Maksimum Benzerlik (Maximum Identity) Tipik kullanımda, protein hizalamalarında amino asit uyuşma veya uyuşmamalarına bir skor verebilmek için bir substitusyon matrisi; bir dizideki amino asitin öbür dizide bir boşlukla eşleştirilmesi için de bir boşluk ceza değeri kullanılır. DNA ve RNA hizalamaları için de bir skor matrisi k ll kullanabilir bili ama pratikte ik basitçe b i pozitif i if bir bi uyuşma skoru, k negatif bir uyuşmama skoru ve negatif bir boşluk cezası verilir. Dinamik programlama yöntemi belli bir skorlama fonksiyonu için optimal hizalamayı bulmayı garantiler. Dinamik programlara ikiden çok diziye de genelleyebilirse de, çok sayıda dizi veya çok uzun dizilerde kullanılamayacak derecede yavaş çalışır. 6 03.05.2012 3 adımda gerçekleşir ; Match Score = +1 Mismatch Score = ‐1 Initialization Gap penalty = ‐1 Scoring Substitution Matrix S b tit ti M t i Trace back (Alignment) Create a matrix with X +1 Rows and Y +1 Columns Final Scoring Matrix The 1st row and the 1st column of the score matrix are filled as multiple of gap penalty Final Trace back T C G 0 ‐1 ‐2 ‐3 A ‐1 ‐1 ‐2 ‐3 Initialization T ‐2 0 ‐1 ‐2 Scoring C ‐3 ‐1 1 0 Trace back (Alignment) G ‐4 ‐2 0 2 Best Alignment: A T C G | | | | _ T C G 7 03.05.2012 Example: Match Score = +1 The calculation for the cell C(2, 2): scorediag = C(i‐1, j‐1) + S(I, j) = 0 + ‐1 = ‐1 scoreup C(i 1, j) + g 0 + 1 1 scoreup = C(i‐1, j) + g = 0 + ‐1 = ‐1 scoreleft = C(i, j‐1) + g = 0 + ‐1 = ‐1 Mismatch Score = ‐1 Gap penalty = ‐1 Substitution Matrix S b tit ti M t i A C G T A 1 ‐1 ‐1 ‐1 C ‐1 1 ‐1 ‐1 T C G 0 0 0 0 A 0 0 G G ‐1 ‐1 1 ‐1 T 0 T ‐1 ‐1 ‐1 1 C 0 G 0 Final Trace back Final Scoring Matrix T C G 0 0 0 0 A 0 0 0 0 A T C 0 0 0 0 0 0 0 0 0 T 0 1 0 0 T 0 1 0 C 0 0 2 1 C 0 0 2 1 G 0 0 1 3 G 0 0 1 3 Note: It is not mandatory that the last cell has the maximum alignment score! Best Alignment: T C G | | | T C G 8 03.05.2012 Nuran Şahin – Biyoloji Öğretmeni (tanımlar) Kitaplar : ‐ Genetik S. Yüce, G. Bilgen, İ. Demir ‐ Bioinformatics Bi i f i Genes, Proteins G P i & Computers C C.A. Orengo, D.T. Jones, J.M. Thornton ‐ Bionformatics for Geneticists Michael R. Barnes ‐ Bioinformatics Basics Application in Biological Science and Medicine Hooman H. Rashidi, Lukas K. Buehler İnternet : www.ebi.ac.uk www.ncbi.nlm.nih.gov http://biyoinformatik.wordpress.com http://iys.inonu.edu.tr/ http://tr.wikipedia.org/ http://www.acikders.org.tr/ Makaleler: ‐Kuvarsa Bağlanabilen Peptitler için Evrimsel Strateji ile Skor Matris Optimizasyonu(Barış Şenliol, Zehra Çataltepe İTÜ) ‐Neden Biyoinformatik?(Rengün Çetin ATALAY*) ‐Special Topics – Computational Biology (Pooja Anshul Saxena) ‐Genetik Kodların Uluslararası Paylaşımı(Alper Akçalı) 9