DNA, RNA veya Protein dizilerinin düzenlenerek benzer

advertisement
03.05.2012
Nezahat Karahan
DNA, RNA veya Protein dizilerinin düzenlenerek benzer bölgelerinin tespit edilmesidir.
Biyoinformatikte birçok inceleme, iki ya da daha çok sayıda DNA veya protein dizisinin karşılaştırılmasına d DNA t i di i i i k
l t l
dayanmaktadır.  DNA: nükleotidlerin uzun bir dizisi
 Protein: aminoasitlerin uzun bir dizisi
Dizi karşılaştırmasının temelinde dizi hizalama kavramı yatmaktadır. Örneğin elimizde ACGCTTTGGCATAA ve ACCGGCTTCGGCCAA gibi iki dizi parçası olsun; bu dizileri  Karşılaştırması yapılan dizilerin benzerliğini ölçmek, türlerin karşılaştırılması, gen ailelerinin belirlenmesi ve akrabalık derecelerinin tespiti, ortak ata yönünden k b l k d
l i i i i k ö ü d inceleme AC –GCTTTGGCATAA
ACCGGCTTCGGCCAA
veya
AC –GCTTT– GGCATAA
ACCGGCTTCGGCCAA‐
veya
AC – –GC TTTGGCATAA
ACC GGCTTCGGCC –AA
Şeklinde hizalayabiliriz.
Bir DNA dizi parçası nesilden nesile geçerken bazı
durumlarda değişikliklere (mutasyonlara) uğramaktadır.
En basit mutasyonlar dizi parçasındaki bir nükleotidin
yerine başka bir nükleotidin gelmesi (substitution), dizi
parçasından bir nükleotidin silinmesi (deletion) veya
di i parçasına nükleotid
dizi
ükl id girmesidir
i
idi (insertion).
(i
i )
 Fonksiyon tahmini
 Veritabanı arama
 Gen bulma
Yapılan karşılaştırmalarda insersiyon (insertion) veya
delesyon (deletion) olayını anlatmak için “indel” denen
“‐“ işareti kullanılmaktadır. Bir tane veya yanyana olan
çizgilere (insersiyonlara, delesyonlara) gedik (gap) denir.
1
03.05.2012
 Homoloji: Homolog iki gen, yüksek seviyede dizilim
 Orthologous Genler: ortak bir atadan geldikleri benzerliğine ve özdeşliğine sahiptirler, bu paylaşım ile
dizilimler aynı soydan geldikleri hipotezini de
desteklemektedirler.
desteklemektedirler
 Dizilim homolojisi aynı zamanda ortak işlev göstergesi
de olabilmektedir.
düşünülen, benzer bir fonksiyonu olabilen, farklı türlere ait homolog diziler.
 Paralogous
P l
G l A tü i i d Genler: Aynı tür içinde gen duplikasyonu
d lik
sonucu oluşmuş homolog diziler.
 Protein Domains: Bir proteinin bağımsız olarak katlanabildiği ve çalışılabildiği kabul edilen parçası.
 İki dizi parçası tüm olarak (global) veya bazı kısımları 



yerel (local) olarak hizalanabilir.
Hizalamanın gediksiz (ungapped) yapılması istenebilir veya gediklere müsaade edilebilir. İki dizi parçasının veya ikiden çok dizi parçasının İki di i ikid k di i hizalanması söz konusu olabilir. DNA dizileri veya protein dizilerinin hizalanması söz konusu olabilir. Dizi hizalamasındaki mantık DNA veya protein dizisi açısından fark etmemektedir. hizalamalarda her dizideki her harfin
hizalanması amaçlanır. Sorgu kümesindeki diziler
birbirine benzer ve yaklaşık aynı uzunlukta olursa
global hizalamalar en yararlı olur
 Benzer kısa dizi motiflerinin tespitinde lokal
hizalamalar kullanılır
 Dizi hizalaması için kullanılan hesaplamalı yöntemler genelde iki gruba ayrılır: global optimizasyon ve yerel optimizasyon. Global hizalamanın bulunması bir global optimizasyon çeşididir ve elde edilecek hizalamanın, sorgulanan dizilerin tamamını kapsamaya "zorlar".
k
" l "
 Buna karşın, yerel hizalamalar genelde birbirinden çok farklılık gösteren uzun dizilerde benzer bölgeleri tespit eder. Çoğu zaman yerel hizalamalar tercih edilir ama bunların bulunması daha zor olabilir.
 Global
İkili hizalama yöntemleri, iki sorgu dizisinin birbiriyle
en iyi uyuşan parçalarının
(lokal veya global)
hizalamasını bulmakta kullanılır.
!! Eğer diziler yeterince birbirine benziyorsa lokal ve
global hizalama sonuçları arasında bir fark olmaz.
2
03.05.2012
 Nokta Matris Yöntemleri
 Dinamik Programlama  Sözcük Yöntemleri
Çoklu dizi hizalaması ikiden daha fazla dizi içermesiyle ikili
hizalamanın bir uzantısı sayılır. Çoklu dizileme yöntemleri sorgu
kümesindeki tüm dizileri hizalamaya çalışır. Çoklu hizalamalar
çoğu zaman birbiriyle evrimsel ilişkisi olduğu hipotez edilen bir
grup dizideki korunmuş bölgeleri tespit etmek için kullanılır. Bu
tür hizalamalar ayrıca filogenetik ağaç inşa ederek evrimsel bir
ili ki i ortaya koymak
ilişkiyi
k
k için
i i kullanılır.
k ll l Böylesi
Bö l i korunmuş
k
di il
diziler,
yapısal ve mekanistik bilgilerle beraber kullanılarak enzimlerin
katalitik aktif bölgesinin yerini bulmaya yarar. Çoklu dizi
hizalamaların üretimi bakımdan zordur ve bu problemin çoğu
formülasyonu NP‐tam kombinatoryal optimizasyon problemlerine
dönüşür. Buna rağmen, bu hizalamaların biyoinformatikteki
faydaları nedeniyle 3 veya daha fazla dizinin hizalanmasını sağlıyan
çeşitli yöntemler geliştirilmiştir.
Elde edilen çoklu dizi hizalamasından homoloji olduğu
çıkarımı yapılabilir ve filogenetik analiz ile dizilerin
evrimsel kökenleri değerlendirilebilir. Hizalamanın
sağdaki
resimdeki
gibi
gösterimiyle
noktasal
mutasyonlar, hizalamadaki sütunlardan birinde farklı
bir
harf
ve delesyonlar
ise
bi
h f olarak,
l k ensersiyon
i
d l
l
i
hizalamadaki satırlardan bir veya daha fazlasında tire
şeklinde beliren eklemeler şeklinde mutasyon olayları
görülebilir. Protein bölgelerinde, ikincil veya üçüncül
yapılarda ve hatta bireysel amino asit veya nükleotitlerin
dizi korunumunu değerlendirmek için çoklu dizi
hizalamaları sıkça kullanılır.
Milyonlarca nükleotidin depolanması ve organizasyonu
için veri tabanlarının oluşturulması, araştırıcıların bu
bilgilere ulaşabilmeleri ve yeni veriler girebilmeleri için
ilk aşamadır.

Gen bankası (GenBank), Avrupa Moleküler Biyoloji Laboratuvarı (EMBL)  DNA Japonya veri tabanıdır (DDBJ)

3
03.05.2012
Bunlardan birincisi; yazarlar/diziyi veritabanına ilk işleyenler, kaynak gösterimleri, biyolojik atıflar ve dizinin kendisiyle; intronlar, eksonlar, başlangıç ve bitiş kodonları vb
bilgiyi içeren bir tablodan oluşan tam bilgi formatıdır.
İkincisi ise; hızlı benzerlik araştırmaları için kullanılan ve sadece diziyi içeren FASTA formatıdır. Accession (ulaşma) numaraları, herbir diziyi belirleyen özgün kimliklerdir ve dizi veritabanına ilk kez girildiğinde verilir.
Accession number (GenBank): Bir dizi GenBank’a
kaydedildiği zaman bu kayıt için verilen yada kayda özel kimlik numarasıdır. Bir büyük harf ve ardından gelen 5 rakam veya 2 büyük harf ve 6 rakamdan oluşur.
Accession number (RefSeq): Bütün bir RefSeq dizisine atanmış kimlik numarasıdır. Sırasıyla iki büyük harf, bir alt çizgi (_) ve 6 rakamdan oluşur (NT_123456).
* NT_123456 birleştirilmiş kontigler
* NM_123456 mRNA’lar (mRNA’dan oluşturulmuş cDNA’lar)
* NP_123456 proteinler
* NC_123456 kromozomlar
 NCBI Alt Veri Tabanları
PubMed
PubMed, NCBI bunyesinde bulunan, yaklasık 20 milyon
atıflık biyomedikal literaturubarındıran, NCBI’ın makale,
kitap vb. ile ilgili bilgileri barındırdığı alt veri tabanıdır.
y g
g,
PubMedlinkinden,, anahtar kelimeye
gore bilimsel dergi,
makale, kitap vb.aramalar yapılabilmektedir.
Dahası, NCBI da yapılan ozgun aramalarda ve cıkan
sonuclarda
NCBI,
PubMed
linkineerisim
sağlayan
bağlantıları sunmaktadır. Ornek vermemiz gerekirse, NCBI
bunyesinde gen arama islemi yapılırken, NCBI’ın sağladığı
bağlantılarla, kolay bir sekilde ilgili gen ile ilgiliyayınlara
ulasılması mumkundur.
OMIM (Online Mendelian Inheritance in Man)
OMIM bilinen insan genleri ve bu genlerin
ilişkilendirildiği hastalık fenotip bilgisini barındıran
NCBI alt
lt verii tabanıdır.
t b d
S kl kl güncellenmektedir.
Sıklıkla
ü
ll
kt di
İnsan genleri ve bu genlerin ilişkilendirildiği hastalıklar,
hastalıkların özellikleri ve bu hastalıkların moleküler
mekanizmaları ile ilgili birçok özet bilgiyi ve ilgili
referansları barındırır.
Nucleotide (Nukleotit Veri Tabanı)
Nükleotid veri tabanı GenBank, Refseq, TPA ve PDB gibi çeşitli kaynaklardan toplanmış ve
düzenlenmiş, DNA ve RNA dizi bilgilerini barındıran veri tabanıdır. Bu amaçla genom, gen,
transkript dizi bilgisini barındırır.
GSS Bolumu(Genome Survey Sequence)
Bu bolümde barındırılan diziler, EST’lere benzemektedir. GSS dizileri, karakterize edilmemiş, kısa parçalar halinde olan, genomik
dil
i k l h li d l ik DNA parçalarının dizi bilgilerini DNA l
di i bil il i i belirtmektedir.
Protein
İlgili gen ürünlerinin, ifade ettiği proteinlerin dizi bilgisini belirten bolumdur.
Unigene
Unigene bolumu, ilgili genlerin ve ifade edilen psueodogenlerin (yalancı genler) ürünlerini, ifade edildikleri gen ismi altında toplayan bolumdur. 4
03.05.2012
 RefSeq
Veri tabanlarında birçok dizi birden fazla kezbelirtilmiş
ve gösterilmiştir. Sekans bilgileri için gereksiz fazlalığı
olan gösterimleri engellemek ve bu belirtimleri
düzenlemek icin NCBI, RefSeq ikincil alt veri tabanını
oluşturmuştur.
Bu amaçla RefSeq bolumu, genomik DNA, RNA ve
protein dizi bilgileri için, geniş kapsamlı, düzenlenmiş
ve gerekli olan sekans bilgilerini tekrar duzenlemistir. Bir
baska deyisle, Refseq bolumu, her bir DNA, RNA ve
protein dizisi için doğruluğu kanıtlanmış ve kabul
edilmiş sekans bilgilerini içerir.
BLAST uygulaması sorgulatılmak istenen protein veya
nükleik asit dizisini, benzerlik kıstaslarına ve kendi
içinde barındırdığı algoritmaya göre, veri tabanı içinde
arayan bir dizi karşılaştırma programıdır. BLAST,
sorgulatılan diziyi veri tabanı içindeki diğer dizilerle
karşılaştırabildiği gibi kullanıcı tanımlı dizileri ikili
olarak da karşılaştırabilmektedir.
Bu yazılım verilen bir nükleotid ve protein dizisini kullanarak ilgili veri tabanlarını tarar ve olası homolog genleri bulurlar
5
03.05.2012
BLAST arama sonuçlarının karşılaştırılmasında önemli
olan bazı parametreler vardır. Bu parametrelere ve bu
parametreler arasındaki ilişki incelenerek, sonuçların
güvenirliliği veya sorulan bilimsel soruya göre,
göre arama
sonuçlarını seçmek mümkündür. BLAST arama
sonuçlarının karşılaştırılmasında kullanılan değişkenler;
Global
hizalama
yapan
Needleman‐Wunsch
algoritması ile yerel hizalama yapan Smith‐Waterman
algoritması gibi yöntemler iki proteinin benzerlik
skorunun hesaplanmasında kullanılmaktadır.
kullanılmaktadır
İkisi
de
dinamik
programlama
temeline
dayanmaktadır.
Bu tip yöntemlerin anahtar parçası skor matrisi adı verilen matrislerdir. • Maksimum Skor (Maximum Score)
• Toplam Skor (Total Score)
• Sorgulama Kapsamı (Query Coverage)
• E‐Değeri (E‐Value)
• Maksimum Benzerlik (Maximum Identity)
Tipik kullanımda, protein hizalamalarında amino asit
uyuşma veya uyuşmamalarına bir skor verebilmek için bir
substitusyon matrisi; bir dizideki amino asitin öbür dizide bir
boşlukla eşleştirilmesi için de bir boşluk ceza değeri
kullanılır. DNA ve RNA hizalamaları için de bir skor matrisi
k ll
kullanabilir
bili ama pratikte
ik basitçe
b i
pozitif
i if bir
bi uyuşma skoru,
k
negatif bir uyuşmama skoru ve negatif bir boşluk cezası
verilir.
Dinamik programlama yöntemi belli bir skorlama
fonksiyonu için optimal hizalamayı bulmayı garantiler.
Dinamik programlara ikiden çok diziye de genelleyebilirse de,
çok sayıda dizi veya çok uzun dizilerde kullanılamayacak
derecede yavaş çalışır.
6
03.05.2012
 3 adımda gerçekleşir ;
 Match Score = +1
 Mismatch Score = ‐1
 Initialization
 Gap penalty = ‐1
 Scoring
 Substitution Matrix
S b tit ti M t i
 Trace back (Alignment)
 Create a matrix with X +1 Rows and Y +1 Columns
 Final Scoring Matrix
 The 1st row and the 1st column of the score matrix are filled as multiple of gap penalty
 Final Trace back
T
C
G
0
‐1
‐2
‐3
A
‐1
‐1
‐2
‐3
 Initialization
T
‐2
0
‐1
‐2
 Scoring
C
‐3
‐1
1
0
 Trace back (Alignment)
G
‐4
‐2
0
2
Best Alignment:
A T C G
| | | |
_ T C G
7
03.05.2012
 Example:
 Match Score = +1
The calculation for the cell C(2, 2):
scorediag = C(i‐1, j‐1) + S(I, j) = 0 + ‐1 = ‐1
scoreup C(i 1, j) + g 0 + 1 1
scoreup = C(i‐1, j) + g = 0 + ‐1 = ‐1
scoreleft = C(i, j‐1) + g = 0 + ‐1 = ‐1
 Mismatch Score = ‐1
 Gap penalty = ‐1
 Substitution Matrix
S b tit ti M t i
A
C
G
T
A
1
‐1
‐1
‐1
C
‐1
1
‐1
‐1
T
C
G
0
0
0
0
A
0
0
G
G
‐1
‐1
1
‐1
T
0
T
‐1
‐1
‐1
1
C
0
G
0
 Final Trace back
 Final Scoring Matrix
T
C
G
0
0
0
0
A
0
0
0
0
A
T
C
0
0
0
0
0
0
0
0
0
T
0
1
0
0
T
0
1
0
C
0
0
2
1
C
0
0
2
1
G
0
0
1
3
G
0
0
1
3
Note: It is not mandatory that the last cell has the maximum alignment score!
Best Alignment:
T C G
| | |
T C G
8
03.05.2012
Nuran Şahin – Biyoloji Öğretmeni (tanımlar)
Kitaplar :
‐ Genetik
S. Yüce, G. Bilgen, İ. Demir
‐ Bioinformatics
Bi i f
i Genes, Proteins
G
P
i & Computers
C
C.A. Orengo, D.T. Jones, J.M. Thornton
‐ Bionformatics for Geneticists
Michael R. Barnes
‐ Bioinformatics Basics Application in Biological Science and
Medicine
Hooman H. Rashidi, Lukas K. Buehler
İnternet :
www.ebi.ac.uk
www.ncbi.nlm.nih.gov
http://biyoinformatik.wordpress.com
http://iys.inonu.edu.tr/
http://tr.wikipedia.org/
http://www.acikders.org.tr/
Makaleler:
‐Kuvarsa Bağlanabilen Peptitler için Evrimsel Strateji ile Skor Matris Optimizasyonu(Barış Şenliol, Zehra Çataltepe İTÜ)
‐Neden Biyoinformatik?(Rengün Çetin ATALAY*)
‐Special Topics – Computational Biology (Pooja Anshul Saxena)
‐Genetik Kodların Uluslararası Paylaşımı(Alper Akçalı)
9
Download