BLAST

advertisement
BLAST
• Smith-Waterman Algoritması
• BLAST
Smith-Waterman Hizalama Algoritması
•
1.
2.
3.
Algoritma Temel Özellikleri:
Kullanılan dinamik programlama
Hesaplanan puanlama matrisi
Boşluklar için Penaltılar: Daha fazla boşluklar ile bir hizalama daha az boşluk ile hizalanmış bir
sekanstan daha iyidir.
Gap Penaltılar:
* Bu iki hizalamaların aynı puanı var, fakat ilk hizalama önemlidir.
(yani daha az boşluklar vardır)
ATCG AT-CG
ATTG ATT-G
* Giriş Boşluklarını aza indirmek için cezalar (penaltılar) ekle
* İki çeşit Gap Cezaları (Penaltıları) vardır.
–
–
•
Gap açıklığı (GO): Başlangıçta boşluk açıldığında değerlendirilen
Gap uzama (GE): Bir boşluk birbirini izleyen uzantısı ile değerlendirildiğinde
GO ve GE hizada boşlukları sokulması için istenilen duyarlılığı bağlı olarak seçilebilir ya da 3
boyutlu yapısal hatları tahmin edilebilir.
Gap Cezaları (Penaltıları): Örnek
•
•
•
•
Boşluk açıklığı (GO) ceza = -2 ve boşluk uzatma (GE) penaltı varsayalım = -1
C-T ikame cezası varsayalım = -1
Eşleşme için Puan = 1
Bu gruplaşmada __ bir yüksek puan var hangisi “daha iyi“ ?
AT-C-TA
ATTTTTA
4 uyumlu, 1 uyumsuz,
2 gap açıklığı (GO)
Sonuç = +4-1-2-2
Sonuç = -1
ATC--TA
ATTTTTA
AT-C--TA
ATT-TTTA
4 uyumlu, 1 uyumsuz,
1 GO, 1 GE,
Sonuç = +4-1-2-1
Sonuç = 0
4 uyumlu
3 GO, 1 GE
Sonuç = +4-2-2-2-1
Sonuç = -3
Uyum Anlamı ve Terminoloji
Uyum Anlamı:
• Bir hizalama puanı göz önüne alındığında, ne zaman
önemlidir?
• Bazı durumlarda, bu homolog olduğu bilinen sekanslar
deneysel testler ile belirlenebilir
• Yüksek hizalama puanı" dizileri ortak bir atadan evrimleştiği
düşünülmektedir.
• "Düşük hizalama puanı", sadece bir bilginin eksikliği karşıt
anlamına gelmez.
Terminoloji:
. Dizi Kimliği: Toplam dizi uzunluğuna bölünmesiyle kesin eşleşmelerin sayısı (% ID)
. Benzerlik: "benzer" amino asitler (% benzerlik) için verilen kısmi skor - kullanılan puanlama
matrisine bağlıdır.
. Homoloji : İki dizileri ortak bir ata dizisi ya da ortak bir atadan yok (Yok% homoloji)
BLAST Amacı Nedir?
• Bir proteini yada DNA dizilerinin, bir protein yada
DNA veri tabanlarında karşılaştırılmasını sağlar.
• BLAST veritabanındaki tüm homolog dizileri alır
Neden BLAST Gereklidir?
•
Teorik olarak, bir veri tabanında bulunan, bir sorgulama dizisi ve her bir proteini ya da DNA
dizisi arasında küresel bir hizalama gerçekleştirebilir
Bu tür yaklaşımların hesaplamaları son derece yoğun olacağından çoğu amaçlar için pratik değildir.
•
BLAST buluşsal bu yöntemlere yakındır.
BLAST siparişleri ise daha hızlı diğer sezgisel yöntemlere göre daha büyüklükte.
BLAST diğer sezgisel yöntemlere göre ayrıca daha hassas ve seçicidir.
•
BLAST dezavantajları:
Bir miktar homoloji ilişkileri kaçırır
Optimal uyum garanti etmez
BLAST Nasıl Çalışır?
• Sezgisel Üç Adım:
1. Yüksek puanlama kelimelerin bir listesini
derlemek
2. Hit olarak adlandırılan bu kelimelerin örnekleri
için veritabanı tarama
3. Rastgele anlamlı hitleri ayırt etmek ve uzatmak
BLAST: Terminoloji
• Kompozisyon
Belirli bir sıra ile Alfabe kullanım ölçüsü
• Kompozisyon Karmaşıklık
Bir dizinin bilgi içeriği bir ölçüsüdür
Düşük Karmaşıklık
AGAAGAGGGAA
Yüksek Karmaşıklık
TGHIGAVRLAC
• Boşluksuz vs Boşluklu Hizalama:
Boşluksuz:
VHREMAARTSPLRPLVATAGPALSPVPP
ASRDPVARTSPLQTPAAPGAAAGPALSP
Boşluklu:
VATAGPALSPVPPCVHLTLRRAGDDFSR
VIPMAA--------------------VKQALREAGDE
E-Değerleri
• Skorlar her yüksek puanlama sırası çifti için BLAST
tarafından bildirilen (HSP) e-değerleri olarak
• Tesadüfen beklenen skor S ile e-değerleri HSP sayısına
yaklaştığı kabul edilir. (yani ilgili değildir)
• Düşük karmaşıklık dizilerinin filtrelemesi devre dışıysa, Edeğerleri anormal yüksek olacak.
•
E-değerleri aşağıdaki formül kullanılarak hesaplanır:
E(S) = Kmne¯ʎS
K=
m=
n =
ʎ =
S =
Sabit (Uyumlu başlama noktaları için mümkün olmayan
Veri tabanında bulunan dizilerin toplam uzunluğu
Soru sekansının uzunluğu
Sabit ölçekleme
Yüksek skorlu dizi çiftinin skoru (HSP)
bağımsızlık için düzeltme )
BLAST Çalıştırma
• Seçenekler:
Düşük karmaşıklık filtresi
uzanır.
Bu dizileri hizalamak X adı ile olmaz -- uzantıları yerini alır düşük karmaşıklık dizisi ile
Limite göre sorgu girme
Veritabanı dize sorgu sonuçlarına karşı sorgu BLAST olacak
Beklemek
E-değeri kesilen HSP'leri bildirdiği için
Kelime boyutunu
Kullanıcı look-up tablosu için kelime boyutunu tanımlamak için izin verir
Proteinler için, varsayılan 3'tür. 2 düşürücü duyarlılığını artırmak , aynı zamanda
çalışma süresini artıracak
Matrix
İkame matrisi seçin puanlama için kullanılacak
Boşluk maliyetleri
Boşluk açma ve genişletme cezaları seçin
Blast Arama İpuçları
•
Başlangıçta BLOSUM62 ve varsayılan boşluk cezaları kullanmak
•
Anlamlı sonuçlar, BLOSUM30 ve alt boşluk cezaları kullanırsanız
•
Tipik 0.0001 BLAST E-değer sınır değeri kullanın
•
Uzun dizilerinin isabetine dikkat edin veya sıradışı dizisi bileşim ile isabet edin.
(AQQQQQQQQQRQQG, etc)
•
DNA için, 1000 baz bölümler halinde BLAST bireysel dizisini bölmek
•
Proteinler için, 300 amino asit dizisini parça halinde, ayrıca segmenti çapında
bilinen motiflere bölmek
•
Sınırlı sorgu bölgesini kullanarak sınırda öneme sonuçlarını yeniden
değerlendirmek
Download