Uygulama 2 İnsan Genomu Her hücremiz aynı genetik bilgiyi (informasyonu) içermektedir. Ancak, deri hücreleri böbrek, ciğer, kan, beyin hücrelerinden farklıdır. Bu farklılıklar genlerin farklı hücrelerde farklı farklı ifade edilmelerinden kaynaklanmaktadır. Gen ifadesi; DNA’daki mesajın RNA’ya kopyalanması ve RNA’daki nükleotid dizisinden amino asit dizisine geçiştir (transkripsiyon ve translasyon, transcription and translation) denebilir. DNA’nın bir ipliğinde bulunan gen ile ilgili transkripsiyon olayının başlaması için burulup, kıvrılarak (coiling) paketlenmiş olan uzun DNA molekülünün bir parçasındaki kıvrılmalar bozulup (uncoiling), çift sarmal kısmen açılmaktadır. Böylece, geni içeren DNA parçası kendini ortaya sermektedir. Proteinlerin işlevlerindeki üç boyutlu yapılanmaların önemi gibi DNA Topolojisi ve Geometrisi de önemli işlevlere sahiptir. Bunlardan birisi DNA ifade yerleridir. Bu derste DNA Topolojisi ve Geometrisi üzerinde durulmayacaktır. Verilerin başlıca üç ölçme platformundan geldiği söylenebilir. Bunlar: mikrodizinler (microarrays, mikrodüzenler), gen ifadesinin seri çözümlemesi (serial analysis of gene expression, SAGE) ve proteomik kütle spektrometresi (proteomic mass spectrometry) dir. Bunlarla ilgili biyolojik deneyler; deney tasarımı (experimental design), ölçme ve veri ön işlemesi (measurement and preprocessing) ile sonraki veri işlenmelerinden (postprocessing) oluşmaktadır. Başka bir ifade ile deneyler; nelerin ölçüleceğine karar verdikten sonra doğru ölçümler alıp bunları matrislerde toplamak ve bilgi çıkarmak amacıyla matrisleri işlemektir denebilir. Mikroarray ve SAGE ölçümleri mRNA düzeyinde olmaktadır. Mikroarray’ler bir tek örnekte ve aynı anda binlerce genin ifade düzeylerinin ölçülmesine imkân vermektedir. Bilgi için aşağıdaki kaynaklara başvurabilirsiniz. MICROARRAY TEKNOLOJİSİ (DOÇ. DR. HATİCE MERGEN) (HTTP:// YUNUS.H ACE TTE PE .EDU. TR/ ~M ERGEN ) Mikroarray Teknolojisi(Ozlen Konu, PhD,Bilkent Üniversitesi,Moleküler Biyoloji ve Genetik Bölümü) Genetikten Genombilime Geçişte Transkriptom Analizleri(Doç,Dr.Hilâl Özdağ) Real Time PCR Tutorial Microarray Teknolojisi(K.İpekdal) DNA microarrays(Wikipedia) Protein microarrays(Wikipedia) İnsan Genom Projesi Kaynaklar: Begüm Akman, Taner Tuncer; Yaşamın Şifresi: İnsan Genom Projesi; ODTÜ Yayıncılık, 2007 Vikipedi, özgür ansiklopedi İnsan Genom Projesi “tüm çağların en özel günü” ifadesi ile 26 Haziran 2000 tarihinde ABD Başkanı Bill Clinton, İngiltere Başbakanı Tony Blair ve özel şirketleri temsilen Celera Genomics yetkilileri, projenin ilk ayağını tamamladıklarını dünyaya ilân etiler. Proje sonuçları 2001 yılında açıklanmış olsa da eksikler ancak 2003 yılında bitirilebildi. Geçen süre içinde yeni bilgiler ortaya çıktıkça insan genomu sürekli güncellendi, son olarak insan genomunun 36.2 inci kurumu ve sürümü NCBI tarafından yapıldı. Teknik nedenlerle dizisi belirlenemeyen 302 boşluk bulunan bu son sürümün gen kodlayan bölgelerin yaklaşık %99’unu kapsadığına inanılıyor. Bu proje sayesinde ilaç ve kimya sanayii uzmanlarına, Alzheimer’den vereme, kalp hastalıklarından astıma kadar her türlü hastalığı tedavi olanağı sağlayacak. Proje sayesinde tıp biliminin ciddi biçimde değişikliğe uğrayacağı, ayrıca uluslararası iş dünyasının bundan önemli kazanç sağlayacağı belirtiliyor. Proje, kanserden depresyona ve hatta yaşlılığa kadar tüm hastalıkların teşhis ve tedavisinde devrim yaratacak. Projenin sunacağı yenilikler, etik tartışmaları da beraberinde getirdi. Çünkü bu projenin, öjenik çalışmaların önünü açağı ve bu amaç doğrultusunda yapılacak deneysel girişimlere de hız kazandıracağı belirtiliyor. Projeye karşı çıkanlar bu projenin, doğanın doğal düzenini tehlikeye atacağını ve insanın, istihdamdan sigortaya kadar günlük yaşamın her alanında “genetik ayırımcılığa” yol açacağını ileri sürmekte. Muhalifler özellikle öjenizm faktörünün altını çizerken, bu projeyle insanların, diğer canlı türlerinin genleriyle beraber yapılacak deneysel çalışmaların sınırlarını büyük ölçüde genişleteceğini, bu yüzden de sonu belirsiz bir biyolojik ve ekolojik felâkete götüreceğini öne sürüyorlar. İnsan Genom Projesi kapsamında Etik, Yasal ve Sosyal konular için ayrılan bütçe toplam bütçenin yüzde beşini (yaklaşık 60 milyon $) kapsamaktaydı. Bu konuya önem verilmesindeki neden genetik bilgiye dayanarak yapılabilecek olası ayrımcılık ve istismarın genetik araştırmaların boyutu geliştikçe ve genetik testlerin maliyeti düştükçe daha da artacağı kaygısıdır. ELSI’de süregelen birçok proje ELSI’nin muhtemel etkilerini kapsarken bazıları literatür, konferanslar, seminerler ve basın aracılığıyla eğitimi amaçlar. Bu kapsamda hedef kitle olan doktorlar, eğitimciler, öğrenciler, din adamları ve hukukçular için çeşitli eğitici materyaller de sağlanmaktadır. Bütün bu çabalar İnsan Genom Projesi’nin insanlara ve uzmanlara en uygun şekilde aktarılması ve uygulama alanlarında hataların en aza indirilmesi ya da engellenmesi içindir. 4 Eylül 2007'de, Craig Venter kendi DNA dizisinin tümünü yayınlamıştır. Bu, bir insanın 6 milyar harflik genomunun yayınlandığı ilk seferdir. Tarihçe: 1954 DNA'nın keşfi 1977 DNA dizilenmesi yöntemleri (Sanger ve Maxam-Gilbert) 1976 İlk genetik şirketi 1981-82 İlk transgenik fare Gen bankası detaları oluşturuldu. 1983 İlk genetik hastalık haritalandı.(Huntington hastalığı) 1985 Polimeraz zincir reaksiyonu'nun keşfi (Saiki, Mullis) 1986 Pozisyonel klonlama. İlk insan genetik haritası (RFLP) 1990 İnsan genom projesi başladı.ELSI oluşturuldu, Etik, Legal, Sosyal program BAC’ların keşfi (Bacteral artificial chromosome) 1991 Gen fragmanlar expressed sequence tag (EST) Kistik fibroz geninin klonlanması 1992 İnsan genomunun 2’nci nesil haritası, dataların serbest bırakılması 1994 İlk genetik olarak değiştirilmiş besin domates Ayrıntılı insan gen haritası 1995 İş yerlerinde genetik ayrımcılığın yasaklanması İnsan genomunun fiziksel haritası tamamlandı 1996 Fare genetik haritası 280.000 EST İnsan DNA dizilenmesi başladı 1997 E.coli genomu dizilendi 1998 Celera genomics firması 3 yıl içinde projenin tamamlanacağını duyurdu.Mycobacterium tuberculosis dizilendi 1999 22.kromozom dizilenmesi tamamlandı 2000 Genomik bilgiye serbest ulaşım (Bill Clinton, Tony Blair) Meyve sineği genomu dizilendi 2l. kromozom Dizi sonuçları açıklandı 2001 Uluslararası sonuçlarını aynı anda açıkladı. 2003 Eksiklikler giderilerek her iki grup da taslaklarını tamamladı. 2005 İnsan Genom Projesi için her iki grubun da çalışmaları devam ediyor. NCBI (National Center for Biotechnology Information, Ulusal Biyoteknoloji Enformasyon Merkezi) http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?val=NT_077402.1&from=1&to=167280&view=fasta >ref|NT_077402.1|Hs1_77451:1-167280 Homo sapiens chromosome 1 genomic contig, reference assembly TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAAC CCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCAACCCTAACCCTAACCCTAACCCTAACCCTAA CCCTAACCCCTAACCCTAACCCTAACCCTAACCCTAACCTAACCCTAACCCTAACCCTAACCCTAACCCT AACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAAACCCTAAACCCTAACCCTAACCCTAACCCTA ACCCTAACCCCAACCCCAACCCCAACCCCAACCCCAACCCCAACCCTAACCCCTAACCCTAACCCTAACC CTACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCCTAACCCTAACCCTAACCCTA ACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAACCCTAACCCTCGCGGTACCCTCAGCCGGCCCG CCCGCCCGGGTCTGACCTGAGGAGAACTGTGCTCCGCCTTCAGAGTACCACCGAAATCTGTGCAGAGGAC AACGCAGCTCCGCCCTCGCGGTGCTCTCCGGGTCTGTGCTGAGGAGAACGCAACTCCGCCGGCGCAGGCG CAGAGAGGCGCGCCGCGCCGGCGCAGGCGCAGACACATGCTAGCGCGTCGGGGTGGAGGCGTGGCGCAGG CGCAGAGAGGCGCGCCGCGCCGGCGCAGGCGCAGAGACACATGCTACCGCGTCCAGGGGTGGAGGCGTGG CGCAGGCGCAGAGAGGCGCACCGCGCCGGCGCAGGCGCAGAGACACATGCTAGCGCGTCCAGGGGTGGAG GCGTGGCGCAGGCGCAGAGACGCAAGCCTACGGGCGGGGGTTGGGGGGGCGTGTGTTGCAGGAGCAAAGT CGCACGGCGCCGGGCTGGGGCGGGGGGAGGGTGGCGCCGTGCACGCGCAGAAACTCACGTCACGGTGGCG CGGCGCAGAGACGGGTAGAACCTCAGTAATCCGAAAAGCCGGGATCGACCGCCCCTTGCTTGCAGCCGGG CACTACAGGACCCGCTTGCTCACGGTGCTGTGCCAGGGCGCCCCCTGCTGGCGACTAGGGCAACTGCAGG GCTCTCTTGCTTAGAGTGGTGGCCAGCGCCCCCTGCTGGCGCCGGGGCACTGCAGGGCCCTCTTGCTTAC TGTATAGTGGTGGCACGCCGCCTGCTGGCAGCTAGGGACATTGCAGGGTCCTCTTGCTCAAGGTGTAGTG GCAGCACGCCCACCTGCTGGCAGCTGGGGACACTGCCGGGCCCTCTTGCTCCAACAGTACTGGCGGATTA TAGGGAAACACCCGGAGCATATGCTGTTTGGTCTCAGTAGACTCCTAAATATGGGATTCCTGGGTTTAAA AGTAAAAAATAAATATGTTTAATTTGTGAACTGATTACCATCAGAATTGTACTGTTCTGTATCCCACCAG CAATGTCTAGGAATGCCTGTTTCTCCACAAAGTGTTTACTTTTGGATTTTTGCCAGTCTAACAGGTGAAG CCCTGGAGATTCTTATTAGTGATTTGGGCTGGGGCCTGGCCATGTGTATTTTTTTAAATTTCCACTGATG ATTTTGCTGCATGGCCGGTGTTGAGAATGACTGCGCAAATTTGCCGGATTTCCTTTGCTGTTCCTGCATG TAGTTTAAACGAGATTGCCAGCACCGGGTATCATTCACCATTTTTCTTTTCGTTAACTTGCCGTCAGCCT TTTCTTTGACCTCTTCTTTCTGTTCATGTGTATTTGCTGTCTCTTAGCCCAGACTTCCCGTGTCCTTTCC ACCGGGCCTTTGAGAGGTCACAGGGTCTTGATGCTGTGGTCTTCATCTGCAGGTGTCTGACTTCCAGCAA CTGCTGGCCTGTGCCAGGGTGCAAGCTGAGCACTGGAGTGGAGTTTTCCTGTGGAGAGGAGCCATGCCTA GAGTGGGATGGGCCATTGTTCATCTTCTGGCCCCTGTTGTCTGCATGTAACTTAATACCACAACCAGGCA TAGGGGAAAGATTGGAGGAAAGATGAGTGAGAGCATCAACTTCTCTCACAACCTAGGCCAGTAAGTAGTG CTTGTGCTCATCTCCTTGGCTGTGATACGTGGCCGGCCCTCGCTCCAGCAGCTGGACCCCTACCTGCCGT CTGCTGCCATCGGAGCCCAAAGCCGGGCTGTGACTGCTCAGACCAGCCGGCTGGAGGGAGGGGCTCAGCA GGTCTGGCTTTGGCCCTGGGAGAGCAGGTGGAAGATCAGGCAGGCCATCGCTGCCACAGAACCCAGTGGA TTGGCCTAGGTGGGATCTCTGAGCTCAACAAGCCCTCTCTGGGTGGTAGGTGCAGAGACGGGAGGGGCAG AGCCGCAGGCACAGCCAAGAGGGCTGAAGAAATGGTAGAACGGAGCAGCTGGTGATGTGTGGGCCCACCG GCCCCAGGCTCCTGTCTCCCCCCAGGTGTGTGGTGATGCCAGGCATGCCCTTCCCCAGCATCAGGTCTCC AGAGCTGCAGAAGACGACGGCCGACTTGGATCACACTCTTGTGAGTGTCCCCAGTGTTGCAGAGGTGAGA GGAGAGTAGACAGTGAGTGGGAGTGGCGTCGCCCCTAGGGCTCTACGGGGCCGGCGTCTCCTGTCTCCTG GAGAGGCTTCGATGCCCCTCCACACCCTCTTGATCTTCCCTGTGATGTCATCTGGAGCCCTGCTGCTTGC GGTGGCCTATAAAGCCTCCTAGTCTGGCTCCAAGGCCTGGCAGAGTCTTTCCCAGGGAAAGCTACAAGCA GCAAACAGTCTGCATGGGTCATCCCCTTCACTCCCAGCTCAGAGCCCAGGCCAGGGGCCCCCAAGAAAGG CTCTGGTGGAGAACCTGTGCATGAAGGCTGTCAACCAGTCCATAGGCAAGCCTGGCTGCCTCCAGCTGGG TCGACAGACAGGGGCTGGAGAAGGGGAGAAGAGGAAAGTGAGGTTGCCTGCCCTGTCTCCTACCTGAGGC TGAGGAAGGAGAAGGGGATGCACTGTTGGGGAGGCAGCTGTAACTCAAAGCCTTAGCCTCTGTTCCCACG AAGGCAGGGCCATCAGGCACCAAAGGGATTCTGCCAGCATAGTGCTCCTGGACCAGTGATACACCCGGCA CCCTGTCCTGGACACGCTGTTGGCCTGGATCTGAGCCCTGGTGGAGGTCAAAGCCACCTTTGGTTCTGCC ATTGCTGCTGTGTGGAAGTTCACTCCTGCCTTTTCCTTTCCCTAGAGCCTCCACCACCCCGAGATCACAT TTCTCACTGCCTTTTGTCTGCCCAGTTTCACCAGAAGTAGGCCTCTTCCTGACAGGCAGCTGCACCACTG CCTGGCGCTGTGCCCTTCCTTTGCTCTGCCCGCTGGAGACGGTGTTTGTCATGGGCCTGGTCTGCAGGGA TCCTGCTACAAAGGTGAAACCCAGGAGAGTGTGGAGTCCAGAGTGTTGCCAGGACCCAGGCACAGGCATT AGTGCCCGTTGGAGAAAACAGGGGAATCCCGAAGAAATGGTGGGTCCTGGCCATCCGTGAGATCTTCCCA GGGCAGCTCCCCTCTGTGGAATCCAATCTGTCTTCCATCCTGCGTGGCCGAGGGCCAGGCTTCTCACTGG GCCTCTGCAGGAGGCTGCCATTTGTCCTGCCCACCTTCTTAGAAGCGAGACGGAGCAGACCCATCTGCTA CTGCCCTTTCTATAATAACTAAAGTTAGCTGCCCTGGACTATTCACCCCCTAGTCTCAATTTAAGAAGAT CCCCATGGCCACAGGGCCCCTGCCTGGGGGCTTGTCACCTCCCCCACCTTCTTCCTGAGTCATTCCTGCA GCCTTGCTCCCTAACCTGCCCCACAGCCTTGCCTGGATTTCTATCTCCCTGGCTTGGTGCCAGTTCCTCC AAGTCGATGGCACCTCCCTCCCTCTCAACCACTTGAGCAAACTCCAAGACATCTTCTACCCCAACACCAG CAATTGTGCCAAGGGCCATTAGGCTCTCAGCATGACTATTTTTAGAGACCCCGTGTCTGTCACTGAAACC TTTTTTGTGGGAGACTATTCCTCCCATCTGCAACAGCTGCCCCTGCTGACTGCCCTTCTCTCCTCCCTCT CATCCCAGAGAAACAGGTCAGCTGGGAGCTTCTGCCCCCACTGCCTAGGGACCAACAGGGGCAGGAGGCA GTCACTGACCCCGAGACGTTTGCATCCTGCACAGCTAGAGATCCTTTATTAAAAGCACACTGTTGGTTTC TGCTCAGTTCTTTATTGATTGGTGTGCCGTTTTCTCTGGAAGCCTCTTAAGAACACAGTGGCGCAGGCTG GGTGGAGCCGTCCCCCCATGGAGCACAGGCAGACAGAAGTCCCCGCCCCAGCTGTGTGGCCTCAAGCCAG CCTTCCGCTCCTTGAAGCTGGTCTCCACACAGTGCTGGTTCCGTCACCCCCTCCCAAGGAAGTAGGTCTG AGCAGCTTGTCCTGGCTGTGTCCATGTCAGAGCAACGGCCCAAGTCTGGGTCTGGGGGGGAAGGTGTCAT GGAGCCCCCTACGATTCCCAGTCGTCCTCGTCCTCCTCTGCCTGTGGCTGCTGCGGTGGCGGCAGAGGAG GGATGGAGTCTGACACGCGGGCAAAGGCTCCTCCGGGCCCCTCACCAGCCCCAGGTCCTTTCCCAGAGAT GCCTGGAGGGAAAAGGCTGAGTGAGGGTGGTTGGTGGGAAACCCTGGTTCCCCCAGCCCCCGGAGACTTA AATACAGGAAGAAAAAGGCAGGACAGAATTACAAGGTGCTGGCCCAGGGCGGGCAGCGGCCCTGCCTCCT ACCCTTGCGCCTCATGACCAGCTTGTTGAAGAGATCCGACATCAAGTGCCCACCTTGGCTCGTGGCTCTC ACTGCAACGGGAAAGCCACAGACTGGGGTGAAGAGTTCAGTCACATGCGACCGGTGACTCCCTGTCCCCA CCCCCATGACACTCCCCAGCCCTCCAAGGCCACTGTGTTTCCCAGTTAGCTCAGAGCCTCAGTCGATCCC TGACCCAGCACCGGGCACTGATGAGACAGCGGCTGTTTGAGGAGCCACCTCCCAGCCACCTCGGGGCCAG GGCCAGGGTGTGCAGCACCACTGTACAATGGGGAAACTGGCCCAGAGAGGTGAGGCAGCTTGCCTGGGGT CACAGAGCAAGGCAAAAGCAGCGCTGGGTACAAGCTCAAAACCATAGTGCCCAGGGCACTGCCGCTGCAG GCGCAGGCATCGCATCACACCAGTGTCTGCGTTCACAGCAGGCATCATCAGTAGCCTCCAGAGGCCTCAG GTCCAGTCTCTAAAAATATCTCAGGAGGCTGCAGTGGCTGACCATTGCCTTGGACCGCTCTTGGCAGTCG AAGAAGATTCTCCTGTCAGTTTGAGCTGGGTGAGCTTAGAGAGGAAAGCTCCACTATGGCTCCCAAACCA GGAAGGAGCCATAGCCCAGGCAGGAGGGCTGAGGACCTCTGGTGGCGGCCCAGGGCTTCCAGCATGTGCC CTAGGGGAAGCAGGGGCCAGCTGGCAAGAGCAGGGGGTGGGCAGAAAGCACCCGGTGGACTCAGGGCTGG AGGGGAGGAGGCGATCTTGCCCAAGGCCCTCCGACTGCAAGCTCCAGGGCCCGCTCACCTTGCTCCTGCT CCTTCTGCTGCTGCTTCTCCAGCTTTCGCTCCTTCATGCTGCGCAGCTTGGCCTTGCCGATGCCCCCAGC TTGGCGGATGGACTCTAGCAGAGTGGCCAGCCACCGGAGGGGTCAACCACTTCCCTGGGAGCTCCCTGGA CTGGAGCCGGGAGGTGGGGAACAGGGCAAGGAGGAAAGGCTGCTCAGGCAGGGCTGGGGAAGCTTACTGT GTCCAAGAGCCTGCTGGGAGGGAAGTCACCTCCCCTCAAACGAGGAGCCCTGCGCTGGGGAGGCCGGACC TTTGGAGACTGTGTGTGGGGGCCTGGGCACTGACTTCTGCAACCACCTGAGCGCGGGCATCCTGTGTGCA GATACTCCCTGCTTCCTCTCTAGCCCCCACCCTGCAGAGCTGGACCCCTGAGCTAGCCATGCTCTGACAG TCTCAGTTGCACACACGAGCCAGCAGAGGGGTTTTGTGCCACTTCTGGATGCTAGGGTTACACTGGGAGA CACAGCAGTGAAGCTGAAATGAAAAATGTGTTGCTGTAGTTTGTTATTAGACCCCTTCTTTCCATTGGTT TAATTAGGAATGGGGAACCCAGAGCCTCACTTGTTCAGGCTCCCTCTGCCCTAGAAGTGAGAAGTCCAGA GCTCTACAGTTTGAAAACCACTATTTTATGAACCAAGTAGAACAAGATATTTGAAATGGAAACTATTCAA AAAATTGAGAATTTCTGACCACTTAACAAACCCACAGAAAATCCACCCGAGTGCACTGAGCACGCCAGAA ATCAGGTGGCCTCAAAGAGCTGCTCCCACCTGAAGGAGACGCGCTGCTGCTGCTGTCGTCCTGCCTGGCG CCTTGGCCTACAGGGGCCGCGGTTGAGGGTGGGAGTGGGGGTGCACTGGCCAGCACCTCAGGAGCTGGGG GTGGTGGTGGGGGCGGTGGGGGTGGTGTTAGTACCCCATCTTGTAGGTCTGAAACACAAAGTGTGGGGTG TCTAGGGAAGAAGGTGTGTGACCAGGGAGGTCCCCGGCCCAGCTCCCATCCCAGAACCCAGCTCACCTAC CTTGAGAGGCTCGGCTACCTCAGTGTGGAAGGTGGGCAGTTCTGGAATGGTGCCAGGGGCAGAGGGGGCA ATGCCGGGGCCCAGGTCGGCAATGTACATGAGGTCGTTGGCAATGCCGGGCAGGTCAGGCAGGTAGGATG GAACATCAATCTCAGGCACCTGGCCCAGGTCTGGCACATAGAAGTAGTTCTCTGGGACCTGCAAGATTAG GCAGGGACATGTGAGAGGTGACAGGGACCTGCAGGGGCAGCCAACAAGACCTTGTGTGCACCTCCCATGG GTGGAATAAGGGGCCCAACAGCCTTGACTGGAGAGGAGCTCTGGCAAGGCCCTGGGCCACTGCACCTGTC TCCACCTCTGTCCCACCCCTCCCACCTGCTGTTCCAGCTGCTCTCTCTTGCTGATGGACAAGGGGGCATC AAACAGCTTCTCCTCTGTCTCTGCCCCCAGCATCACATGGGTCTTTGTTACAGCACCAGCCAGGGGGTCC AGGAAGACATACTTCTTCTACCTACAGAGGCGACATGGGGGTCAGGCAAGCTGACACCCGCTGTCCTGAG CCCATGTTCCTCTCCCACATCATCAGGGGCACAGCGTGCACTGTGGGGTCCCAGGCCTCCCGAGCCGAGC CACCCGTCACCCCCTGGCTCCTGGCCTATGTGCTGTACCTGTGTCTGATGCCCTGGGTCCCCACTAAGCC AGGCCGGGCCTCCCGCCCACACCCCTCGGCCCTGCCCTCTGGCCATACAGGTTCTCGGTGGTGTTGAAGA GCAGCAAGGAGCTGACAGAGCTGATGTTGCTGGGAAGACCCCCAAGTCCCTCTTCTGCATCGTCCTCGGG CTCCGGCTTGGTGCTCACGCACACAGGAAAGTCCTTCAGCTTCTCCTGAGAGGGCCAGGATGGCCAAGGG ATGGTGAATATTTGGTGCTGGGCCTAATCAGCTGCCATCCCATCCCAGTCAGCCTCCTCTGGGGGACAGA ACCCTATGGTGGCCCCGGCTCCTCCCCAGTATCCAGTCCTCCTGGTGTGTGACAGGCTATATGCGCGGCC AGCAGACCTGCAGGGCCCGCTCGTCCAGGGGGCGGTGCTTGCTCTGGATCCTGTGGCGGGGGCGTCTCTG CAGGCCAGGGTCCTGGGCGCCCGTGAAGATGGAGCCATATTCCTGCAGGCGCCCTGGAGCAGGGTACTTG GCACTGGAGAACACCTGTGGACACAGGGACAAGTCTGAGGGGGCCCCAAGAGGCTCAGAGGGCTAGGATT GCTTGGCAGGAGAGGGTGGAGTTGGAAGCCTGGGCGAGAAGAAAGCTCAAGGTACAGGTGGGCAGCAGGG CAGAGACTGGGCAGCCTCAGAGGCACGGGGAAATGGAGGGACTGCCCAGTAGCCTCAGGACACAGGGGTA TGGGGACTACCTTGATGGCCTTCTTGCTGCCCTTGATCTTCTCAATCTTGGCCTGGGCCAAGGAGACCTT CTCTCCAATGGCCTGCACCTGGCTCCGGCTCTGCTCTACCTGCTGGGAGATCCTGCCATGGAGAAGATCA CAGAGGCTGGGCTGCTCCCCACCCTCTGCACACCTCCTGCTTCTAACAGCAGAGCTGCCAGGCCAGGCCC TCAGGCAAGGGCTCTGAAGTCAGGGTCACCTACTTGCCAGGGCCGATCTTGGTGCCATCCAGGGGGCCTC TACAAGGATAATCTGACCTGCAGGGTCGAGGAGTTGACGGTGCTGAGTTCCCTGCACTCTCAGTAGGGAC AGGCCCTATGCTGCCACCTGTACATGCTATCTGAAGGACAGCCTCCAGGGCACACAGAGGATGGTATTTA CACATGCACACATGGCTACTGATGGGGCAAGCACTTCACAACCCCTCATGATCACGTGCAGCAGACAATG TGGCCTCTGCAGAGGGGGAACGGAGACCGGAGGCTGAGACTGGCAAGGCTGGACCTGAGTGTCGTCACCT AAATTCAGACGGGGAACTGCCCCTGCACATACTGAACGGCTCACTGAGCAAACCCCGAGTCCCGACCACC GCCTCAGTGTGGTCTAGCTCCTCACCTGCTTCCATCCTCCCTGGTGCGGGGTGGGCCCAGTGATATCAGC TGCCTGCTGTTCCCCAGATGTGCCAAGTGCATTCTTGTGTGCTTGCATCTCATGGAACGCCATTTCCCCA GACATCCCTGTGGCTGGCTCCTGATGCCCGAGGCCCAAGTGTCTGATGCTTTAAGGCACATCACCCCACT CATGCTTTTCCATGTTCTTTGGCCGCAGCAAGGCCGCTCTCACTGCAAAGTTAACTCTGATGCGTGTGTA ACACAACATCCTCCTCCCAGTCGCCCCTGTAGCTCCCCTACCTCCAAGAGCCCAGCCCTTGCCCACAGGG CCACACTCCACGTGCAGAGCAGCCTCAGCACTCACCGGGCACGAGCGAGCCTGTGTGGTGCGCAGGGATG AGAAGGCAGAGGCGCGACTGGGGTTCATGAGGAAGGGCAGGAGGAGGGTGTGGGATGGTGGAGGGGTTTG AGAAGGCAGAGGCGCGACTGGGGTTCATGAGGAAAGGGAGGGGGAGGATGTGGGATGGTGGAGGGGCTGC AGACTCTGGGCTAGGGAAAGCTGGGATGTCTCTAAAGGTTGGAATGAATGGCCTAGAATCCGACCCAATA AGCCAAAGCCACTTCCACCAACGTTAGAAGGCCTTGGCCCCCAGAGAGCCAATTTCACAATCCAGAAGTC CCCGTGCCCTAAAGGGTCTGCCCTGATTACTCCTGGCTCCTTGTGTGCAGGGGGCTCAGGCATGGCAGGG CTGGGAGTACCAGCAGGCACTCAAGCGGCTTAAGTGTTCCATGACAGACTGGTATGAAGGTGGCCACAAT TCAGAAAGAAAAAAGAAGAGCACCATCTCCTTCCAGTGAGGAAGCGGGACCACCACCCAGCGTGTGCTCC ATCTTTTCTGGCTGGGGAGAGGCCTTCATCTGCTGTAAAGGGTCCTCCAGCACAAGCTGTCTTAATTGAC CCTAGTTCCCAGGGCAGCCTCGTTCTGCCTTGGGTGCTGACACGACCTTCGGTAGGTGCATAAGCTCTGC ATTCGAGGTCCACAGGGGCAGTGGGAGGGAACTGAGACTGGGGAGGGACAAAGGCTGCTCTGTCCTGGTG CTCCCACAAAGGAGAAGGGCTGATCACTCAAAGTTGCGAACACCAAGCTCAACAATGAGCCCTGGAAAAT TTCTGGAATGGATTATTAAACAGAGAGTCTGTAAGCACTTAGAAAAGGCCGCGGTGAGTCCCAGGGGCCA GCACTGCTCGAAATGTACAGCATTTCTCTTTGTAACAGGATTATTAGCCTGCTGTGCCCGGGGAAAACAT GCAGCACAGTGCATCTCGAGTCAGCAGGATTTTGACGGCTTCTAACAAAATCTTGTAGACAAGATGGAGC TATGGGGGTTGGAGGAGAGAACATATAGGAAAAATCAGAGCCAAATGAACCACAGCCCCAAAGGGCACAG TTGAACAATGGACTGATTCCAGCCTTGCACGGAGGGATCTGGCAGAGTCCATCCAGTTCATTCAACACCT GGTTAGAAAACTGGGGCCAGCACACAGGGGAAGGGTAAGCTGGTTTCATGATCGAATCAAGGCTCAGACA ATTTTTAAAGGCCAGAGGGTAGACTGCAATCACCAAGATGAAATTTACAAGGAACAAATGTGAAGCCCAA CATTTAGGTTTTAAAAATCAAGCGTATAAATACAGAAGGTGGAGGGAACTTGCTTTAGACACAGTTCAGG TGAAGAAAGACCTGGAAACTTCTGTTAACTATAAGCTCAGTAGGGGCTAAAAGCATGTTAATCGGCATAA AAAGGCAATGAGATCTTAGGGCACACAGCTCCCCGCCCCTCTTCTGCCCTTCATCCTTCTTTCAATCAGC AGGGACCGTGCACTCTCTTGGAGCCACCACAGAAAACAGAGGTGCATCCAGCACCACAGAAAACAGAGCC ACCACAGAAAACAGAGGGTGACTGTCATCCCCTCCAGTCTCTGCACACTCCCAGCTGCAGCAGAGCAGGA GGAGAGAGCACAGCCTGCAATGCTAATTTGCCAGGAGCTCACCTGCCTGCGTCACTGGGCACAGACGCCA ... http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?val=NT_022327.14&from=1&to=1 254071&view=fasta >ref|NT_022327.14|Hs2_22483:1-1254071 Homo sapiens chromosome 2 genomic contig, reference assembly CGTATCCCACACACCACACCCACACACCACACCCACACACACCCACACCCACACCCACACACACCACACC CACACACCACACCCACACCCACACACCACACCCACACCACACCCACACACCACACACCACACCCACACCC ACACACACCACACCCACACACCACACCCACACACACCCTAACCCTAACCCCTAACCCCTAACCCTAACCC TACCCGAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCCTAACCCTAACCCTAACCGTAACCCTAA CCCTTTACCCTAACCCGAACCCCTAACCCCTAACCCCTAACCCTTAACCCTAACCCTTAACCCTGACCCT GACCCTGACCGTGACCCTGACCCTAACCCGAACCCGAACCCGAACCCCGAACCCCGAACCCCGAACCCCA ACCCCAACCCCAACCCCAACCCTAACCCCTCACCCTCACCCTCGACCCCCGACCCCCGACCCCCGACCCC CACCCCGAACCCGACCCCGACCCCGACCCAAACCCTAACCCTAAAACCCTAACCCTAGCCCTAGCCCTAG CCCTAGCCCTAACCCCTAACCCCTAACCCTAAGCCGAAGCCTAACTCGTGTCTGACTTTGAGTATTCAGT GCTGCAAACAGGAAGTATTTTATTCACCGTCGATGCGGCCCCGAGGGGTCCCAAAGCGAGGCAGTGCCCC CAAACTCTGTCCTGAGGAGAATGCTGCTTCGCCTTTACGGTGTCCACCGGGTGTGTGCTCAGCAAAACGC AGCTCCGCCTTCGCGGTGCCCGTGGCCCACCCGCCCGGGTCTGTGGTGAAGAGAACGCAGCTCCTAGTCG CAAAGGCACCGCGCCCGCGCAGGCGCAGAGAGGCGCACCGCGCCCGCGCAGGCGCAGAGAGGCGCACCGC GCCCGCGCAGGCGCAGAGAGGCGCACCGCGCCCGCGCAGGCGCAGAGAGGCGCACCGCGCCCGCGCAGGC GCAGAGAGGCGCACCGCGCCCGCGCAGGCGCAGAGAGGCGCACCGCGCCCGCGCAGGCGCAGAGAGGCGC ACCGCGCCCGCGCAGGCGCAGAGAGGCGCACCGCGCCCGCGCAGGCGCAGAGAGGCGCACCGCGCCCGCG CAGGCGCAGAGAGGCGCACCGCGCCCGCGCAGGCGCACACAGGCGCACCGCGCCCGCGCAGGCGCACACA GGCGCACCGCGCCCGCGCAGGCGCACACAGGCGCACCGCGCCCGCGCAGGCGCACACAGGCGCACCGCGC CCGCGCAGGCGCACACAGGCGCACCGCGCCCGCGCAGGCGCACAGAGGGTCGCTGGGCAGGGGTTGGGGG TCGTACTGCAGGTGCACAGCTGCATAAGCGCACAGTCGCAAGCCGCCAGGCGCGGAGCGTGGGGGTGGCG GGGTGCAGGCGCAGAGACGGACGTCCCCGGGGGCGCGGCACAGAGACAGGTGGAACCTCAATAATCCGAA AAGCCGGGCTCGGGAACCCCCTGCTTGCAACCGGGCACTACAGGATCCGCTTGCCCACGGTGCTCTGCCA GTGCGCCCCTTGCTGGCCACTAGGGCAACTGCAGGGCTATCTTGCTTACAGTGGTGTCCAGCGCCCTCTG CTGGCGTCGGAGCATTGCAGGGCTCTCTTGCTCGCAGTGTAGTGGCGGCACGCCGCCTGCTGGCAGCTAG GGACATTGCAGAGCCCTCTTGCTCACAGTGTAGTGGCAGCACGCCCGCCTCCTGGCAGCTAGGGACAGTG CCAGGCCCTCTTGCTCCAAGTGTAGTGGCAGCTGGCTCCCCCGCTGGCAGCTGGGGACACTGACGGGCCC TCTTGCTTGCAGTATAGTCGTCGCACGCCTTCTGGCCGCTGGCGGCAGTACAGGATCCTCTTGCTCACAG TGTAGGGCCCTCTTGCTCCCGGTGTGACGGCTGGCGTCCCCTACTGGCCGCCTCCTGCACCAATTAAAGT CGGAGCACCGGTTACGCCCCATCACTTCTGTAAATTCAAACTGAAACGGAGCTATTAGTGGGGAGAGCTG ATGTCCCAGTTCTTGTTTAACTTGGAAGAAAGATTTTCACCAAGAGGCAGTACAAAGATGACAGATAACT TCATTGAAAAGAAATACAGTGTAAACACCTTACTGTAGAAAAATAGGGAGGACAGGGCTGATCGTGCATG AAAACAGCCTAAGAGTCTTGTGCAGGGAAGTTACTCTAACTGTAACTTACAACAACTTAGTAGATTATAC TTTTGTAAACAGAAGTGAAGCATTTATCTTTTTTCTTGCTTGATTATTTACATAATCAAGCAAAATCTAA CAAAACAATAATATTTTAACAATAATATTTTTAAAACAATAATAGTCTTACTTTGATTATGATCAAAAAT GATGGTTACTACAGAGAGAATTTTTATGTTTCAATGGAAAAGTATAACATGGCCAGGCATGGTTGCACAT GCCTATAATTACAGCACTTTGGGAGGCCAGGAGTTCAACATCAGCCTGGGCAACATGGTGAAACCACGTC TCTACCAAAAATACAAAAATTAGATGGGCATGGTGGCATGTGCCTGTAGTCCCAGGTAATCAGGAGGCTG AGGAGGGAGGATCGTTTGCACCCGGGAAGTAGAGGTTGCAGTGAGCTGAGATTGCACCTTTGCACTCCAG CCTAGGCGACAGAGCCAGATCCTGTCTCAAAAAAAATTTTTTTAAAGGAAAACTACAGCCATTGTGGGTT ATCAGATTCTAGTCTTGTTTCTTGTTTCTGGGCTATTTTTACCTCTTTGTAAACTGCATCCTGCCATCTG ATGAATTTTGTCCCACAATGATACTTGGGGAACAAGAAGCCAATTATTGTCTCTCCTACTAATGTATCTA TTGTCAGTTAATTTGAAGGTCTCCAACCCTGGAACAAAGTTAGAAGAGGAAGGTTCTGCTCCCCAAAATG CATAACCAAATTGTGGTACATTCATGTAATGGAACACTATTTAGCCATAGAAACGAACAAGCTATCAACT CACACAAAGACATGAGTGAATCTTGCATGCACATTGCTAAGTGGAAGAAGACAGTCTGAGGAGGATACAC ACAGTGTGACCTCATTTAATGAGACACTGGAGAAGGCAAACTACACAGATGGGAAGCCATTGGCTCCATG GGGTGGGGGTTTGAAGCATTCCATATGATACTTTAATAGTGGGATATCTGCCACAATGCATTTGTCAAAA TATGCAGAATTTTACAGCCATATGGTTAGAGCAAACTCTATTCAAATTAAATAAAATTACTCAGGATGTG GAGTATCCCAGGACAGAATACATCATGTGAAAAAGCATTTATGCTACAAATTACTATGGTAATTATGCTA CAAATTTATGGTACCATAAATTACCATAGTAATTTGTAGCATAAATTTGTACTATGGTACAAATTACATG GGAGAGTGAAGGTGGGTTAAAACATTCATATTAAAGAACTTCCACTCAGATTGCAAGAAAAGAGAGAGGA ATGGAGATGGTAGCACAAGTCCCTACAATAAAAGTAGATGTTTTGAGATCAGTTCTATTTGTTCTGACAA AAATTAAAGACAGAAACCAAAGTTTAGCCTGAGGCAACAATTAGTTGGGGAATAAGCCAGAGGCATATAT GGCATAGACACATTTAAACATTTCTCTCATATTAATACAAATACTAAAATGACATATCAATTGATTCCAA ATAAAACAAATATTTAAAACATTTAATGAATAAACACTGGGGTCTACAGTAGTAGTTAAAGGAGATCTCA CAAACAGGTTTGGTTTTTGAAGGTTAGAAATGATGGTCTAGAGAATTCATTTCATTCCAGAGACAGAAAG AGGAATATCTTGGGTTCCTTCAGGAATACATCTGGCTTTGCCTCATCTTTGTGTGTTTGAACTATGCATA CGGCAGAAGAAAACATGGGGGTTTCAGAGTTTTTTTTTTTTTTGAGACAGAGTCTTGCTCTGTTGCCCAG GCTGGAGTGCCGTGGTGTTATCTCGCCTCACTGCAACCTCTGCCTTCTGGGTTCACACCATTCTCCTGCC TCAGCCTCCGGAGTAGCTGGGACTACAGGTGCACCACACCTGGCTACTTTTTCTGTATTTTTTAGTAGAG ATGGGGTTTCACCATGTTAGCCAGAATGGTCTAGTTCTCCTGACCTTATGATCCAACCGCCTCAGCCGCC AAGAATGATGGGATTACAGGGGTGAACCACCACGCCCGGCTAAGGATTTCACAGATTTAAGGTGCTAAAA TCACTGGGTTCTCTAAGAAGCCTGGGATTCTTCTGCTGGAAAAATAAGTTTGTTGAGAAAAATGAGTTGG AGGAGGTTGTTATTGAAGTGAAGCAGAATTGTTTTTACTAATCTGCTTATTACCCACTCTGAAGTGTGGA AACAAATTTTTCATGCACAAGGTCATCTTACTGTTACTGGAATGCAGTGGAAAGAGAACAGATTAGTTTT TCTCTCTCAGAACACAACCACTAGAAACGTCCTATGTCAGATGAGATATTGCCCAGTTATTTTCAAAAGA CTGAAAAATCCTGGATGTAAATGTTTGCTGCAAAATAAATACATGCTAGAAACAGAAGCATCTGGGTCAC AGCTATATTAGAGCTACCTGTGTTCCCCTGTTACTGAGATTAAAACAAAAATGTCCAATAAAAATCATTC ACAGTGTGGGAGAGGGGAAGTTGAAGGATGGAAAGGCCAGGCATAAAAAGATTTCAGAATTTCAGTCCAT AAGGAAGTTGCTTTGTGCATTGTCTGTTGCTGTGTGCAAGGTGAAGGCTGGGGCAAGAAAACGTGCAGTA ACAAGGGCTCCTTTGTCCATCTCACCTCTCTAGATACCAAGTTTCAGACATGTTGCATTTTAATTGAAAA GTTGATATAACTTTTTTTAAAAGAATACTTGCAGTGCTTGAAGTGTAAAAAGCTGCTGTGACAAAAAAAA AAGCAGGGAAAGGGATTTTTTTTAAAAAAGCAAACAGCAACAATAAAAAACCCACAAACAACAAATAACA AACAAAAAAACAGAGGAAGAAGTCGAAACACCCTGGGCTGAGACTATTTCCAGGAAGGGGCTACGAAAGG CAGTTGGAAATTCCATTTTCTTTGCAACTGTGGGTTTTCTGGCCTGCTTCCTTTCTAAAGTATATTACTT TCTTTTTGGTTCATGAAGTTATCCCTTTGTGTCTTCTGGAACAGCTATGTATTTTCTTTATCTATCATCT AGCTACCTGCCTATCATCTATCTGTCTTTTCTGCCTTTTGCTATCAAAAGCTTGGGTCAAGCAGGATAGA ATTCCAGTGTATGTTCACTCTACCATTTAAAACAAGAGCTCTTGTAGGCATTCTTCATCACATCACAAAC CTGAGCTTTCTAAAACAGGGTGTGGCAAACTACCATGCATGGGCCATGTCTGACACAGTCTGCATTTGTA AGTAAAGTTGTATTGGGACAAAGCCACATAGATGTGTTATATAACATCTCTGGCTACTTTCATAGTACAA TGGAAGAGCTGAGTCATTGAGACAGAGACCACATGGCTTGGAAAACTTAAAATATTTAACATTTTGCCCT TTGCAGAAAATACTTGCTAACTCTTGTTTTAAAAGATCTTTGTTTAGAATGCTACCTGTTGCCTTCTGGG TAGAATCACAACTATATACCACAATAGACACAACTTGAACCCTGCTTCTATATCCAGCCTCATCTATTAT TTCCTCTCCTTCTTATTTTCCTTCTGGCCGTGCTGATGGATTGTCAGCTTCCCAGATGTGCGAGAATCTC TCCTCCCTTCCCCACATTCTCATGCTCTCCCTCTGCCTCTGGAGAACTACCTGCCCCATCTCTCATGATA AATCCTTTCTTCATTCTTTATGTTGCAGCCCCTTTGCTCCTTCCTTAAGGATGTCTATCTGGCTCTATTT TGGGTGACATGCTCCTTCTGCATCTCCCAGAGCCAGCCTGTGTGTGTCAGCTACAGCATTTCTTTGCATC TCTGTGTCATATATCACCAAATCTGCCTAAGCTTGAGTGAGTCACTGCATGACAACTTCAGACTCCAACA GCATTGTCCGCACTAACCACGAGGCTTAGACATTTGTCCAGTATGCTCAGGGTTGTGGGGTGGTAGCAGT AACCAGCTGGTGAGCATCATCTCCTACATTAGAATGAAATCTGTAGATCTCTGCCATTCATAAGTATTTG GAGTTTAACATTAGCATAAAGATTTTCCTTAAAATAAGAACAAATGGCTTGAGTCAGCTTTTGGAACATA GGATATTTCCACTGGTTCATTTCTGTGTTCAGTATTCCCACATGAATCTAAACACGACTCGACTCTTAGT AGCTGTGTGACCCTGGGAAAGTCACTCAATCGCCCTCAGCTAAATTATGTGTGTGAGTAATGAGAAGAGA GTTGTTGTTTGTATTTAGTGAATAATAACAAACAAAAGGCATTTAGTTTTCTGGAACCTGATATGTAGTA GTTCCTCATGAAATACTAGCTCTGTTGATAAAACTAGACTGAAAGGAGCTTTCAAAGTCAACAACAACAT CATGCAGTGAAGGATGTAGATGAGAAGCTGCTGCTGCAGCCTGGAGCTCCTGGAGGCCCGTTTTGTCCAT GATTTAGCAGGAATGCATTACCTTTCCATCAAGAGATGCTGCCCACAGAAACCAAGGCCATTCTTTGAAG ACAAACATGTTTTAATAGCATTTACATTATATAATAGTGTAATATAATTATTAATAATGTAAAATTATTT AGATTATTATGTTATGACTTTTGTACAGACCTTTACACCTAGGTATTCTGAAGTTGGTGGTCTGTGAGTG GCATCGAGTGATGACTGACACACTCTGACCTGGGGTAGAACAACACGTCTCCCTGCAGTTTGCTGAATTT TAGGGCGTCACCACCTGTTTTCAAGAGTGTGTTTTTCTATCCTCCCGAGTTTTGCCCACCTAAGCAATGG TTTTGCTGTAATAAAGAATTACACTATTTACCAAAATGTTCCTTTGGAGAATAAAGTTTTCTTAAACTAT CAGGACCATAGCTAATGTCAGTGGCGCCAAGGATCAGAAGGTAAAAAGGCCTTTTTTTGGGGGGGCCAAG AGAAAAAAAATCACCACATTTCAAACTGTCTCATGCTAGTCACCGGAAAATTAGAAATGAACACACTCCC TCCCAGCCCAGTCACAGCTACTAAATAACAAAGATCTCCTGCAGGTGCCTGCAGGTGCTCCTTTGTGCGC CTGGGGTTGCTGGCTGGCACTGGGCAGCAGGCAGCAGAGCTGGTCCCACACAGGCACATTGAACAGCCTG GATCTTGGCCTGGCGCTGGCTGGGAAGCTATTTGATGTCAGGCTCAATGTGGACTTCTGAATTGAAAGGA GAGTATGGGTCACCCAGCCCCACTTACTCATTTTACAAAGAATGAAAATGGGGCTCTATGCCAGACGTGA GAGTACACATTGTAAGGCTGTGCAAGCTCGCTGCACTTGTATCCACTCAGCACACACTTACTGAGTGCCG AGTGTCTCCAGCATGAGAGGGGCTCTAGTTCCCGGGGTCCCACCCTCCACAGAGGATGGCAGCACTTTGA GGGACAGAGGTGCAAAGAGCAAGTTGGGGGCCCTTCTGCTGGAGAGGTGGCTGGGGAGGGTCCTTAGAGG AAGTGACACCTGAGCTCTTCTCTGAAGGGTGAAGCTGAATTACTTGAACCTTTGGGCGAAGGGGTGTCTA GGAAAGTGGAGCCTGTGAGTCAAAAGCAAAATGACTTGTCCAGAGAAGTGTGACAAGTTCCATATTCTTT CTATGCCAAACTTGAATAGGAATCACCAAAGGAAAGAGCAGGATCCTGGAGCCAGGGCCTTGGATTTCAC CCGCTGGCAATGGGAATGTTCACTGGGAATTTTGGGGGGCAAAACGTGAAAGTGTTTTCTCTTAGCTCCA ATTCTCTCTGTCTCTCTGTCTCTTCCTGTCCCTCTCTCTCTCCCTTATCTTTAATTTTTCTATTATTCTA AGAAAACACAGATGTCTCAGATGTGGGGATTAGCAGCCTGCCTCTTTCTGGATGACTTCAGGGGAGCACT TTGGCCTCTGTAAGCTTATTTACAATAATTCATGAATCTTGCAAAAAAAAGTCATGGTAGCAGAGGTTAG AAAATCTCCTAGTATTTCTTCTGATACTTTGAATTTATGATTAATATATTTAGTCTTCATCTTCTGAAAA GTTACCAGTTGCACAGTGAGGACCATAAAGGGAGTCTGTTTCGGTGGTTTCTGGCTGCAACAGTCAGTGG TTTTGCAGCAATAGCATTGCATGTGGGTTTTAGGCTGATGATGCTCAACAGTGGACAATCCTTTTCACCT GCCTTGGCTGCACTGCCCACCCTTCCATACAGTGCGGGGTCACAGCTGAATTCCCCAAGATACCTTGCAG GATGTCGGCTTCTGAACTTTCAGGTGTCTTCCAGGTGAAGGCTTGGTCTCATAGCCTTTGTGGCTTCCTC CAGGTAACACTTGGTTTTTTGACCTAACCCTGGTATTTGTGTGGCACACGTGTGAATGTGTGAATGTGCT CCCTGTGGCAGTGCTGAGGAAGGGCTCAGTCATCACAGATGCGAAAAGGCAGTGTGCTCTTTTCCAACAT CTCCAGTCTTGTATTATTTTTACCCATCAGCCCATTTAAAAAAGAAACACAAAAAGCCTCCTGTTAGAAT TAAATCCCCTCTGAAGATAATGGGTATTTTTAAAATCTTTAATTTTGTTTATAGTCACATTTGCTCCCAG TGCCTGCCAGGATCCACTAGAGGGCAGAGACACCCGTGTGTATTTGGCTGGGTCTCACTCCTGAGAGAGG AGACCTTCCTCTGGACCAGGTACCAAGACAGACCCTAATTGGAAAATGTTGTCTTCTAAGGAAAGATGCA GCACCCACTAGAAAGGAAAACACCAGAAAGTTTTAAAAAGGAAAAACCAAGGGAAGCCGAGGAGCTTCTT GATAGGGGACACAGCAGAGGCCACCCAGCTGGGGTGAATCTCCACAGTTCCCCAACGGGACGGCGGGTGG GAGCCCCAAGTCACTGGCCCCTGCAGCATGGGGGCAGCTGCTGAGTGGTAATCAAAACAGACACCCTGCC CTCCCGCAGCCAAACTCCAGTGCCAGGCCCAGCGGCAGCAAATAAGAAAACCTCGGTTTCTCTACCTGCA TCAGCTACACGGTGCTCACACACGGGAGGCATCAGCCAGTTTTCTCAATTAAAGAGGTAGAAACAAAATG TGTCTTCACTACTTTTTGAATTTACCATGTTATCTAAAGTTTTAATTTAATTGAATGAATAAACTCCCTA TGCATCTGGACACATGCAGGAAAATTCACAAACATTTCAAACCAAAACAGAGTATTTTGCCAAAAGATAA TTTCTTTGATACGTGAATGTCACTTTTTTCTATCTTTTAGTGATTTCAGTGTAATGAAATTGGGAAGTCT GTGCCTCTAAAAGACTTTTTTAAGAGCATGGTATTTCTCCATTTTGAAAAAAATAGTTGGCAAAATATCT TCTACTGTAGGTAGAAGTTAATTGGCTGAGAGTAATAAACAGAAGATTAAAAAACGACCTTTATCCCTGC TATTCTGTCAAGGGCTACAGTGAATTACACACCCCGGCATGGGTTTGCACGCCACGTGCTGGAAGCCAGC AGTCATGCAGGCCATGCTCTCCCACACTTAGAAAAAAAGCCCATGAGAAAGAGTTCCGTCAAGTTCACAC AGAATCACCTCCAGCAAGACCTGGAAAAAGCTCAGTTCCACAAAATACCTGTGTCCAAATACTTTGAGTG CACAGCTCTGGCATCAGGTTCCTCTGAGGACAGGCTCTGAGATGGATTTCTGGATGGAAGCTGCTGCCGG AGGAGACAATGCCACTGCAGATGGCTCATGCTGCTCCCATGCTGCAGGGGCCAGTAACTTGGGGCTCCCA CCCGCCGTCCTGTTGGGGAACTGCGGAGATTCACCCCAGCTGGGTGGACTCTGCTGTGTCCCCTGTCAAG AAGCTCCTCGGCTTCCCTTGGTTTTTCCTTTTTGAAACACTCTGGTGTTTTCCTCTCTGGTGGGGGCTGC ATCTCACCTTAGAAGACAACATTTTCCAATTAGGGGCTGTCTTGGTAGCTGGTCCAGAGGAAGGTCTCCT CTCTCGGGAGTGAGGCCTGGCCAAGTAACTCCAGCCAGAACTCTCACTGAGTGGAGCTGGATCTGCCCTG TTCTCCTCCCATCCTCGTGCTGACTGTGAAAATCCATCCGTGCCCTATGCAAAGTCCTGCATCTTGGACT GTAAAATGGCAAAAGCCAAATTTAAAACAGATGGTTATATTGACTCTATGAGGAAAAGAAAGTTCTAAGG TAGACAATTGGTAAGCAAACAATTATGTGTAACTTGTTAGAACACTAGGGTGTAGTTTATTCGTCTCACT GATTATTTTCTGTTTAACAGGCTGGCTAAGAGCCAGAGGGAGAGAAGGCTGGCTGGGAATTGAGAGGCAT GAGGTCACCTCAGTCCCAACATTTCCATGTAAACGATGATGCAAGGTGGGCTGATGGCAGGAGTCCCTGG AAATTCTCACAATCTCAGCTCTTAACTTCTGTAAAATATTATGTCATTTAGGATCTCTTTAACAAATAAC GTTTTTTCTAATTTCAAAAGTGTATATTCTCTTTGGAGGATCTTTGGTAAATATAAAATGAGTTATAAGA GAGAGAAAAATTATTCACAATTTTATCACTCAAATTTTGATAATTATATTCCTGCATTTTTAATGAAATG TAGAAATTTTAGATTATACTATACATAAAATGTTGTTTCTGTTTTTTCATCCAATATTAGATAATAAACG TTTTACGTGGCATAAACTATATATGTAAATCAGCTATTTCCAAACCTGGATGCTTGATTTAACCCTCCTT ATACCGTTAGCCATTTAAATGATTTCTCCTTTATCCTATGAATAACACTTCCACCAGTTATTATTCTTAT ATATAGCTCATTCAATCACGCATAATCTTGTTGAACATTTACTTACAATTTAATTGCATACTACCTGAGT GGATTGTGGTTATATGTTTATATGCTTATTCCAAATATAGTGCTAAGATTAGCATTAGAGACAGGAAAAT ATTCACAGGTTTTGAAACCAGAAGGAGCCAAACACAAATCCACGATCCAGCTCTGCATACTCTCACCCAG CCTTAGTTTTCTTACACAGAGAATGAAGACAATACTATTTGCCTTGTGGCATCTCTGTGAAGTTAAAGGA GACATCGATTGTACACACAGCACTGCATGGGCGGCGGGAGGCTGGGCCCCTACCAGCTCTAAGGACAATC ACCATTGGATGCTCCACGATCCTACTCTCAGGAGGCTCGTATGCCATATGCCATGTGAGTGTCACTTACC CGGTGAACACATACTTGTTTATTATAAATTACTCCCGTGCTGTTTTCTTTGTTTTACATGTTCACAAATC TGTTTAAAAAGGTACAATTATGAAATTAAAAGTTAACTAAAGGGGGATGTTTTAATTATCTCTGAAATTT AAACCCCCAAATCCAGGTAATAAAGCAAGGAAATGTCTTACAGCCCAACACTTGCCATCAATACTTTTTC GATGTTAGTGGGCAGGGGAGGGTAGTGAAAGTGAAGGAATCAGAGCTCTGATGGGTGCACATTGTCTTCC CTACAAATCCATTTCTTGTCCAGCTTTCCTTCCTCTTTGGGGCTGCTCTATCCTTTTCTGCACATTTGAA CTCCTCCGCTGTGGGCCATTCTCATTTGCTTTACTTCCTAGTCTGAATTCCATGGGAACTGCATTTAAGA GGAGAGGGGAACCACTTTGGGACTGGAGGAAGTTCACCTTATGCCATATGCCTGCCTCCTTCCTCTACAG TGAACGGTCTCTGGTGTCCCTGGGTGTTCAGTTTCTTTCCACTCATGCGTTACTGACTGTTCAGGTGGCA AATGGCCCATGACCTTTATGGTACTTAAGGGAAAATAATTAAAAGCTGTGTTTCTTTTTTAGTTAACTTT TATTTTAGGTTTGGGGGTACATGGGTGGGTTTGTTATACGGGTAAACACGTGCCACAGGAGTTTGTTGTA ... Yukarıdaki dizilimler nasıl elde edilmiştir? Bunu tüm incelikleri ile anlatmak kolay olmasa gerek. Hele anlamak. Üstelik bir istatistikçi için! Biz, olguyu basitleştirerek kendi istatistik dilimizde ele almaya çalışalım. 30 baz’dan oluşan (30 bp uzunluğunda) bir dizi göz önüne alalım. Başka bir ifade ile A,G,C,T harflerinden yan yana dizilmiş 30 harflik bir metin göz önüne alalım. Bu dizinin tümünü gözlemleyemediğimizi (aynı anda metnin tümünü göz önüne serip okuyamadığımızı) düşünelim. Örneğin, 5 bazlık dizi parçaları (fragment’ler) gözlenebilir (göz önüne serilip okunabilir) olsun. Ancak, 30 baz’lık metni arka arkaya dizilmiş 6 tane 5 bazlık parçaya bölüp de ele almak mümkün olamasın. Ayrıca 10 bazlık dizi parçaları olan fragmentler de 30 bazlık metnin içinden rasgele yerlerden kopup gelmiş olsun. İki fragment birbirinden ayrık olabildiği gibi arakesitleri de olabilir. Örneğin bir fragment hemen metnin başındaki parça, diğeri metnin üçüncü harfinden sonraki parça ise 3 bazlık bir arakesitleri (çakışan yerleri) var olacaktır. Fragmentler aşağıdaki şekilde gösterildiği gibi hizalanabilsin. Hizalanmış fragmentlerin birleşimi bir kontig (contig) oluştursun. Aşağıda 10 fragmet ve 3 kontig görülmektedir. Kontigler metnin yeniden ortaya çıkarılmasında kullanılacaklardır. Ancak, kontiglerin yerleri ve yönleri belli değildir. fragment kontig (contig) metin Yukarıdaki kontigler ile birlikte, kontiglerin altına çizilen metin aldatıcı bir gösterimdir. Bunu aşağıdaki örnekle açıklamaya çalışalım. Aşağıda 5 tane 10 bazlık fragment vardır. Bu fragmentlerin oluşturduğu konticleri belirleyip bir metin oluşturmaya çalışalım. CACACCACAC TATCCCACAC CCCACACACC CCACACACCA CACCACACCC Bu fragmentler ortak kısımları alt alta getirilerek sütunlarda aynı harfler olacak şekilde hizalanmaya (çakıştırılmaya, yapboz gibi) çalışılsın. Aşağıda üç tane farklı hizalanmış durum ele alınmaktadır. Başkaları da olabilir. 1. CACACCACAC TATCCCACAC CCCACACACC CCACACACCA CACCACACCC TATCCCACACACCACACACCACACCC bir tane kontic Fragmentlerin bulunduğu satırların aşağıdaki gibi de yazılabilir. yeri değiştirilerek bu hizalama TATCCCACAC CCCACACACC CACACCACAC CCACACACCA CACCACACCC TATCCCACACACCACACACCACACCC CACCACACCC CCACACACCA CACACCACAC CCCACACACC TATCCCACAC TATCCCACACACCACACACCACACCC 2. CACACCACAC TATCCCACAC CCCACACACC CCACACACCA CACCACACCC CCACACACCACACCC TATCCCACACACC iki tane kontic Fragmentlerin bulunduğu satırların yeri değiştirilerek bu hizalama aşağıdaki gibi de yazılabilir. CACCACACCC CACACCACAC CCCACACACC CCACACACCA TATCCCACAC CCACACACCACACCC TATCCCACACACC 3. CACCACACCC CCACACACCA CACACCACAC CACACCACACACCACACCC CCCACACACC TATCCCACAC TATCCCACACACC iki tane kontig Çok farklı hizalamalar olabileceği gibi kontiglerin de sıralanışı belli değil. Yukarıdaki hizalamalardan aşağıdaki dizilimler çıkabilir. ...TATCCCACACACCACACACCACACCC... ...CCACACACCACACCC...TATCCCACACACC... ...TATCCCACACACC...CCACACACCACACCC... ... CACACCACACACCACACCC... TATCCCACACACC... ... TATCCCACACACC... CACACCACACACCACACCC... Metnin içinde yan yana olan CACCC harfleri sadece bir yerde ve kırmızı renkli olsunlar ve fragmentlerde de bu harfler kırmızı renkli görünsün. CACACCACAC TATCCCACAC CCCACACACC CCACACACCA CACCACACCC İlk önce renkli harflerin bulunduğu fragmentleri, CCACACACCA CACCACACCC CACACCACAC CACACCACACCCCACACACCA olarak hizalayıp, diğerleri ele alınabilir. CCACACACCA CACCACACCC CACACCACAC CCCACACACC TATCCCACAC TATCCCACACACCACACCCCACACACCA kontic Ortaya çıkan dizilim: ...TATCCCACACACCACACCCCACACACCA... dır. Fragmentler aşağdaki metinden 10 harflik dizi parçalarıdır. Fragmentlerin sol uçlarındaki harfler metinden rasgele seçilen 10.,3.,6.,21. ve 12. harflerdir. Metin: CGTATCCCACACACCACACCCACACACCAC Rasgele seçilen fragmentler: CACACCACAC TATCCCACAC CCCACACACC CCACACACCA CACCACACCC Hizalama sonucundaki metin: ...TATCCCACACACCACACCCCACACACCA... Rasgele olarak başka 5 fragment seçildiğinde hizalama başka bir dizilimle sonuçlanabilir. Neler ile karşılaşılabilir, sorusunun içeriğindeki olasılık hesaplarını yapmak oldukça zordur. Metin (genom) üzerinde tek olan ve yerleri bilinen CACCC gibi markır (marker) veya çapa (anchor) denen kısımlar olabilir. Bu çapalar, yani markır’lar bazı fragmentlerin birbirine demirlenmesini ve kontiglerin sıralanmasını sağlamaktadır. Markır’lar dizilemede en önemli yol gösterici işaretlerdir. fragment kontig (contig) metin markır (marker) Dizileme işlemlerinde fragmentler aynı uzunlukta kesilememektedir. Fragment uzunlukları rasgele olmaktadır. Kesme işleminde restriksiyon enzimleri (restriction enzyme) kulanılmaktadır. Restriksiyon (ayırma) enzimlerinin hepsi DNA’yı şekerin 3’ karbonu ile fosfat arasında kesmektedir. Restriksiyon enzimleri tarafından üretilen fragmentler 5’ fosfat ve 3’ hidroksil uçlarına sahiptir. Bir restriksiyon enzimi, DNA dizisinde restriksiyon sitesi denen kendine özel baz çiftlerini bulup fosfodiester bağıntısını hidrolize ederek DNA yı yarıp kesmektedir. EcoR1 enzimi ...GAATTC... ...CTTAAG... ...G ....CTTAA AATTC... G... Bazı enzimler ve özellikleri (P.J.Russel, (2002) iGenetics, sayfa 166). Enzyme with 6-bp Recognition Sequences Enzyme Name Pronunciation BamHI “bam-H-one” BgIII “bagel-two” Organism in Which Enzym Is Found Bacillus amyloliquefaciens H Bacillus globigi Recognition Sequence and Position of Cut 5G GATC C 3 3C CTAGG5 A GATCT T CTAG A EcoRI “echo-R-one” E.coli RY13 G AATTC C TTAAG HaeII HindIII PstI SalI SmaI Enzyme with 4-bp Recognition Sequences HaeIII HhaI HpaII “hay-two” “hind-D-three” “P-S-T-one” “sal-one” “sma-one” “hay-three” “ha-ha-one” “hepa-two” Sau3A “sow-three-A” Enzyme with 8-bp Recognition Sequences NotI “not-one” Enzyme with Recognition Sequences That Are Not Symmetrical BstXI “b-s-t-x-one” Haemophilus aegyptius Haemophilus influenzae Rd RGCGC Y Y CGCGR A AGCTT T TCGA A Providencia stuartii C TGCA G Streptomyces albus G TCGAC Serratia marcescens CCC GGG G ACGTC C AGCT G GGG CCC Haemophilus egyptius GG CC Haemophilus hemolyticus G CG C Haemophilus parainfluenzae CC GG C GCG C CGG G GC C Staphylococcus aureus 3A Nocardia otitidis-caviarum Bacillus stearothermophilus GATC CTAG GC GGCCGC CG CCGG CG CC AN N N N N NT GG G G T N N N N N N A C C Fragment uzunluğu belli bir olasılık dağılımına sahip bir rasgele değişken olarak ele alınabilir. Dizileme konusunu ilerideki derslerde ele alacağız. Şimdi, dizilemeye başlamadan önce yapılması gereken bazı olasılık hesaplamalarına değinmeye çalışalım. Örneğin, belli bir dizilemede: * kontigler tarafından kapsanan genom (metin) yüzdesi nedir? * oluşabilecek kontig sayısının beklenen değeri nedir? * kontiglerin ortalama uzunluğu nedir? gibi soruların cevaplanması gerekebilir. Bu sorulara geçmeden önce kısa bir hatırlatma yapalım. Hatırlatma: Sürekli düzgün dağılıma sahip X fonksiyonunun grafiği, U (0,100) rasgele değişkeninin dağılım 1.5 1 0.5 0 -0.5 -20 0 20 40 60 80 100 120 ve 1 , y 1, 2,3,...,100 100 olasılık fonksiyonu ile 1,2,3,...,100 değerleri üzerinde kesikli düzgün dağılıma sahip Y rasgele değişkeninin dağılım fonksiyonunun grafiği, fY ( y ) 1.5 1 0.5 0 -0.5 -20 0 20 40 60 80 100 120 olmak üzere, t R için FX (t ) FY (t ) yani P( X t ) P(Y t ) dır. Aşağıda yapılacak olan olasılık hesapların bazılarında kesikli düzgün dağılım yerine sürekli düzgün dağılım kullanılacaktır. G tane bazdan oluşan bir dizi (metin, genom), fragment uzunluğu L olan N tane fragment kullanılarak dizilenmeye çalışıldığında NL a G sayısına, örtü (coverage) sayısı denir. Genom uzunluğu büyük olsun. Fragmentlerin metinden rasgele alındığını varsayalım. Fragmentin sol ucundaki noktayı (0,G-L) aralığındaki düzgün dağılımdan gelen bir rasgele değişken olarak düşünebiliriz. Fragment uzunluğu, genom uzunluğuna göre çok küçük ise U(0,G-L) düzgün dağılımı yerine U(0,G) düzgün dağılımında olasılık hesabı yapabiliriz. Bir fragmentin sol ucunun h uzunluklu bir aralığın içine, örneğin (t , t h) aralığının içine düşmesi olasılığı h/G kadardır. Rasgele seçilen N tane fragment’ten, sol uçları h ) olmak üzere, G sol uçları h uzunluklu aralığın içine düşen fragment sayısının beklenen değeri E (Y ) Nh / G dir. N sayısı büyük ve h küçük olduğunda Y rasgele değişkeni yaklaşık olarak, Nh / G parametreli Poisson dağılımına sahiptir. Aralığın uzunluğu h=L olsun. N tane fragment’ten sol uçları L uzunluklu bir aralığın içinde olanların sayısı yaklaşık olarak NL / G a parametreli Poisson dağılımına sahiptir. Şimdi, metin üzerinde bir t t ( L, G) noktası göz böyle bir aralığın içinde olanların sayısı Y rasgele değişkeni olsun. Y b( N , önüne alalım. Bu noktanın sol yanında L uzunluklu (t L, t ) aralığını ele alalım. Sol ucu bu aralın içinde bulunan en az bir fragmentin olması (bizim noktamızı içeren en az bir fragment’tin bulunması) olasılığı, P(Y 0) 1 P(Y 0) 1 e a dır. Metin üzerinde seçilen her hangi bir t noktasının, rasgele alınan N tane fragment’ten en az biri tarafından kapsanması (örtülmesi) olasılığı p 1 e a olup, bu olasılık bu noktanın okunması olasılığı olarak düşünülebilir. Metindeki en az bir fragment tarafından örtülen (okunan) kısmın oranı’nın beklenen değeri, bir noktanın okunma olasılığı olan p 1 e a değerine eşittir. G=100000, L=500, N=300 için a NL 300 500 1,5 G 100000 olup, p 1 e a 1 e1.5 0.77687 %78 NL sayısına bağlı olarak, metinde kontigler (en az bir fragment) G tarafından kapsanan kısmın oranı’nın beklenen değeri bazı a değerleri için aşağıdaki gibidir. dır. Örtü sayısı olan a 2 a: 1-exp(- a ): 0.86466 4 0.98168 6 0.99752 8 0.99966 10 0.99995 12 0.99999 14 1 Görüldüğü gibi a değerini 8 ‘den daha büyük tutmak büyük bir olasılık artışı sağlamamaktadır. Başka bir soruya cevap aramaya çalışalım. G=100000, L=500, N=1000 durumunda oluşabilecek kontig sayısının beklenen değeri nedir? Her kontig bir tek “en sağ fragment’te” sahiptir. Kontiglerin sayısı “en sağ fragment” sayısı kadardır. “En sağ fragment” sayısı bir rasgele değişkendir. Bir fragmentin “en sağ fragment” olması olasılığı nedir? Belli bir fragmentin “en sağ fragment” olması için onun üzerinde hiçbir fragmentin sol uç noktası bulunmamalıdır. Bunun olasılığı e a dır. “En sağ fragment” sayısının beklenen değeri N e a dır. Kontiglerin sayısının beklenen değeri Ne a =Ne NL G dır. G=100000, L=500 için a değerine bağlı olarak kontiglerin sayısının beklenen değeri aşağıdaki gibi olmaktadır. NL a G Ne NL G : 0.5 : 60.7 0.75 70.8 1 73.6 1.5 66.9 2 54.1 3 29.9 4 14.7 5 6 6.7 3.0 7 1.3 Kontiglerin sayıları gibi boyları (uzunlukları) da bir rasgele değişkendir. Kontiglerin boy ortalaması nedir? 2 a: e 1 Kontiglerin boy ortalaması= L : 1597.3 a 4 6 8 33536 186250 10 a 6699.8 1101300