Tıpta Bir Veri Madenciliği Uygulaması: Türk Popülasyonunda Organ Nakilleri için CPRA Hesaplama Hüsnü ERTEN1, Nursal ARICI1, Nilnur EYERCİ2, Ahmet YEŞİLYURT3 Gazi Üniversitesi, Bilgisayar Mühendisliği Bölümü, Ankara Kafkas Üniversitesi, Tıbbi Biyoloji ABD, Kars Dışkapı Yıldırım Beyazıt Eğitim Araştırma Hastanesi Doku Tiplendirme ve Genetik Tanı Merkezi, Ankara 1 2 3 [email protected], [email protected], [email protected], [email protected] Özet: Araştırmada, Türk toplumundan elde edilen doku tipi bilgileri ile bu topluma ait allel ve haplotip frekansları hesaplanmıştır. Haplotip frekans hesabı, Arlequin programının EM Algoritması ile çalıştırılmasıyla elde edilmiştir. Bulunan frekans değerleri kullanılarak Türk toplumu için Calculated Panel Reactive Antibody (CPRA) değeri hesaplaması yapan bir uygulama geliştirilmiştir. CPRA değeri organ nakli bekleyen bir hasta için, bulunduğu popülasyondaki uygun olmayan donörlerin yüzdesini ifade eder. Ülkemizde ve tüm dünyada organ nakli yapılacak hastalar için uygun donör araştırılırken, Panel Reactive Antibody (PRA) testlerinden faydalanılır. Allel ve haplotip frekansları toplumdan topluma farklılık gösterdiğinden ve ülkemize özgü hazırlanmış bir PRA paneli bulunmadığından, ülkemizdeki PRA yüzdeleri tam olarak gerçeği yansıtmamaktadır. Topluma özgü frekans değerleri ile yapılan CPRA hesaplaması ile yeni bir panele ihtiyaç duyulmadan, daha gerçekçi değerler elde edilecektir. Bu uygulamanın daha önce ülkemiz için hazırlanan bir örneği bulunmadığından organ nakli alanındaki bu açığı kapatabileceği düşünülmektedir. Ayrıca Türk toplumu için hesaplanmış olan allel ve haplotip frekansları dikkate alınarak, Türk toplumu için daha uygun PRA tarama ve tanımlama test panelleri geliştirilmesine imkân sağlayabilecektir. Anahtar Sözcükler: Veri Madenciliği, EM Algoritması, Organ Nakli, CPRA, HLA, Haplotip Frekansı, Türk Popülasyonu A Data Mining Application in Medicine: CPRA Calculation for Organ Transplantations in Turkish Population Abstract: In this paper, allel and haplotype frequencies has been calculated by attaining tissue type information from Turkish population. Haplotype frequency calculation has been attained by executing Arlequin programme with EM Algorithm. An application which calculates Calculated Panel Reactive Antibody (CPRA) for Turkish population has been developed by using attained frequency values. CPRA value refers to the percentage of unsuitable donors in this population for patients waiting organ. In our country suitable donor for patients is determined by Panel Reactive Antibody (PRA). As allel and haplotype frequencies are different for each population and there isn’t any prepared PRA panel which is peculiar to our country, the PRA percents in our country don’t reflect the realitiy. By using CPRA calculation with peculiar frequency values for the population, more realistic values will be attained without the need for a new panel. It has been thought that it will close the deficit in organ transplantation as there hasn’t been any such application for our country. Furthermore, it will give the opportunity to develope more appropriate PRA screening and defining test panels for Turkish population by taking the allel and haplotype frequencies for Turkish population into consideration. Keywords: Data Mining, EM Algorithm, Organ Transplantation, CPRA, HLA, Haplotype Frequency, Turkish Population 1. Giriş Araştırmanın amacı Human Leukocyte Antigen (HLA) antikor pozitifliği olan bir organ nakli hastası için Türk toplumundaki muhtemel uygun donör oranının hesaplanmasını sağlayan uygulama geliştirmektir. Bu uygulama ile doku tiplendirme laboratuvarından elde edilen HLA doku tipi bilgileri kullanılarak HLA antikoru pozitif hastalarda CPRA değeri hesaplanmaktadır. Organ nakli bekleyen bir hastanın, insan lökosit antijenlerine karşı, antikor oluşturup oluşturmadığı ve ne kadar pozitifliğinin olduğu Panel Reaktif Antikor (PRA) yöntemi ile belirlenmektedir. PRA, paneldeki donör hücrelerinin pozitiflik yüzdesi olarak ifade edilir. Panel, kullanılan yönteme bağlı olarak 20 ile 60 donör hücresinin test edilmesiyle oluşmaktadır [1]. Şuan kullanılmakta olan yöntemler ile ancak panel içerisindeki antijenlerin oranına göre bir PRA pozitiflik değeri tespit edilebilmektedir. Bu nedenle panel içerisindeki antijen oranlarının toplumun antijen oranları ile uygun olmadığı durumlarda gerçekçi bir PRA değeri elde edilememiş olur. Günümüzde rutin çalışmalarda ülkemiz için özel olarak hazırlanmış PRA paneli olmadığından, Türk toplumuna yakın olduğu düşünülen Avrupa toplumu için hazırlanan paneller kullanılmaktadır. Bu durumda hasta organ bekleme listesine alındığında tam anlamıyla doğru PRA pozitifliği yansıtmadığından bu durum donör seçiminde yanlış yorumlara yol açmaktadır. Özellikle donöre spesifik antikorların araştırılmasında kullanılan crossmatch testlerinin yapılamadığı kalp nakli gibi kritik organ nakillerinde PRA yüzde oranı çok daha önemli bir rol oynamaktadır. Araştırmada, Türk toplumundaki allel ve haplotip frekansları hesaplanmış ve bu frekans değerleri kullanılarak Calculated PRA (CPRA) değeri hesaplaması yapan uygulama geliştirilmiştir. Her geçen gün artan organ nakil sayıları göz önünde bulundurulduğunda, bu uygulama sayesinde, organ nakli bekleme listesindeki pozitif HLA antikoru bulunan hastalar için popülasyondaki uygun donör oranı belirlenebilecektir. Böylece hem klinisyenlerin hem de doku tiplendirme laboratuvarlarının bu uygulamayı kullanarak organ nakillerinde hastanın PRA yüzdesi hakkında daha doğru ve daha kolay yorum yapabilecekleri düşünülmektedir. Çalışmanın ikinci bölümünde araştırmada kullanılan veri madenciliği yöntemleri tanıtılacak, üçüncü bölümünde araştırmanın yapıldığı tıp alanı ile ilgili genel bilgiler verilecek, dördüncü bölümde uygulama anlatılacak ve beşinci bölümde ise sonuç ve öneriler tartışılacaktır. 2. Veri Madenciliği gerekmektedir. Hastane Bilgi sistemlerinden veya diğer tıbbi veri toplayan sistemlerden alınan veriler üzerinde yapılan veri madenciliği çalışmaları, hem uzmanlara hem hastane yönetimine hem de hastaların daha kaliteli bir hizmet almalarına yardımcı olmaktadır [6]. Ülkemizde de tıp alanında yapılan birçok veri madenciliği çalışması vardır. Ancak alan çok geniş olduğundan sağlık sektöründe yapılması gereken daha pek çok araştırmaya ihtiyaç bulunmaktadır. Bu araştırmanın konusu olan CPRA hakkında da Türkiye’de yapılmış bir çalışma bulunmamaktadır. Araştırmanın tıp alanındaki bu eksiği gidererek yeni çalışmaların da önünü açacağı düşünülmektedir. 2.1. Veri Madenciliği Yöntemleri Ham verinin bilgiye dönüşümünü sağlayan veri madenciliği modelleri, tahmin edici (predictive) ve tanımlayıcı (descriptive) modeller olarak iki ana başlık altında toplanır. Günümüz teknolojisinin gelişmesine bağlı olarak, elektronik ortamda depolanan veri miktarı da hızla artmaktadır. Ancak depolanan verilerin hızla artması, veriler arasındaki ilişkilerin pratik olarak analizini zorlaştırmaktadır. Bu zorluktan dolayı, büyük miktardaki veriler arasından, gelecek ile ilgili tahmin yapabilmeyi sağlayabilecek bağıntıların bulunması, analizlerin yapılması ve karar verme süreçlerinde bilgisayarların kullanılması ihtiyacı ve fikri doğmuştur. Bunun sonucunda, çeşitli matematiksel ve istatistiksel hesaplamalara dayanan algoritmalar geliştirilmiş ve “Veri Madenciliği” kavramı doğmuştur [2]. Veri Madenciliği, verilerin içerisindeki gizli kalmış desenlerin, ilişkilerin, değişimlerin, düzensizliklerin, kuralların ve istatistiksel olarak önemli olan yapıların yarı otomatik olarak keşfedilmesi işlemidir. Başka bir deyişle, veri madenciliğinin amacı ham veriyi anlamlı, etkin ve yararlı olan bilgiye dönüştürmektir [3]. Veri madenciliğini de içeren Veri Tabanlarında Bilgi Keşfi Süreci, birbirini takip eden şu adımlardan oluşur: verilerin temizlenmesi, bütünleştirilmesi, seçilmesi, dönüştürülmesi, veri madenciliği tekniklerinin uygulanması, modelin değerlendirilmesi ve ulaşılan bilginin sunumu [4]. Büyük miktarlarda verinin üretildiği hemen hemen her alanda veri madenciliği yöntemleri ile bu verilerden yeni bilgiler elde edilmeye çalışılmaktadır. Yine de genellemek gerekirse veri madenciliği; pazarlama, finans, bankacılık, sigortacılık, telekomünikasyon, endüstri, meteoroloji, uzay bilimleri, kimya, biyoloji, ilaç sektörü, genetik ve tıp gibi alanlarında kullanılmaktadır. Sağlık sektörü bilginin içerik ve yapısal anlamda en hızlı değiştiği alanlardandır [5]. Hastane bilgi sistemleri sayesinde düzenli olarak tutulan veriler, her geçen gün hızla artmaktadır. Bu nedenle, tıp alanındaki mevcut veriler oldukça fazladır ve bu veriler hayati öneme sahiptir. Sağlık hizmetlerinin en hızlı, en doğru, en yüksek kalitede ve ihtiyaca cevap verecek şekilde sunulabilmesi için sağlık çalışanlarının en doğru ve güncel bilgiye en hızlı şekilde ulaşması ve bu bilgiyi doğru bir şekilde kullanabilmesi Şekil 1. Veri madenciliği yöntemleri Tahmin edici modeller sonuçları bilinen verilerden hareket ederek bir model geliştirilmesi ve bu modelden yararlanılarak, sonucu bilinmeyen veriler için sonuç tahminini amaçlamaktadır [7]. Tahmin edici modeller sınıflandırma ve regresyon yöntemleri olarak iki alt gruba ayrılır. Tanımlayıcı modellerin amacı, karar vermeye rehberlik etmede kullanılabilecek mevcut verinin tanınması, keşfedilmesi ve içerdiği örüntülerin tanımlanmasıdır. Tanımlayıcı modeller, kümeleme ve birliktelik analizi olarak iki alt bölüme ayrılır. Araştırmada kümeleme yöntemlerinden model tabanlı bir yöntem olan EM (Expectation Maximization) Algoritması kullanılmıştır. 2.2. Beklenti Maksimizasyonu (Expectation Maximization EM) Algoritması EM (Expectation Maximization) Algoritması bir objenin hangi kümeye ait olduğunu belirlemede kesin mesafe ölçütlerini kullanmak yerine tahminsel ölçütleri kullanmayı tercih eder. Karma olabilirlik yaklaşımı ile yapılan kümelemede karma dağılım modelindeki parametreleri tahmin etmek için genellikle EM algoritması kullanılır. EM algoritması verinin tamamlanmamış veri olması durumunda en çok olabilirlik kestirimi için genel bir istatistiksel yöntemdir [8]. Bu nedenle EM algoritması son yıllarda birçok araştırmada kullanılan popüler bir yaklaşım olmuştur. Maksimum benzerlik prensibine dayanan Beklenti Maksimizasyonu (BM) algoritması ilk olarak Dempster, Laird ve Rubin tarafından 1977 yılında ortaya konulmuştur. EM algoritması, tam olmayan veri problemlerini çözmek için maksimum olasılık tahminlerini yapan tekrarlı bir algoritmadır [9]. EM Algoritmasının her tekrarı iki adımda gerçekleşir. Bu adımlar, bekleneni bulma (E-Adımı) ve maksimizasyon (M-Adımı) olarak adlandırılır. E-adımında gözlenen verilerin parametrelerine ait kestirimler kullanılarak, bilinmeyen (kayıp) veri ile ilgili en iyi olasılıklar tahmin edilir. M-Adımında ise tahmin edilen kayıp veri yerine konulup bütün veri üzerinden maksimum olabilirlik hesaplanarak parametrelerin yeni kestirimleri elde edilir [4]. Bu adımlar belirli bir epsilon kriteri sağlanana ya da maksimum iterasyon sayısına ulaşılana kadar ardışık olarak gerçekleştirilir. Şekil 2 Gauss dağılımında iki küme örneği EM algoritması, küme ortalamasına dayalı olarak en benzer bulduğu bir nesneyi bu kümeye atamasından dolayı, k-means algoritmasının bir uzantısı olarak görülebilir. Ancak EM algoritması her bir nesnenin her bir kümeye olan üyeliğini bir olasılık değerine göre belirler. Diğer bir değişle kümeler arası kesin bir sınır yoktur. Bu nedenle, ağırlık ölçümüne dayalı hesaplamalar yapılır. EM algoritması karışım modeli parametrelerinin başlangıç değerlerine tahmini değerler vererek başlar (topluca parametre vektörü olarak da anılır). Nesneler, parametre vektörü tarafından üretilen karışım yoğunluğuna karşı yeniden skorlanır. Yeni skorlanan nesneler daha sonra parametre tahminlerini güncellemek için kullanılır. Her nesneye, nitelik değerleri belli olan bir kümeye üye olarak verilecek bir olasılık atanır [4]. 3. Araştırmanın Yapıldığı Tıp Alanı ile İlgili Genel Bilgiler Son dönemdeki pek çok organ yetmezliğinin tek tedavi şekli, transplantasyondur. Vücutta görevini yapamayacak kadar hasta ve hatta bedene zararlı hale gelen bir organın yerine canlı bir vericiden veya kadavradan alınan sağlam ve aynı görevi üstlenecek bir organın nakledilmesi işlemine "Organ Nakli" veya "Organ Transplantasyonu" denir. Transplantasyon işlem zincirinin en önemli halkalarından biri, transplantasyon immünolojisidir. Bu aşama organ alıcısı ile vericisi arasında doku uyumunun olup olmadığının ortaya konduğu en kritik aşamadır [10]. Transplantasyon işleminde karşılaşılan ilk engel alıcı ve verici arasındaki yapısal (antijenik özelliklerindeki) farklılıktır. Alıcı için yabancı olan vericinin yapısal antijenleri alıcının bağışıklık sistemini uyararak immün cevabı başlatır ve antijenlere karşı antikor üretilir. Bunun sonucunda nakledilen organda istenmeyen hasarlar ortaya çıkar. Bu tip reaksiyonların gelişmemesi ve azaltılması için transplantasyon öncesi alıcı ve vericinin genetik benzerliği iyi belirlenmeli, yorumlanmalı ve bu kriterler doğrultusunda en uygun vericinin seçimi yapılmalıdır. Transplantasyonda, ileri derecede polimorfik olan HLA antijenleri nakledilen organın ve hastanın sağ kalmasında önemli bir engel teşkil etmektedir. HLA’nın bu özelliği nedeniyle alıcı ve verici arasında genetik benzerlik ihtimali çok azdır. Genel olarak alıcı ve verici arasında uyumsuz antijen (mismatch) sayısı arttıkça nakledilen organın yaşam süresi azalmaktadır ve hasta daha yoğun immünsüpresif tedaviye ve komplikasyonlarına maruz kalmaktadır, bu nedenle donör ile alıcının HLA antijenlerinin belirlenmesi büyük önem taşımaktadır [11]. HLA, İngilizce “Human Leukocyte Antigen” kelimelerinin kısaltılmış halidir. Çok sayıda ve çeşitte HLA antijen çifti bulunur (en çok bilinenleri A, B, C, DR, DQ ve DP'dir). Anne-babadan bu antijenlerin her birinden birer tane alınır (ve çocuklara her çiftten birer tanesini kalıtsal olarak aktarılır). HLA’ları kodlayan gen bölgesi insanda 6. kromozom üzerinde bulunur. İnsan genomundaki en polimorfik gen bölgesidir. Moleküler testler doku tipi antijenlerini kodlayan bu genlerin belirlenmesini sağlar. Gen frekansının nasıl hesaplandığını bir örnek ile verelim: Eşbaskın M ve N kan grubu için bir popülasyonda Genotip MM MN NN Sayı 16 18 20 sayıları elde edilmiş olsun. M ve N geninin frekansları: F(M)= (2*16+1*18) / (2*54) = 0,463 F(N)= (2*20+1*18) / (2*54) = 0,537 Şekil 3 HLA kompleksinin insanın 6. kromozomunun kısa kolu üzerinde yeri ve kompleks içindeki genlerin pozisyonları [11] F(M) + F(N) = 0,463 + 0,537 = 1 olarak bulunur. Her insan, 6 tane sınıf I MHC alleli (her ebeveynden birer HLA-A, B ve C alleli) ve en az 6 tane de sınıf II MHC alleli (her ebeveynden birer HLA-DR, DQ ve DP alleli) ve bunların bazı kombinasyonlarını taşır. MHC genleri yüksek derecede polimorfiktir [10]. Bu nedenle, tek yumurta ikizleri hariç, her birey diğer bireyin immün sistemine yabancı olabilecek bazı MHC proteinlerini eksprese eder. MHC moleküllerinin tümü red hedefi olabilir. Ancak, HLA-DP sınırlı polimorfizme sahiptir ve muhtemelen daha az düzeyde önem taşır [12]. Anti-HLA antikorları kişinin, yabancı HLA antijenlerine immün yanıt olarak gelişebilmektedir. Sınıf I anti-HLA antikorları HLA-A,B,C’ye karşı, Sınıf II antikorları ise HLADR,DP ve DQ’ya karşı gelişen antikorlardır. Anti-HLA antikorlarının oluşumu kişiye göre değişebilir. Anti-HLA antikorları kan transfüzyonu, gebelik ve organ transplantasyonu gibi nedenler ile oluşabilir [11, 1]. 3.1. Popülasyon Genetiği Popülasyon genetiği, popülasyonun genetik özelliklerini ve bu özellikleri belirleyen etmenleri inceleyen bilim dalıdır [13]. Popülasyon genetiğinin temelleri Sewall Wright, J.B.S. Haldane ve Ronald Fisher tarafından atılmıştır [14]. Popülasyon genetiği, toplumlarda genlerin dağılımını ve bu gen frekanslarının nasıl korunduğu ya da değiştiğini inceler. Örneğin, A Rh(+) kan grubuna sahip bir kişiye kan ihtiyacı olduğunda toplumun yüzde kaçının kan verebileceği sorusu popülasyon genetiğinin ilgi alanına girer. Popülasyon genetiği araştırmalarını şu dört temel evrimsel mekanizmayı esas alarak yapar: doğal seçilim, genetik sürüklenme, mutasyon ve gen akışı [13]. Gen frekanslarının hesaplanmasında gen havuzu kavramından yararlanılır. Gen havuzu, her bireyin iki genle (gametle) katkıda bulunduğu genler topluluğunu ifade eder. Bu durumda homozigot birey gen havuzunda aynı çeşit iki genle heterozigot birey ise farklı çeşit iki genle katkıda bulunur. 3.2. Hardy - Weinberg Kuralı Gen frekansı ilk defa 1908 yılında İngiliz matematikçi G. Hardy ve Alman Doktor W. Weinberg’in birbirinden bağımsız olarak yaptıkları çalışmalar sonucunda ortaya konmuştur. Hardy-Weinberg analizleri sonucunda Mendel’in 3:1 monohbrit oranın aksine, kararlı bir popülasyonda baskın ve çekinik allellerin frekansının (bir önceki nesillerdeki değerler nasıl olursa olsun) değişmeden kalacağını, şimdiki ve gelecek gen frekanslarının geçmiş frekanslarla aynı olacağını buldular. Hardy-Weinberg kuralına göre popülasyondaki baskın ve çekinik genlerin frekans toplamları 1’e eşittir. Bir karakter geninin baskın A ve çekinik a allelleri olduğu varsayılırsa ve A gen frekansı p, a gen frekansı da q ise p+q =1 olmalıdır. Hardy-Weinberg kuralına göre dengedeki bir popülasyonda genotip dağılımı da şu şekilde olmalıdır. AA homozigot baskın genotipi, aa homozigot çekinik genotipi ve Aa hetorozigot genotipini göstermek üzere (p+q)2 = 12 binomiyal açılımından: p2 + 2pq + q2 = 1 olduğu gibi f(AA) + f(Aa+Aa) + f(aa) = 1 olur. Hardy-Weinberg denklemi kararlı (kapalı) bir popülasyonda geçerlidir. Böyle bir popülasyon çok ideal ya da tümüyle teoriktir. Dengenin geçerli olması için gerekli koşullar: - Eğer eşlemeler rastgele ise, Allel frekansları erkek ve dişilerde aynı ise, Yaşayabilirlik ve üretkenlik eşitse, yani seleksiyon yoksa, Mutasyon yoksa, Göç olmuyorsa, Popülasyon yeteri kadar büyük, bu nedenle gen frekansı kuşaktan kuşağa şans eseri değişmiyorsa Denklemdeki gen frekansı ve dolayısıyla denklem sabit kalır. 3.3. Haplotip Frekansı HLA Haplotipi: 6. kromozom üzerinde bulunan, birbirine yakın lokuslardaki allel kompleksleridir. Anne ya da babadan kalıtılırlar [15]. Tek bir ebeveynden geçtiği için tek kromozom üzerinde bulunan majör doku uyumluluk kompleks (MHC) yani HLA allellerinin tümüdür. Haplotip frekansı birçok yöntemle hesaplanabilir. En doğru yöntem gen dizilimine bakılarak yapılan yöntemdir. Ancak bu yöntem ekstra ekipmanlar gerektirir ve yüksek maliyetlidir. Haplotip frekansı, bütün genotiplerin eşit şekilde üretken olduğu aile datalarından da hesaplanabilir fakat bu yöntem de ihtiyaç duyulan data miktarını en az % 50 oranında artırır. Haplotip frekansı popülasyon datasından da tahmin edilebilir. Bunun için en sık kullanılan iki yöntem maksimum olasılık tahmini (maximum likelihood estimation) ve karekök metodu (square root method)dur [16]. Popülasyon datasından yapılan frekans hesabı sadece tahmindir, kesin olarak doğru olduğu söylenemez. Ancak en iyi olabilirlik tahminidir. Çünkü HLA verilerinin dizilimi bilinmemektedir. Eldeki verilerden yola çıkarak HLA dizilimi hakkında bir çıkarım yapılır. Çalışmada bu yöntemlerden maksimum olasılık tahmini (maximum likelihood estimation) kullanılacaktır. Çünkü maksimum olasılık tahmini literatürde en doğru tahmin sağlayan yöntem olarak kullanılmaktadır. Maksimum olasılık tahmini tercih edildiğinde analitik çözüm, genetik algoritmalar ve EM algoritması mümkün metotlar olarak karşımıza çıkmaktadır. Burada da EM algoritması tercih edilecektir. 4. Uygulama Araştırmada kimlik bilgilerinden arındırılmış olarak temin edilen HLA doku tipi bilgileri kullanılmıştır. Gen frekansının daha doğru olarak hesaplanabilmesi için birbirleri ile akrabalık ilişkisi bulunmayan sağlıklı kişiler araştırmaya dâhil edilmiştir. Araştırmada sekansa spesifik oligonukleotid yöntemi ile belirlenen HLA-A, B, C, DQ, DR doku tipi bilgileri 4 basamak olarak alınmış ancak verilerin %50’ye yakınının 3.ve 4. basamak bilgileri tanımlanmadığından 2 basamak tiplendirme değerleri kullanılmıştır. Allel frekansı hesaplanması ve haplotip frekans tahmininde literatürde de kullanılan Arlequin 3.5.1.3 uygulamasının script olarak çalıştırılabilen arlecore versiyonu kullanılmıştır. Ön işlemlerden geçirilen veriler 2’li, 3’lü, 4’lü ve 5’li haplotip kombinasyonlarda arlequin proje dosya formatına dönüştürülmüştür. Arlecore programının hangi yöntemi, hangi parametrelerle kullanacağının belirtildiği ayar dosyası, EM algoritması kullanılması için başlangıç durumu 50, epsilon 1*10-5 ve maksimum iterasyon 1000 değeri ile konfigüre edilmiştir. Oluşturulan proje dosyalarının her biri ve ayar dosyası ile birlikte, arlecore programına parametre olarak gönderilerek çalıştırılmıştır. Oluşturulan haplotip kombinasyonlarının frekans tahminleri bulunmuştur. Son olarak 5’li haplotip proje dosyası, ayar dosyası allel frekansını da hesaplaması için değiştirilmiş ve allel frekansları da hesaplatılmıştır. CPRA hesaplamasında kullanılmak üzere, elde edilen haplotip frekansları tek dosyada birleştirilmiştir. Tablo 1 ve 2’de her lokus için en yüksek frekans değerine sahip 10 allel ve frekansları verilmiştir. 3.4. Panel Reaktif Antikorlar (PRA) Panel reaktif antikorlar (PRA) olarak ifade edilen yaklaşım, hastada HLA antijenlerine özgü antikorların olup olmadığını saptamak için yapılır [17]. Kan transfüzyonu yapılan, daha önce organ nakli olmuş ve gebe kişiler HLA antikorları açısından kontrol edilmelidirler. Antikor varsa antikorun tipi ve hangi HLA antijenine karşı olduğu bilinmelidir. Organ nakline aday hastaların serumunda HLA antijenlerine karşı antikor varlığının tespiti için tarama ve tanımlama testleri yapılır. % PRA, hasta serumunda test edilen HLA antijenlerine karşı ne kadar anti-HLA antikoru pozitifliği bulunduğunu gösterir. [11]. PRA bir hastanın doku veya organ nakli olamayacağı HLA antijenlerini belirler. Bu nedenle hasta seçiminde HLA doku tipleri uyumundan sonra ikinci sırada PRA gelir. PRA oranı yüksek hasta cross-match negatif bir organ bulunduğunda, PRA düşük ve uyumlu bir hastadan daha öncelikli bir hal alır. Bunun nedeni PRA pozitifliği olan hastanın tekrar crossmatch negatif bir organ bulma şansının düşük olmasıdır. PRA’nın bir diğer önemi de hastayı muhtemel bir organ naklinde sanal cross-match imkanı tanıyarak nakil için hazır tutmasıdır [1]. Tablo 1. HLA-A, B, C Allel Frekansları HLA-A S.NO HLA-B HLA-C Tür Frekans Tür Frekans Tür Frekans 1 HLA-A*02 0,228261 HLA-B*35 0,192935 HLA-C*04 0,203804 2 HLA-A*24 0,152174 HLA-B*51 0,149457 HLA-C*12 0,173913 3 HLA-A*01 0,119565 HLA-B*44 0,07337 HLA-C*07 0,13587 4 HLA-A*03 0,108696 HLA-B*38 0,0625 HLA-C*06 0,084239 5 HLA-A*11 0,078804 HLA-B*18 0,048913 HLA-C*15 0,081522 6 HLA-A*26 0,070652 HLA-B*52 0,048913 HLA-C*16 0,070652 7 HLA-A*32 0,057065 HLA-B*07 0,035326 HLA-C*03 0,054348 8 HLA-A*68 0,040761 HLA-B*50 0,035326 HLA-C*14 0,048913 9 HLA-A*23 0,038043 HLA-B*49 0,032609 HLA-C*01 0,040761 10 HLA-A*30 0,038043 HLA-B*55 0,032609 HLA-C*02 0,038043 Tablo 2. HLA-DQ, DR Allel Frekansları HLA-DQ S.NO HLA-DR Tür Frekans Tür Frekans 1 HLA-DQ*03 0,434783 HLA-DR*04 0,206522 2 HLA-DQ*05 0,203804 HLA-DR*11 0,195652 3 HLA-DQ*06 0,192935 HLA-DR*15 0,11413 4 HLA-DQ*02 0,13587 HLA-DR*13 0,100543 5 HLA-DQ*04 0,029891 HLA-DR*07 0,07337 6 HLA-DQ*13 0,002717 HLA-DR*03 0,070652 7 HLA-DR*01 0,059783 8 HLA-DR*14 0,048913 9 HLA-DR*10 0,043478 10 HLA-DR*16 0,040761 Tablo 3’te HLA-A, B, C, DQ, DR için en yüksek frekans değerine sahip 10 adet 5 lokus haplotip frekansı verilmiştir. ∑pi ilgilenilen kabul edilemeyecek allellerin gen frekans toplamını ifade etmektedir. Haplotipin gen dizilimine bakılarak belirlenmesi zor ve maliyetli olduğundan, haplotip tahmin yöntemleri ile elde edilen veriler kullanılarak da bu olasılık hesaplanabilir. Akraba olmayan sağlıklı kişilerin 5 lokusa ait HLA verileri kullanılarak yapılan HLA allel ve haplotip frekans değerleri ile hastanın serumunda bulunan HLA-A, -B, -C, -DQ ve -DR antikorları için; S1: 1 lokus haplotip frekans toplamı (A, B, C, DQ, DR) S2: 2 lokus haplotip frekans toplamı (AB, AC, ADQ, ADR, BC, BDQ, BDR, CDQ, CDR, DQDR) Tablo 3. Beş Lokus Haplotip Frekansları 5 LOKUS HAPLOTİP FREKANSLARI S.NO Frekans PRA yöntemi, antikorların paneldeki antijenlerle eşleşmesi prensibine dayandığından eğer hastanın HLA antikor türleri bilinirse toplumun allel frekansları kullanılarak PRA değeri teorik olarak hesaplanabilir. Hastanın antikorlarından dolayı organ kabul edemeyeceği antijenler ilgi alanına alınarak, kabul edilemeyecek antijen allellerin frekansı 1- (1-p)2 ile hesaplanabilir. Kişinin taşıyacağı birden çok antikor olacağından birden fazla antijen alleli için CPRA = 1- (1∑pi)2 formülüyle hesaplanır [18]. HLA-A HLA-B HLA-C HLA-DQ HLA-DR 1 0,027174 HLA-A*24 HLA-B*35 HLA-C*04 HLA-DQ*03 HLA-DR*11 2 0,024457 HLA-A*02 HLA-B*35 HLA-C*04 HLA-DQ*03 HLA-DR*04 3 0,019022 HLA-A*24 HLA-B*18 HLA-C*12 HLA-DQ*03 HLA-DR*11 4 0,013587 HLA-A*01 HLA-B*35 HLA-C*04 HLA-DQ*06 HLA-DR*13 5 0,013587 HLA-A*01 HLA-B*52 HLA-C*12 HLA-DQ*06 HLA-DR*15 6 0,013587 HLA-A*02 HLA-B*38 HLA-C*12 HLA-DQ*06 HLA-DR*13 7 0,01087 HLA-A*02 HLA-B*50 HLA-C*06 HLA-DQ*02 HLA-DR*07 8 0,01087 HLA-A*02 HLA-B*51 HLA-C*16 HLA-DQ*03 HLA-DR*11 9 0,01087 HLA-A*03 HLA-B*44 HLA-C*16 HLA-DQ*03 HLA-DR*04 10 0,01087 HLA-A*11 HLA-B*51 HLA-C*15 HLA-DQ*03 HLA-DR*11 4.1. CPRA’nın Hesaplanması: CPRA hesabı popülasyon genetiğinde Hardy-Weinberg kuralı olarak bilinen formül kullanılarak yapılmaktadır. Zachary, frekans tahmini yaparken tüm allelleri, ilgilendiği alleller (A+) ve diğerleri (A-) olarak iki duruma indirgemiştir. İlgilendiği allellin frekansı p ve diğerlerinin toplam frekansı (1-p) olmak üzere fenotip frekansı: Fenotip A+ A- Frekans p2+2p(1-p) (1-p)2 olarak gösterilir. F(A+) = p2+2p(1-p) ya da F(A+) = 1- (1p)2 şeklinde yazılabilir [16]. S3: 3 lokus haplotip frekans toplamı (ABC, ABDQ, ABDR, ACDQ, ACDR, ADQDR, BCDQ, BCDR, BDQDR, CDQDR) S4: 4 lokus haplotip frekans toplamı (ABCDQ, ABCDR, ABDQDR, ACDQDR, BCDQDR) S5: 5 lokus haplotip frekans toplamı (ABCDQDR) olmak üzere CPRA = 1- (1 – (S1 - S2 + S3 - S4 + S5))2 formüllü ile bulunur [18]. CPRA hesaplama uygulamasında, kullanıcı tarafından seçilen kabul edilemez antijenler ile oluşabilecek tüm haplotip kombinasyonları bulunup frekans tablosundan bu haplotiplerin frekans değerleri ile S1, S2, S3, S4, S5 toplamlarının formülde yerine konulmasıyla CPRA değeri hesaplanmıştır. CPRA değeri toplumun % kaçının hasta için uygun donör olmadığını ifade eder. O hasta için, CPRA değerini 1’den çıkartarak, toplumdaki uygun donör oranı bulunmuş olur. [3] Akgöbek, Ö., Çakır, F., “Veri Madenciliğinde Bir Uzman Sistem Tasarımı,” XI. Akademik Bilişim Konferansı, Şanlıurfa, (2008). [4] Han, J., Kamber, M., Data Mining Concepts and Techniques (Second Edition), Morgan Kaufmann Publisher, USA, pp. 2-7, 70-71, 398-401, (2006). [5] Koyuncugil, A. S., Özgülbaş, N., “Veri Madenciliği: Tıp ve Sağlık Hizmetlerinde Kullanımı ve Uygulamaları”. Bilişim Teknolojileri Dergisi, 2 (2): 21-32, (2009). [6] Kaya, E., Bulun, M., Arslan, A. “Tıpta Veri Ambarları Oluşturma ve Veri Madenciliği Uygulamaları”, Akademik Bilişim 2003, Adana, (2003). [7] Seven, M. F., “Veri tabanlarından Bilgi Keşfi: Veri Madenciliği ve Bir Sağlık Uygulaması,” Yayımlanmamış Yüksek Lisans Tezi, İstanbul Üniversitesi, İstanbul, (2009). Şekil 4. CPRA Hesaplama Uygulaması Şekil 4’te CPRA hesaplama uygulamasının ekran görüntüsü verilmiştir. 5. Sonuç ve Öneriler Uygulamaya 350 sağlıklı bireyle başlanmış ancak birbiri ile akrabalık ilişkisi olan kişiler çalışmadan çıkarılmıştır. Yine veriler arasında 13 yabancı uyruklu bireye rastlanmış olup bu kişiler de çalışma dışı bırakılmıştır. Sonuçta 184 sağlıklı bireyin 5 lokusa ait verileri kullanılmıştır. Kullanılan verilerin populasyonun tümünü değerlendirmek açısından yeterli olmaması nedeniyle bazı haplotip örneklerine ulaşılamamıştır. Veri havuzunun büyütülmesi ile bu durumun önüne geçilebilecektir. Kullanılan veriler Ankara ilindeki doku tiplendirme ruhsatı olan bir sağlık merkezinden elde edilmiştir. Farklı merkezlerden elde edilecek veriler ile tüm Türkiye için yapılacak genelleme daha doğru olacaktır. Doku tiplendirme verileri kemik iliği bankaları gibi yüksek oranda doku tiplendirme yapan kuruluşların verileri ile birleştirildiğinde organ nakli yapılacak hastalara uygun donör seçiminin sağlanmasında, araştırılan popülasyon hakkında daha doğru tahminler yapılabilecektir. Ayrıca Türk toplumu için hesaplanmış olan allel ve haplotip frekansları dikkate alınarak daha sonraki çalışmalarda Türk toplumu için daha uygun tarama ve tanımlama test panelleri geliştirilmesine imkân sağlayacaktır. 6. Kaynaklar [1] Eyerci, N. “Anti-Hla Antikorlarının Tespitinde Multipar Gebelerden Alınan Serumların Kullanılması,” Yayımlanmamış Yüksek Lisans Tezi, Atatürk Üniversitesi, Erzurum, (2005). [2] Can, M. B., Eren, Ç., Koru, M., Özkan, Ö., Rzayeva, Z., “Veri Kümelerinden Bilgi Keşfi: Veri Madenciliği”, Başkent Üniversitesi Tıp Fakültesi XIV. Öğrenci Sempozyumu, Ankara, (2012). [8] Servi, T., “Çok Değişkenli Karma Dağılım Modeline Dayalı Kümeleme Analizi,” Yayımlanmamış Doktora Tezi, Çukurova Üniversitesi, Adana, (2009). [9] Sezgin, E., Çelik, Y., “Veri Madenciliğinde Kayıp Veriler için Kullanılan Yöntemlerin Karşılaştırılması,” Akademik Bilişim Konferansı, Antalya, (2013). [10] Male, D., Brostoff, J., Roth, D. B., Roitt, I., İmir, T., İmmünoloji, Palme Yayıncılık, Ankara, (2008). [11] Aşkın, S., “Böbrek Nakli Bekleme Listesindeki Hastalarda Lenfositotoksisite Yöntemi ile Anti-HLA Antikor Tanımlanması” Yayımlanmamış Yüksek Lisans Tezi, Atatürk Üniversitesi, Erzurum, (2010). [12] Abbas, A.K., Lichtman, A.H., (Edit: Camcıoğlu, Y., Deniz, G.), Temel İmmünoloji, İstanbul Medikal Yayıncılık, İstanbul (2007). [13] Hallibuton, R. Introduction to Population Genetics, Pearson Education International, USA (2004). [14] Ewens, W. J., Mathematical Population Genetics, Springer, Philadelphia (2000). [15] Excoffier, L., Slatkin, M., “Maximum-Likelihood Estimation of Molecular Haplotype Frequencies in a Diploid Population”, Molecular Biology and Evolution, 12: 921– 927, (1995). [16] Zachary, A. A., Steinberg, A. G., “Statistical Analysis and Applications of HLA Population Data,” Manual of Clinical Laboratory Immunology, ASM Press, Washington, DC, pp. 1132-1140, (1997). [17] Kılıçaslan Ayna, T., Şentürk Çiftçi, H., Gürtekin, M., “Tek Antijen Boncuk Çalışması ile Donöre Özgü Antikorların Saptanması”, Türkiye Klinikleri Journal of Nephrology, 6 (1): 17-21, (2011). [18]İnternet:http://transplantpro.org/wpcontent/uploads/CPRA_frequencies.pdf. 01.12.2014]. [Erişim Tarihi: