VERİ MADENCİLİĞİ TEKNİKLERİ İLE ORGAN NAKLİ İÇİN UYGUN DONÖR ORANININ HESAPLANMASI Hüsnü ERTEN YÜKSEK LİSANS TEZİ BİLGİSAYAR MÜHENDİSLİĞİ ANABİLİM DALI GAZİ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MAYIS 2015 Hüsnü ERTEN tarafından hazırlanan “VERİ MADENCİLİĞİ TEKNİKLERİ İLE ORGAN NAKLİ İÇİN UYGUN DONÖR ORANININ HESAPLANMASI” adlı tez çalışması aşağıdaki jüri tarafından OY BİRLİĞİ ile Gazi Üniversitesi BİLGİSAYAR MÜHENDİSLİĞİ Anabilim Dalında YÜKSEK LİSANS TEZİ olarak kabul edilmiştir. Danışman: Doç. Dr. Nursal ARICI Bilgisayar Mühendisliği Anabilim Dalı, Gazi Üniversitesi Bu tezin, kapsam ve kalite olarak Yüksek Lisans Tezi olduğunu onaylıyorum ...………………… Başkan : Prof. Dr. Ahmet COŞAR Bilgisayar Mühendisliği Anabilim Dalı, Orta Doğu Teknik Üniversitesi Bu tezin, kapsam ve kalite olarak Yüksek Lisans Tezi olduğunu onaylıyorum …………………... Üye : Doç. Dr. Necaattin BARIŞÇI Bilgisayar Mühendisliği Anabilim Dalı, Gazi Üniversitesi Bu tezin, kapsam ve kalite olarak Yüksek Lisans Tezi olduğunu onaylıyorum Tez Savunma Tarihi: …………………... 27/05/2015 Jüri tarafından kabul edilen bu tezin Yüksek Lisans Tezi olması için gerekli şartları yerine getirdiğini onaylıyorum. …………………….……. Prof. Dr. Şeref SAĞIROĞLU Fen Bilimleri Enstitüsü Müdürü ETİK BEYAN Gazi Üniversitesi Fen Bilimleri Enstitüsü Tez Yazım Kurallarına uygun olarak hazırladığım bu tez çalışmasında; Tez içinde sunduğum verileri, bilgileri ve dokümanları akademik ve etik kurallar çerçevesinde elde ettiğimi, Tüm bilgi, belge, değerlendirme ve sonuçları bilimsel etik ve ahlak kurallarına uygun olarak sunduğumu, Tez çalışmasında yararlandığım eserlerin tümüne uygun atıfta bulunarak kaynak gösterdiğimi, Kullanılan verilerde herhangi bir değişiklik yapmadığımı, Bu tezde sunduğum çalışmanın özgün olduğunu, bildirir, aksi bir durumda aleyhime doğabilecek tüm hak kayıplarını kabullendiğimi beyan ederim. Hüsnü ERTEN 27/05/2015 iv VERİ MADENCİLİĞİ TEKNİKLERİ İLE ORGAN NAKLİ İÇİN UYGUN DONÖR ORANININ HESAPLANMASI (Yüksek Lisans Tezi) Hüsnü ERTEN GAZİ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ Mayıs 2015 ÖZET Tezin amacı Human Leukocyte Antigen (HLA) antikor pozitifliği olan bir organ nakli hastası için Türk toplumundaki muhtemel uygun donör oranının hesaplanmasını sağlayan uygulama geliştirmektir. Bu uygulamada, birbiriyle akrabalık bağı bulunmayan 1192 sağlıklı bireyin 5 lokusa ait HLA doku tipi verileri ile HLA antikoru pozitif hastalar için Calculated PRA (CPRA) değeri hesaplanmıştır. Kullanılan veriler Yıldırım Beyazıt Üniversitesi Dışkapı Eğitim Araştırma Hastanesi Doku Tiplendirme Laboratuvarından elde edilmiştir. Organ nakli ihtiyacı olan bir hastanın, insan lökosit antijenlerine (HLA) karşı antikorunun olup olmadığı ve ne kadar pozitifliğinin olduğu Panel Reaktif Antikor (PRA) yöntemi ile belirlenmektedir. PRA panelinde kullanılan antijen oranları toplumdan topluma farklılık göstermektedir. Ülkemiz için özel olarak hazırlanmış PRA paneli olmadığından, Türk toplumuna yakın olduğu düşünülen Avrupa toplumu için hazırlanan paneller kullanılmaktadır. Bu durumda hasta organ bekleme listesine alındığında tam anlamıyla doğru PRA pozitifliği yansıtmadığından hasta seçiminde yanlış yorumlara yol açmaktadır. Çalışmada, Türk toplumundaki allel ve haplotip frekansları hesaplanmış ve bu frekans değerleri kullanılarak CPRA değeri hesaplaması yapan uygulama geliştirilmiştir. Elde edilen verilerden, Arlequin 3.5.1.3 uygulamasının script olarak çalıştırılabilen arlecore versiyonunda EM algoritması ile allel ve haplotip frekansları hesaplaması yapılmıştır. Elde edilen frekans değerleri kullanılarak da CPRA hesabı yapan bir masaüstü ve bir de web uygulaması geliştirilmiştir. Uygulamalar Microsoft Visual Studio 2010 program geliştirme ortamında, C# programlama dili kullanılarak geliştirilmiştir. Veriler analiz edildiğinde, toplumumuzda 19 HLA-A, 29 HLA-B, 13 HLA-C, 13 HLA-DRB1 ve 5 HLA-DQ allel türünün bulunduğu görülmüştür. 5 lokus haplotip için ise 270 farklı haplotip görülmüştür. Hesaplama sonucunda elde edilen allel frekanslarının, 3 Avrupa ülkesinin (Almanya, İtalya ve Fransa) frekans değerleri ile karşılaştırması yapılmıştır. Bilim Kodu : 902.1.019 Anahtar Kelimeler : Veri Madenciliği, Beklenti Maksimizasyonu, Organ Nakli, CPRA Sayfa Adedi Danışman : 99 : Doç. Dr. Nursal ARICI v CALCULATION SUITABLE DONOR RATE FOR ORGAN TRANSPLANTATION WITH DATA MINING TECHNIQUES (M. Sc. Thesis) Hüsnü ERTEN GAZİ UNIVERSITY GRADUATE SCHOOL OF NATURAL AND APPLIED SCIENCES May 2015 ABSTRACT The aim of the thesis is to develop an application which is providing the calculation of the probable suitable donor rates in Turkish society for a transplant patient who has Human Leukocyte Antigen (HLA) antibody positivity. In this application, Calculated PRA (CPRA) values are data for patients who have positive HLA antibody, with HLA tissue type of information belonging to 5 locus of 1192 healthy individuals without relationship with each other. The data used are obtained from Yıldırım Beyazıt University Dışkapı Training and Research Hospital Tissue Typing Laboratory. A patient waiting for organ transplant has anti-HLA antibody or not and how much of its positivity is determined by the method of Panel Reaktif Antikor (PRA). Ratio of antigen used in PRA panel varies from society to society. As there is no PRA panel specifically designed for our country, panels prepared for the European society, considered to be close to the Turkish community, are used. In this case, when the patient is put in the waiting list for organ, as it doesn’t reflect the correct PRA positivity literally, it leads to misinterpretations in patient selection. In this study, allele and haplotype frequencies have been calculated for Turkish society and an application that makes CPRA value has been developed by using these frequency values. From the obtained data, allele and haplotype frequencies have been calculated with EM algorithm in arlecore which can be operated as a script version of Arlequin 3.5.1.3. Also using the obtained frequency values, a desktop and a web application which make CPRA calculation have been developed. Applications have been developed by using C# programming language in Microsoft Visual Studio 2010 programme. When this data has been analyzed, it has been realised that there are 19 HLAA, 29 HLA-B, 13 HLA-C, 13 HLA-DRB1 and 5 HLA-DQ allelle types in our society. It has been also realised 270 different haplotypes for 5 locus haplotype. Allele frequencies obtained from the calculation results, have been compared with the frequency of the 3 European countries (Germany, Italy and France). Science Code Key Words Page Number Supervisor : 902.1.019 : Data mining, Expectation Maximization, Organ Transplantation, CPRA : 99 : Assoc. Prof. Dr. Nursal ARICI vi TEŞEKKÜR Çalışmalarımın her aşamasında bilgi, destek ve önerilerini esirgemeyen, sabırlı, cesaretlendirici ve yol gösterici bir şekilde yönlendirmelerde bulunarak gelişmeme katkı sağlayan danışman hocam Doç. Dr. Nursal ARICI’ya, iş yoğunluğu içerisinde zaman ayırıp yabancı olduğum tıp alanı ile ilgili karşılaştığım zorluklarda yardımcı olan ve alanla ilgili uzman desteği sağlayan Yard. Doç. Dr. Nilnur EYERCİ’ye, verilerin temini sürecinde anlayış ve yardımlarından dolayı Yıldırım Beyazıt Üniversitesi Dışkapı Eğitim Araştırma Hastanesi Doku Tiplendirme Laboratuvarı çalışanlarına, çalışmalarım sırasında sabırla beni destekleyen ve cesaretlendiren sevgili eşime en derin duygularla teşekkür ederim. vii İÇİNDEKİLER Sayfa ÖZET ............................................................................................................ iv ABSTRACT ................................................................................................... v TEŞEKKÜR ................................................................................................... vi İÇİNDEKİLER ............................................................................................... vii ÇİZELGELERİN LİSTESİ ............................................................................... x ŞEKİLLERİN LİSTESİ .................................................................................... xi SİMGELER VE KISALTMALAR ..................................................................... xiii 1. GİRİŞ ....................................................................................................... 1 2. VERİ MADENCİLİĞİ ............................................................................ 5 2.1. Veri Madenciliği Nedir? ...................................................................................... 5 2.1.1. Veri tabanlarında bilgi keşfinin adımları .................................................. 6 2.2. Veri Madenciliği Yöntemleri .............................................................................. 12 2.2.1. Tahmin edici modeller .............................................................................. 13 2.2.2. Tanımlayıcı modeller ................................................................................ 16 2.3. Veri Madenciliği Algoritmaları ........................................................................... 22 2.3.1. K-ortalamalar (K-Means) kümeleme algoritması ..................................... 23 2.3.2. K-ortancalar (medoids) algoritması .......................................................... 24 2.3.3. DBSCAN(Density Based Spatial Clustering of Applications with Noise) 24 2.3.4. OPTICS (Ordering Pointsto Identify the Clustering Structure) ................ 26 2.3.5. K-en yakın komşuluk ................................................................................ 27 2.3.6. Destek vektör makineleri (Support vector machines) ............................... 28 2.3.7. Karar ağaçları (Decision trees).................................................................. 28 viii Sayfa 2.3.8. Yapay sinir ağları (Neural networks) ....................................................... 30 2.3.9. Genetik algoritmalar (Genetic algorithms) ............................................... 31 2.3.10. Apriori algoritması .................................................................................. 32 2.3.11. Beklenti maksimizasyonu (Expectation maximization EM) algoritması 33 2.4. Tıbbi Verilerde Veri Madenciliği Çalışmaları .................................................... 35 3. ARAŞTIRMANIN TIP ALANI İLE İLGİLİ GENEL BİLGİLER ........ 45 3.1. Temel Kavramlar ve Tanımlar ............................................................................ 45 3.2. Organ Transplantasyonu (Nakil) ve Atılım (Ret) ............................................... 46 3.3. HLA (Human Leukocyte Antigen) ..................................................................... 48 3.3.1. Anti-HLA antikorları ................................................................................ 49 3.3.2. Panel reaktif antikorlar (PRA) .................................................................. 50 3.3.3. Transplantasyon ve HLA uyumu .............................................................. 51 3.4. Popülasyon Genetiği ........................................................................................... 52 3.4.1. Hardy - Weinberg kuralı ........................................................................... 53 3.5. Haplotip Frekansı ................................................................................................ 53 3.6. Literatürde HLA Çalışmaları .............................................................................. 54 4. MATERYAL VE YÖNTEM .................................................................. 57 4.1. Arlequin ............................................................................................................... 58 4.2. CPRA’nın Hesaplanması..................................................................................... 60 4.3. Uygulama ............................................................................................................ 63 4.3.1. Arlecore ile frekans tahminleme uygulaması ............................................ 66 4.3.2. CPRA hesaplama masaüstü uygulaması ................................................... 70 4.3.3. CPRA hesaplama web uygulaması ........................................................... 73 4.4. Bulgu ve Değerlendirmeler ................................................................................. 75 ix Sayfa 5. SONUÇ ve ÖNERİLER .......................................................................... 87 KAYNAKLAR ............................................................................................................... 89 EKLER ............................................................................................................................ 95 ÖZGEÇMİŞ .................................................................................................................... 99 x ÇİZELGELERİN LİSTESİ Çizelge Sayfa Çizelge 3.1. Genotip sayıları ........................................................................................... 52 Çizelge 4.1. Fenotip frekansları ...................................................................................... 60 Çizelge 4.2. Bir lokus haplotipler ve frekanslar ............................................................. 61 Çizelge 4.3. İki lokus haplotipler ve frekanslar .............................................................. 62 Çizelge 4.4. Üç lokus haplotipler ve frekanslar .............................................................. 62 Çizelge 4.5. Dört lokus haplotipler ve frekanslar ........................................................... 63 Çizelge 4.6. Beş lokus haplotipler ve frekanslar............................................................. 63 Çizelge 4.7. Performans karşılaştırma sonuçları............................................................. 70 Çizelge 4.8. Vericilere ait adreslerin illere göre dağılımı ............................................... 76 Çizelge 4.9. Türkiye’de en sık görülen 5 lokus haplotipler ve frekans değerleri ........... 77 Çizelge 4.10. HLA-A allelerinin ülkelere göre frekans değerleri ................................... 78 Çizelge 4.11. HLA-B allelerinin ülkelere göre frekans değerleri ................................... 80 Çizelge 4.12. HLA-C allelerinin ülkelere göre frekans değerleri ................................... 81 Çizelge 4.13. HLA-DQB1 allelerinin ülkelere göre frekans değerleri ........................... 82 Çizelge 4.14. HLA-DRB1 allelerinin ülkelere göre frekans değerleri ........................... 83 Çizelge 4.15. Hasta antikorlarının Luminex PRA ve CPRA değerlerinin karşılaştırılması ....................................................................................... 85 xi ŞEKİLLERİN LİSTESİ Şekil Sayfa Şekil 2.1. Verilerden bilgi çıkarma ................................................................................. 5 Şekil 2.2. Veri tabanlarında bilgi keşfi adımları ............................................................. 8 Şekil 2.3. Verilerin temizlenmesi ................................................................................... 9 Şekil 2.4. Verilerin birleştirilmesi .................................................................................. 9 Şekil 2.5. Verilerin seçilmesi .......................................................................................... 10 Şekil 2.6. Verilerin dönüştürülmesi ............................................................................... 10 Şekil 2.7. Karışıklık matrisi, kesinlik, duyarlılık, doğruluk ve F-ölçütü ........................ 11 Şekil 2.8. Bir karar ağacı modelinin görsel olarak sunulması ........................................ 12 Şekil 2.9. Veri madenciliği yöntemleri ........................................................................... 13 Şekil 2.10. Karışıklık matrisi .......................................................................................... 14 Şekil 2.11. Kümeleme .................................................................................................... 17 Şekil 2.12. Kümeleme analizi yöntemleri ....................................................................... 18 Şekil 2.13. Yığmacı ve bölücü yöntemler ...................................................................... 19 Şekil 2.14. Sepet analizi ................................................................................................. 22 Şekil 2.15. K ortalama adımları ...................................................................................... 23 Şekil 2.16. Yoğunluk tabanlı kümelemede, doğrudan erişilebilir nokta, yoğunluk erişilebilir nokta, yoğunluk bağlı nokta . ..................................................... 25 Şekil 2.17. OPTICS algoritması ..................................................................................... 26 Şekil 2.18. K en yakın komşuluk .................................................................................... 27 Şekil 2.19. Destek vektör makineleri .............................................................................. 28 Şekil 2.20. Yapay sinir ağları modeli.............................................................................. 30 Şekil 2.21. Genetik algoritma ......................................................................................... 31 Şekil 2.22. Apriori algoritması........................................................................................ 32 Şekil 2.23. Gauss dağılımında iki küme örneği .............................................................. 33 xii Şekil Sayfa Şekil 2.24. EM algoritması akış şeması .......................................................................... 34 Şekil 3.1. HLA kompleksinin insanın 6. kromozomunun kısa kolu üzerindeki yeri ve kompleks içindeki genlerin pozisyonları . ...................................................... 48 Şekil 3.2. PRA paneli ..................................................................................................... 50 Şekil 3.3. HLA uyum örnekleri ...................................................................................... 51 Şekil 4.1 Arlequin programı arayüzü .............................................................................. 58 Şekil 4.2 Arlequin proje dosya formatı ........................................................................... 59 Şekil 4.3. Tezde uygulanan veri madenciliği adımları ................................................... 64 Şekil 4.4. Uygulama akış şeması .................................................................................... 66 Şekil 4.5. Frekans hesabı için yüklenecek HLA datasının excel dosya formatı ............. 67 Şekil 4.6. Frekans hesabı için yüklenecek HLA datasının csv dosya formatı ................ 68 Şekil 4.7. Frekans hesaplama uygulaması ekran görüntüsü ........................................... 68 Şekil 4.8. Haplotip frekans hesaplama uygulaması akış şeması ..................................... 69 Şekil 4.9. CPRA hesaplama masaüstü uygulaması ekran görüntüsü .............................. 71 Şekil 4.10. Masaüstü uygulamasında CPRA hesaplama ................................................ 72 Şekil 4.11. CPRA menü içeriği ....................................................................................... 72 Şekil 4.12. CPRA hesaplama web uygulaması ekran görüntüsü .................................... 73 Şekil 4.13. Web uygulamasında CPRA hesaplama ........................................................ 74 Şekil 4.14. CPRA web uygulaması yönetim sayfası ekran görüntüsü ............................ 75 Şekil 4.15. HLA-A allelerinin ülkelere göre frekans grafiği .......................................... 79 Şekil 4.16. HLA-B allelerinin ülkelere göre frekans grafiği .......................................... 81 Şekil 4.17. HLA-C allelerinin ülkelere göre frekans grafiği .......................................... 82 Şekil 4.18. HLA-DQB1 allelerinin ülkelere göre frekans grafiği ................................... 83 Şekil 4.19. HLA-DRB1 allelerinin ülkelere göre frekans grafiği ................................... 84 xiii SİMGELER VE KISALTMALAR Bu çalışmada kullanılmış simgeler ve kısaltmalar, açıklamaları ile birlikte aşağıda sunulmuştur. Kısaltmalar Açıklamalar CPRA Calculated PRA EM Expectation Maximization HLA Human Leukocyte Antigen MHC Major Histocompability Complex PRA Panel Reaktif Antikor 1 1. GİRİŞ Teknolojinin gelişmesine bağlı olarak, elektronik ortamda depolanan veri miktarı hızla artmaktadır. Ancak depolanan verilerdeki hızlı artış, veriler arasındaki ilişkilerin analizini zorlaştırmaktadır. Bu nedenle, eldeki büyük miktardaki verilerden değerli bilgiye ulaşabilmeyi sağlayan “veri madenciliği” kavramı doğmuştur. Günümüzde ekonomiden sağlığa pek çok alanda veri madenciliği yöntemleri kullanılmaktadır. Tıp alanında hızlı ve doğru karar verme, insan yaşamını etkilediğinden dolayı, hayati önem arz etmektedir. Bu nedenle tıp alanında veri madenciliği yöntemlerinin etkin bir şekilde kullanılması sağlık personeline hızlı ve doğru karar vermelerinde kolaylık sağlamaktadır. Organ nakli hayati önemi en yüksek tıp dallardan biridir. Sağlık Bakanlığı 7 Ocak 2015 tarihindeki organ nakli verilerine göre, Türkiye’de organ nakli bekleme listesine kayıtlı 28599 hasta bulunmaktadır. 2014 yılında 5605 donör organ bağışında bulunmuş ve 7785 organ nakli gerçekleştirilmiştir. Ancak 2014 yılında organ bekleme listesine eklenen ve henüz organ nakli yapılmamış 13892 hasta bulunmaktadır [1]. Organ bekleyen hasta sayısının çok, buna karşılık donör sayısının az olması uygun organ bulunduğunda, organ nakli için hangi hastaya öncelik verileceğini önemli kılmaktadır. Önceliğin belirlenmesinde, nakil için uygun hastalar içerisinde Panel Reaktif Antikor (PRA) yüzde değerinin büyüklüğüne bakılır. Organ nakli ihtiyacı olan bir hastanın, insan lökosit antijenlerine (Human Leukocyte Antigen-HLA) karşı antikor oluşturup oluşturmadığı ve ne kadar pozifliğinin olduğu PRA yöntemi ile belirlenmektedir. PRA, paneldeki donör hücrelerinin pozitiflik yüzdesi olarak ifade edilir [2]. Şu anda kullanılmakta olan yöntemler ile ancak panel içerisindeki antijenlerin oranına göre bir PRA pozitiflik değeri tespit edilebilmektedir. Bu nedenle panel içerisindeki antijen oranlarının toplumun antijen oranları ile uygun olmadığı durumlarda gerçekçi bir PRA değeri elde edilememiş olur. Ülkemiz için özel olarak hazırlanmış PRA paneli olmadığından, Türk toplumuna yakın olduğu düşünülen Avrupa toplumu için hazırlanan paneller kullanılmaktadır. Bu durumda hasta organ bekleme listesine alındığında tam anlamıyla doğru PRA pozitifliği yansıtmadığından hasta 2 seçiminde yanlış yorumlara yol açabilmektedir [2]. Bu tez çalışmasının amacı; Human Leukocyte Antigen (HLA) antikor pozitifliği olan bir organ nakli hastası için Türk toplumundaki muhtemel uygun donör oranının hesaplanmasını sağlayan uygulama geliştirmektir. Bu uygulama ile doku tiplendirme laboratuvarından elde edilen HLA doku tipi verileri kullanılarak HLA antikoru pozitif hastalarda CPRA değeri hesaplanmaktadır. Araştırmada, Türk toplumundaki allel ve haplotip frekansları hesaplanmış ve bu frekans değerleri kullanılarak Calculated PRA (CPRA) değeri hesaplaması yapan uygulama geliştirilmiştir. Her geçen gün artan organ nakil sayıları göz önünde bulundurulduğunda, bu uygulama sayesinde, organ nakli bekleme listesindeki pozitif HLA antikoru bulunan hastalar için popülasyondaki uygun donör oranı belirlenebilecektir. Böylece hem klinisyenler hem de doku tiplendirme laboratuvarları bu uygulamayı kullanarak organ nakillerinde hastanın PRA yüzdesi hakkında daha doğru ve daha kolay yorum yapabileceklerinden çalışma önemli görülmüştür. Araştırmanın problem cümlesini “Veri madenciliği teknikleri ile organ nakli için uygun donör oranının hesaplanması nasıl yapılır?” sorusu oluşturmaktadır. HLA bilgileri kullanılan kişilerin adres bilgileri göz önünde bulundurulduğunda Türkiye’nin her bölgesinden gelen veriler kullanıldığından hesaplanan frekans değerlerinin tüm toplumu yansıtabileceği varsayılmıştır. Araştırma, Ankara ilindeki doku tiplendirme ruhsatı olan bir sağlık merkezinden elde edilen, 2012-2014 yılları arasında doku tiplendirmesi yapılan, birbiriyle akrabalık bağı bulunmayan 1192 sağlıklı bireye ait HLA doku tipi verileri ile sınırlıdır. Bu tez çalışması beş bölümden oluşmaktadır. İlk bölümde, tezin amacı, önemi, varsayımları, sınırlılıkları ve kapsamından bahsedilmiştir. İkinci bölümde, veri madenciliği ile ilgili temel kavram ve tanımlar belirtilmiştir. Veri madenciliği süreçleri, yöntemleri ve kullanım alanları, veri madenciliğinde sıkça kullanılan 3 güncel algoritmalar açıklanmıştır. Son olarak Türkiye’de tıbbi verilerle yapılan veri madenciliği çalışmalarından bahsedilmiştir. Üçüncü bölümde, çalışmanın tıp alanı ile ilgili tanımlar, organ nakli ve organ naklinin temel kavramı olan HLA hakkında genel bilgiler verilmiştir. Gen frekansı hesaplamanın temelini oluşturan popülasyon genetiği ve haplotip frekansının hesaplanması konuları açıklanmış ve literatürde HLA ile ilgili yapılan çalışma özetleri sunulmuştur. Dördüncü bölümde, tez çalışması kapsamında frekans hesaplama için kullanılan arlequin programı ve CPRA hesaplama yöntemi hakkında bilgiler verildikten sonra, “Uygulama” başlığı altında; uygulanan veri madenciliği adımları ve geliştirilen uygulamalar anlatılmıştır. Son olarak elde edilen bulgular değerlendirilmiştir. Son bölümde ise tez çalışması sonucunda elde edilen kazanımlar ve öneriler belirtilmiş ve çalışma hakkında genel bir değerlendirme yapılmıştır. 4 5 2. VERİ MADENCİLİĞİ 2.1. Veri Madenciliği Nedir? Günümüz teknolojisinin gelişmesine bağlı olarak, elektronik ortamda depolanan veri miktarı da hızla artmaktadır. Ancak depolanan verilerin hızla artması, veriler arasındaki ilişkilerin pratik olarak analizini zorlaştırmaktadır. Bu zorluktan dolayı, büyük miktardaki veriler arasından, gelecek ile ilgili tahmin yapabilmeyi sağlayabilecek bağıntıların bulunması, analizlerin yapılması ve karar verme süreçlerinde bilgisayarların kullanılması ihtiyacı ve fikri doğmuştur. Bunun sonucunda, çeşitli matematiksel ve istatistiksel hesaplamalara dayanan algoritmalar geliştirilmiş ve “Veri Madenciliği” kavramı doğmuştur [3]. Şekil 2.1. Verilerden bilgi çıkarma [4] Veri madenciliği; veri tabanı ve veri ambarı teknolojileri, istatistik, makine öğrenmesi, yüksek performanslı hesaplama, örüntü tanıma, sinir ağları, veri görselleştirme, bilgi çıkarımı, görüntü ve sinyal işleme, mekânsal ve zamansal veri analizi gibi farklı disiplinlerin birleşiminden oluşur [4]. Veri Madenciliği, verilerin içindeki gizli kalmış desenlerin, ilişkilerin, değişimlerin, düzensizliklerin, kuralların ve istatistiksel olarak önemli olan yapıların yarı otomatik 6 olarak keşfedilmesi işlemidir. Başka bir deyişle, veri madenciliğinin amacı ham veriyi anlamlı, etkin ve yararlı olan bilgiye dönüştürmektir [5]. Veri madenciliği, büyük miktardaki verilerin madenlenerek değerli olan bilgiye ulaşılması olarak ta tanımlanabilmektedir. Veri madenciliği deyiminin literatürde farklı kullanımları da bulunmaktadır. Bunlardan bazıları; Veri Tabanlarında Bilgi Keşfi (Knowledge Discovery in Database, KDD), Bilgi çıkarımı (Knowledge Extraction), Veri ve Örüntü Analizi (Data/Pattern Anaysis), Veri Arkeolojisi (Data Archeology), Veri Eşeleme (Data Dredging) vb. Bu tanımlardan en çok kullanılanı ise Veri Tabanlarında Bilgi Keşfi (KDD)’dir. Veri madenciliği de aslında Veri Tabanlarında Bilgi Keşfi sürecini oluşturan aşamalar içindeki en önemli adımı oluşturmaktadır [6]. 2.1.1. Veri tabanlarında bilgi keşfinin adımları Geleneksel sorgu veya raporlama araçlarının büyük veri yığınları karşısında yetersiz kalması sonucu yeni arayışlara gidilmesiyle Veri Tabanlarında Bilgi Keşfi (VTBK) kavramı ortaya çıkmıştır[4]. Toplanan veriler içerisinden gizli kalmış bilgilerin çıkarılması süreci tek başına basit bir işlem değildir. VTBK, verilerin önişlemden geçirilmesinden, modelin oluşturulup değerlendirilmesine kadar birçok adımdan oluşan bir süreçtir. Veri Tabanlarında Bilgi Keşfi Süreci birbirini takip eden aşağıdaki adımlardan oluşur: 1. Verilerin Temizlenmesi (Tutarsız verilerin çıkarılması) 2. Verilerin Bütünleştirilmesi (Farklı kaynaklardan elde edilen verilerin bir araya getirilmesi) 3. Verilerin Seçilmesi (Veri tabanından analiz yapılacak verilerin seçilmesi) 4. Verilerin Dönüştürülmesi (Verilerin madencilik tekniklerinin gerektirdiği uygun yapıya getirilmesi) 5. Veri Madenciliği (Veri desenleri elde etmek için akıllı tekniklerin kullanıldığı temel işlem) 6. Model Değerlendirme (İlginçlik ölçütlerine göre gerçek ilginç desenlerin tanımlanması) 7. Bilgi Sunumu (Uygulama sonuçlarının görselleştirme ve betimleme teknikleri yardımıyla kullanıcıya sunumu) [4] 7 Veriden bilgiye ulaşma aşamalarına başlamadan önce, uygulama alanının doğru belirlemesi gerekir. Daha sonra bu uygulama alanının amacına uygun veriler toplanarak veri kümesi oluşturmalıdır. Veri kümesi oluşturulduktan sonra sırasıyla verinin hatalı verilerden ayıklanması ve verinin bir takım önişlemlerden geçirilmesi gerekir. Veri kümesinin hatalı verilerden temizlenmesi, veri madenciliği sonucunda elde edilecek bilginin doğruluğunu artıracaktır. Çünkü hatalı verilerden doğru sonuçlar çıkarılamaz. Temizleme ve ayıklama işleminden sonra farklı kaynaklardan elde edilen veriler tek yerde birleştirilmelidir. Uygulamanın amacına göre verilerin ilgili alanları seçilir ve gereksiz alanlar atılır. Veriler üzerinde gerekli alanlarda veri dönüşümü gerçekleştirilir. Bu işlemlerden sonra elimizdeki veri üzerinde yapılacak veri madenciliği için yine uygulama amacımıza uygun veri madenciliği yöntemi ve bu yöntemin uygulanmasında kullanılacak algoritma belirlenir. Ön işlemlerden geçen veriler, seçilen veri madenciliği algoritmasına girdi olarak verilir ve model oluşturulur. Son olarak ta elde edilen modelin değerlendirmesi yapılarak, çeşitli yöntemlerle modelin kullanıcıya sunumu yapılır. 8 Şekil 2.2. Veri tabanlarında bilgi keşfi adımları [4] 9 Verilerin temizlenmesi Veri tabanında yer alan tutarsız ve hatalı verilere gürültü denir. Gürültülü verileri temizlemek için; eksik değer içeren kayıtlar silinebilir, kayıp değerlerin yerine sabit bir değer veya diğer verilerin ortalaması hesaplanarak kayıp veriler yerine bu değer yazılabilir ya da verilere uygun bir tahmin (karar ağacı, regresyon) yapılarak eksik veri yerine kullanılabilir [7]. Ayrıca bu aşamada kullanıcı kaynaklı giriş hataları da düzeltilir. Şekil 2.3. Verilerin temizlenmesi [8] Verilerin bütünleştirilmesi Veri madenciliğinde toplanan veriler genellikle farklı kaynaklarda bulunmaktadır. Bu verilerin tek bir çatı altında toplanması gerekir. Ancak veri madenciliğinde kullanılacak verilerin farklı kaynaklardan toplanması, doğal olarak veri uyumsuzluklarına neden olmaktadır [9]. Farklı kaynaklardaki verilerde, verilerin farklı zamanlara ait olmaları, güncelleme hataları, ölçü birimi, format, kodlama ve varsayım farklılıkları olabileceğinden veriler birleştirilirken bu durumlara dikkat edilmelidir. Şekil 2.4. Verilerin birleştirilmesi [8] 10 Örneğin bir tabloda hasta için “hastanın_adı_soyadı” bilgisi tutulurken diğer bir tabloda “hasta_kayıt_numarası” bilgisi tutulabilir ya da cinsiyet bilgisi bir tabloda E/K ile ifade edilirken diğer tabloda 1/0 şeklinde ifade edilebilmektedir. Bu nedenle burada çok dikkatli ve titiz davranmak gerekir. Bu aşamada yapılacak bir hata, ileriki aşamalarda daha büyük sorunlara neden olacaktır. Doğru sonuç alınacak veri madenciliği çalışmaları ancak doğru verilerin üzerine kurulabileceği için, toplanan verilerin ne ölçüde uyumlu olduğu çok iyi değerlendirilmelidir [9]. Verilerin seçilmesi Toplanan veriler içinde, yapılacak çalışma için gereksiz olan veriler bulunabilmektedir. Yapılacak uygulamanın amacına göre anlamsız olan gereksiz veriler, hem diğer verilerin modeldeki ağırlığını azaltacak, hem de model oluşturma zamanının artmasına sebep olacaktır. Bu yüzden uygulama için anlamlı olan alanlar seçilmelidir. Şekil 2.5. Verilerin seçilmesi [8] Verilerin dönüştürülmesi Modelin gücünü ve etkinliğini artırmak için verilerin uygun formata dönüştürülmesi olan bu adımda, veriler üzerinde düzeltme, birleştirme, genelleştirme ve normalleştirme gibi işlemler yapılır [4]. Sürekli bir verinin sayısal bir aralığa veya kategorik bir verinin sayısal bir değere dönüştürülmesi örnek olarak verilebilir. Şekil 2.6. Verilerin dönüştürülmesi [8] 11 Veri madenciliği Veriden bilgi keşfinin en önemli adımı, veri madenciliği işlemidir. Çünkü hangi yöntem ve algoritmanın bize daha iyi performans vereceğinin önceden kestirilmesi zordur. Bu nedenle uygulama amacının çok iyi kavranması ve ona uygun veri madenciliği yönteminin uygulanması gerekmektedir. Sınıflandırma, kümeleme, birliktelik ilişkisi ve regresyon analizi olarak gruplandırabileceğimiz veri madenciliğinin çeşitli model oluşturma yöntemleri vardır. Eğer bir sınıflama işlemi yapılacaksa, sınıflama yöntemlerinden biri ya da birkaçı seçilmelidir. Probleme en uygun modelin bulunabilmesi için, çok sayıda modelin denenmesi gerekebilir. Bu nedenle, veri madenciliği, en iyi olduğu düşünülen modele varıncaya kadar yinelenen bir süreçtir [6]. Model değerlendirme Önişlemden geçirilmiş veriler üzerinde uygun algoritmaların çalıştırılmasıyla elde edilen sonuçlar ile modelin kalitesi ve geçerliliği değerlendirilir. Eğer bir sınıflandırma modeli oluşturulmuşsa, modelin değerlendirilmesinde doğruluk (accuracy) değeri, duyarlılık (recall) ve kesinlik (presicion) değerleri ya da bu iki değerin birleşiminden oluşan F-ölçütü (F-skore) değeri kullanılır. Bu terimler bölüm 2.2.1 tahmin edici modeller başlığı altında açıklanacaktır. Şekil 2.7. Karışıklık matrisi, kesinlik, duyarlılık, doğruluk ve F-ölçütü Veriler hazırlandıktan sonra, model oluşturmaya geçmeden önce, verinin bir kısmı modelin öğrenilmesi, diğer kısmı ise modelin geçerliliğinin test edilmesi için ayrılır. Bu nedenle 12 sınıflandırma yönteminde, verilerin bir kısmı test verisi olarak ayrılır ve bu veriler modelin doğruluğunu hesaplama için kullanılır. Eğer kabul edilebilir bir hata değerine ulaşılamamışsa, kabul edilebilir hata değeri elde edilene kadar algoritma tekrar tekrar çalıştırılır. Bilgi sunumu Elde edilen modelin, uygulamanın amacına uygunluğu ve geçerliliği kontrol eldir. Geçerliliği kabul edilen bilgi veya model başlangıçta belirtilen amaca uygun olarak kullanılır. Şekil 2.8. Bir karar ağacı modelinin görsel olarak sunulması 2.2. Veri Madenciliği Yöntemleri Ham verinin bilgiye dönüşümünü sağlayan veri madenciliği modelleri, tahmin edici (predictive) ve tanımlayıcı (descriptive) modeller olarak iki ana başlık altında toplanır. 13 Şekil 2.9. Veri madenciliği yöntemleri 2.2.1. Tahmin edici modeller Tahmin edici modeller sonuçları bilinen verilerden hareket ederek bir model geliştirilmesi ve bu modelden yararlanılarak, sonucu bilinmeyen veriler için sonuç tahminini amaçlamaktadır [10]. Tahmin edici modellerde elde edilebilecek sınıflar bellidir. Örneğin bir bankaya kredi başvurusunda bulunan kişilerin mali özelliklerinin yanında demografik özelliklerine ait bir takım kişisel bilgileri de tutulur. Müşterilere ait demografik özellikler bağımsız değişkenler grubunu oluştururken, mali özellikleri ise bağımlı değişken değerleridir. Önceden toplanan bu verilerden yola çıkarak, gelecek dönemlerde müşterilerin özelliklerine göre kredi risk tahmin değerleri analiz edilebilir. Tahmin edilen sonuçların kalitesi (ne kadar iyi tahmin edildiği) tahmin kadar önemlidir. Çoğunlukla tahmin edilen sonuç ile birlikte, bu sonucun kalitesine yönelik; güvenlik aralığı, olasılığı, vb. değerleri belirlenir [9]. Modellerin değerlendirilmesinde doğruluk oranı, hata oranı, duyarlılık, kesinlik ve F-ölçütü gibi değerler kullanılır. Bu değerlerin 14 hangisinin ne zaman kullanılacağı uygulamanın kullanım amacına göre değişmektedir. Bu değerlerin tanımları ve formülleri aşağıda verilmiştir. Şekil 2.10. Karışıklık matrisi Doğruluk Oranı: Model başarımının ölçülmesinde kullanılan en popüler ve basit yöntem, modele ait doğruluk oranıdır. Doğru sınıflandırılmış örnek sayısının (TP+TN), toplam örnek sayısına (TP+TN+FP+FN) oranıdır. TP+TN 𝐷𝑜ğ𝑟𝑢𝑙𝑢𝑘 𝑂𝑟𝑎𝑛𝚤 = 𝑇𝑃+𝐹𝑃+𝑇𝑁+𝐹𝑁 (2.1) Hata Oranı: Yanlış sınıflandırılmış örnek sayısının (FP+FN), toplam örnek sayısına (TP+TN+FP+FN) oranıdır. Diğer bir ifadeyle doğruluk oranı değerini 1’e tamlayanıdır (1Doğruluk Oranı). FP+FN 𝐻𝑎𝑡𝑎 𝑂𝑟𝑎𝑛𝚤 = 𝑇𝑃+𝐹𝑃+𝑇𝑁+𝐹𝑁 (2.2) Kesinlik: Doğru olarak tahminlenmiş pozitif örnek sayısının, pozitif olarak tahminlenmiş tüm örnek sayısına oranıdır. Yani pozitif olarak tahmin edilmiş örneklerden yüzde kaçı gerçekten pozitiftir. Kesinlik = TP 𝑇𝑃+𝐹𝑃 (2.3) Duyarlılık: Doğru tahminlenmiş pozitif örnek sayısının toplam pozitif örnek sayısına oranıdır. Pozitif örneklerin yüzde kaçı doğru olarak tahmin edilebilmiştir. 15 TP Duyarlılık = 𝑇𝑃+𝐹𝑁 (2.4) F-ölçütü: Kesinlik ve duyarlılık ölçütlerinin beraber değerlendirerek daha doğru sonuç elde etmek için F-ölçütü tanımlanmıştır. F-ölçütü, kesinlik ve duyarlılığın harmonik ortalamasıdır. F − ölçütü = 2∗Kesinlik∗Duyarlılık 𝐾𝑒𝑠𝑖𝑛𝑙𝑖𝑘+𝐷𝑢𝑦𝑎𝑟𝑙𝚤𝑙𝚤𝑘 = 2∗TP 2∗𝑇𝑃+𝐹𝑁+𝐹𝑃 (2.5) Tahmin edici modeller kategorik bir değer (yüksek, orta, düşük gibi) veren sınıflandırma ve sürekli bir değer veren regresyon yöntemleri olarak iki alt gruba ayrılır. Sınıflandırma Sınıflandırma yöntemi, veri madenciliğinde en sık kullanılan yöntemlerden biridir. Sınıflandırma, verilerin öngörülebilir bir özniteliğe göre herhangi bir kategoriye atanması anlamına gelir [11]. Kategorisi belli olan eğitim verileri ile sınıflandırma modeli oluşturulur. Daha sonra oluşturulan bu model ile kategorisi belli olmayan verilerin kategori değeri tahmin edilir. Sınıflandırmada, sınıflar evet/hayır gibi iki kategori olabileceği gibi birden çok kategori de olabilir. Örneğin hastalık teşhis karar destek sisteminde, sonuçları (hastalık tanısı) belli olan hasta verileri kullanılarak bir hastalık sınıflandırma modeli oluşturulur. Yeni gelen her hasta için, kişinin şikâyetleri ve klinik bilgileri kullanılarak bu model yardımı ile kişi hakkında, ne hastası olduğuna dair bir sınıflandırma yapılır. Sınıflandırmada, tahmin edilen sonucun yanında modelin başarım değerinin de belirlenmesi gerekir. Bu nedenle genellikle veri kümesi, model oluşturmaya geçmeden önce, eğitim ve test kümesi olarak iki gruba ayrılır. Eğitim kümesi modeli oluşturulmasında, test kümesi modelin doğrulanmasında kullanılır. Sınıflandırmada kullanılan başlıca teknikler, Karar Ağaçları (Decision Trees), Yapay Sinir Ağları (Neural Networks), Bayes Sınıflandırması (Bayesian Classification), Destek Vektör 16 Makinaları(Support Vector Machines), K-En Yakın Komşu(Nearest Neighbour),Bulanık Mantık (Fuzzy Logic) ve Genetik Algoritmalardır [9]. Regresyon ve zaman serileri analizi Regresyon analizi, bir bağımlı değişkenin bir veya birden fazla bağımsız değişkenle arasındaki ilişkinin matematiksel bir fonksiyon şeklinde yazılması ve bu fonksiyon yardımıyla bağımlı değişkenin değerinin tahmin edilmesidir [8]. İki ya da daha çok değişken arasındaki doğrusal ilişkinin fonksiyonel şeklini, biri bağımlı diğeri bağımsız değişken olarak bir doğru denklemi olarak gösteren regresyon analizi değişkenlerden birinin değeri bilindiğinde diğeri hakkında kestirim yapılmasını sağlamaktadır [10]. Zaman serisi, bir değişkene ait zamanın belli düzenli periyotlarında ortaya çıkan nümerik verilerin kronolojik dizilimi ile oluşan veri setleridir [12]. Zaman serileri analizi ise, tahmini yapılacak değişkenin geçmişteki durumunun çeşitli yöntemlerle incelenmesi ve elde edilen bilgilerden yararlanılarak gelecekteki değerlerinin tahmin edilmesi esasına dayanır. Değişkenlerin bir zaman aralığı üzerindeki değerlerinin incelenmesi ve söz konusu değerlerin farklı değişkenler için birbirleriyle karşılaştırılması şeklinde de tanımlanabilir [10]. Örnek olarak ülkemizde 2000-2010 yılları arasındaki ekonomik büyüme ve istihdam arasındaki ilişkinin incelenmesi verilebilir. 2.2.2. Tanımlayıcı modeller Tanımlayıcı modellerin amacı, karar vermeye rehberlik etmede kullanılabilecek mevcut verinin tanınması, keşfedilmesi ve içerdiği örüntülerin tanımlanmasıdır. Genelde sepet analizi olarak geçen, bir alışveriş sepetindeki ürünlerin arasındaki ilişkiyi ortaya çıkaran ve bir elektronik alışveriş sitesinde bir ürün seçildiğinde, müşteriye başka ürünleri de önermesi tanımlayıcı modeller ile yapılan veri madenciliğine örnek olarak verilebilir. 17 Tanımlayıcı modeller, nesneleri benzer özelliklerine göre gruplandırma temeline dayanan kümeleme ve nesnelerin birbirileri ile olan ilişkilerini ortaya çıkaran birliktelik analizi olarak iki alt bölüme ayrılır. Kümeleme analizi Veriyi benzer özellikliler aynı gruba girecek şekilde, sınıflara veya kümelere ayırma işlemidir. Ancak kümeleme yönteminde sınıflandırma yapılmamaktadır. Çünkü kümeleme fonksiyonunda önceden tanımlanmış girdiler ve örnekler yoktur. Veriler kendi içlerindeki benzerliklere göre gruplandırılırlar [9]. Kümeleme analizindeki temel amaç, nesnelerin grup içi benzerliklerinin fazla, gruplar arası benzerlikleri ise az (gruplar arası farkları fazla) olan gruplara (kümelere) ayrılmasıdır. Başka bir ifadeyle veriyi birbirine benzeyen elemanlardan oluşan sınıflara (kümelere) ayırarak, heterojen bir veri grubundan, homojen alt veri grupları elde edilmesi işlemidir [13]. Şekil 2.11. Kümeleme [11] Geniş veri yığınları için tanımlayıcı veriler belirleyerek, işlenecek veri hacmini daraltmak, veri yığınlarındaki doğal kümeleri ortaya çıkararak aynı kümede olması gereken verileri belirlemek, belirlenmiş kümelerin dışında kalan istisna durumları tespit etmek, kümelemenin temel hedefleri arasında sayılabilir [9]. Biyoenformatik başta olmak üzere, tıbbi görüntüleme teknikleri, ürün konumlandırma, yeni ürün geliştirme, bilgi çıkarım gibi geniş bir alanda kümeleme yöntemi kullanılmaktadır. 18 Kümeleme Yöntemleri Hiyerarşik Kümeleme Yöntemleri Yığmacı ROCK Bölümleme Yöntemleri Bölücü BIRCH Yoğunluk Tabanlı Yöntemler Izgara (Grid) Tabanlı Yöntemler Model Tabanlı Yöntemler K ortalama Algoritması DBSCAN STING COBWEB Bulanık C Ortalama DENCLUE STING+ EM OPTICS WaveCluster SOMs CLIQUE GDILC Şekil 2.12. Kümeleme analizi yöntemleri Kümeleme analiz yöntemleri; Hiyerarşik Yöntemler (Hierarchical Methods), Bölümleme Yöntemleri (Partitioning Methods), Yoğunluk Tabanlı Yöntemler (Density-Based Methods), Izgara Tabanlı Yöntemler (Grid-Based Methods) ve Model Tabanlı Yöntemler (Model-Based Methods) olarak alt gruplara ayrılır [4]. Hiyerarşik kümeleme yöntemleri Hiyerarşik yöntemde veriler hiyerarşik olarak gruplara ayrılırlar. Hiyerarşik yöntem verilerin nasıl ayrıştırıldığına göre, yığmacı (agglomerative) ve bölücü (divisive) yöntemler olarak ikiye ayrılır. 19 Şekil 2.13. Yığmacı ve bölücü yöntemler [4] Yığmacı yöntem aşağıdan yukarı hiyerarşik yöntem olarak ta bilinir. Yığmacı yöntemde veri setinin her bir elemanı ayrı bir grup olarak belirlenir ve grup sayısı istenilin değere düşünceye kadar en yakın gruplar birleştirilerek grup sayısı azaltılır. Bölücü yöntem yukarıdan aşağı hiyerarşik yöntem olarak ta bilinir. Bölücü yöntemde ise başlangıçta veri seti tek grup olarak belirlenir. Grup sayısı istenilen değere ulaşıncaya kadar, grubun merkezine en uzak eleman gruptan çıkarılıp yeni gruba dâhil edilir. Bölümleme yöntemleri k <= n olması şartıyla n adet nesnesi olan veri seti k adet bölüme (gruba) ayrılır. Veriler bölümlenirken uyulması gereken temel iki kural vardır. Birincisi grubun en az bir adet elemanı olmalı, ikincisi ise her eleman sadece bir gruba dâhil olmalıdır. İkinci kural bulanık mantık için daha esnektir (Bulanık mantıkta bir eleman birden fazla kümeye belli oranlarda dâhil olabilir) [4]. Başlangıçta belirlenen k değeri kadar grup başlangıç noktası belirlenir ve grupların daha iyi şekilde gruplana bilmesi için yinelemeli olarak çalışır. Grupların iyi yapılmasındaki kural grup içi elemanların birbirine yakın, gruplar arası mesafenin de uzak olmasıdır. 20 Gruplar arası mesafenin belirlenmesinde kullanılan çeşitli yaklaşımlar vardır. En popüler sezgisel (heuristic) yöntemler olan K ortalama ve K ortanca algoritmaları bölümlemeli yöntemlere örnek olarak verilebilir. Bu iki yöntem küçük veri setleri için iyi çalışırken büyük veri setleri için yöntemlerin geliştirilmeleri gerekir. Yoğunluk tabanlı yöntemler Bölümleme tabanlı kümeleme yöntemleri, nesneler arasındaki mesafeye göre bölümleme yaparlar. Bu nedenle küresel şekilli kümeleri bulmada iyi olmalarına karşın karmaşık şekilli grupları bulamazlar. Bu problemi çözmek için yoğunluk tabanlı kümeleme yöntemleri geliştirilmiştir. Yoğunluk tabanlı yöntemde bir nesnenin bir kümeye dâhil edilebilmesi için eşik değer olarak belirlenen mesafe içinde minimum komşuluk değerini sağlaması gerekir [4]. DBSCAN, OPTICS ve DENCLUE algoritmaları yoğunluk tabanlı yöntemlere örnek olarak verilebilir. Izgara tabanlı yöntemler Bu yöntem, veri uzayını incelemek için sonlu sayıda kare şeklinde hücrelerden oluşan ızgara yapıları kullanır. Kullandıkları ızgara yapısından dolayı veri tabanındaki nesne sayısından bağımsızdır. Izgara tabanlı yöntemlerde performans, ızgarada kullandıkları kare sayısı ile ters orantılıdır, kare sayısı arttıkça hesaplama zamanı artacağından performans düşer. Izgara tabanlı yöntemlerin en önemli avantajları, işlem süresi nesne sayısından bağımsız olduğu için hızlı ve çabuk sonuca ulaşabilmeleridir [4]. STING, CLIQUE ve Wave Cluster algoritmaları ızgara tabanlı yöntemlere örnek olarak verilebilir. Model tabanlı yöntemler Model tabanlı yöntemler eldeki verileri bir matematiksel model ile ifade etmeye çalışırlar. Bu yöntemler verilerin belirli bazı olasılık teorilerinin karışımından oluşan bir mantık ile 21 veri uzayına yerleştiklerini farz ederler. Model tabanlı metotlar iki temel yaklaşımı kullanırlar. Bunlar İstatistik yaklaşım ve yapay zekâ yaklaşımıdır [14]. İstatistik yaklaşım diğer tüm kümeleme modellerinde olduğu gibi sadece kümelenmeleri ortaya çıkarmakla kalmaz, bunun yanında kümelerin genel karakterleri ile ilgili bilgiler de verir. Bu işleme kavramsal kümeleme denir. Yapay zekâ yaklaşımında her bir küme bir örnek gibi temsil edilir. Veri tabanına yeni eklenen nesneler belirli bir uzaklık ölçümü sonucunda hangi örneğe benziyorlarsa o kümeye dâhil edilirler [4]. Birliktelik kuralları Birliktelik kuralları, geçmiş veriler içerisindeki birlikteliklerin tespit edilerek veriler içerisinde birlikte gerçekleşmesi muhtemel olayların ortaya konulması ve geleceğe yönelik tahminde bulunulmasını destekleyen bir yaklaşımdır. Birliktelik analizinin iki temel amacı vardır; ilki veri seti içerisindeki sık geçen öğe kümelerini tespit etmek, ikincisi ise birliktelik kurallarını ortaya çıkarmaktır [11]. Literatürde “sepet analizi” olarak da adlandırılan söz konusu teknik, işlemler arasındaki korelasyonları ortaya çıkarmada kullanılır. Örneğin müşterilerin yaptıkları alışverişlerdeki ürünler arasındaki birliktelikleri tespit ederek müşterilerin satın alma davranışlarını konu edinen söz konusu kurallar, yöneticilere daha etkili stratejiler geliştirme olanakları sağlar. 22 Şekil 2.14. Sepet analizi [4] Market satış analizleri, müşteri alım alışkanlıkları, hangi ürünlerin indirime konacağı, katalogların nasıl tasarlanacağı, raftaki ürünlerin nasıl dizileceği vb. problemlerde kullanılan birliktelik kuralları önemli kararlar alınmasına destek sağlamaktadır. Herhangi bir birliktelik kuralında destek (support) ve güven (confidence) değeri olmak üzere iki önemli kavram vardır. Destek değeri, X ve Y nesnelerinin birlikte bulunduğu kayıt sayısının, veri setindeki tüm kayıt sayısına oranı olarak hesaplanır. Güven değeri ise, X ve Y nesnelerinin birlikte bulunduğu kayıt sayısının, X nesnesinin (veya nesnelerinin) bulunduğu kayıt sayısına oranıdır. Destek ve güven değerleri 0 ile 1 arasında değişir ve değerler ne kadar büyükse, nesneler arasında o kadar güçlü ilişki olduğunu gösterirler. Dolayısıyla, ilişkinin önemli olması için her iki değerin de olabildiğince yüksek olması gereklidir [15]. 2.3. Veri Madenciliği Algoritmaları Veri Madenciliği ile ilgili kullanılan pek çok yöntemin yanına hemen her geçen gün yeni yöntem ve algoritmalar eklenmektedir. Bunlardan bir kısmı onlarca yıldır kullanılan klasik teknikler diyebileceğimiz ağırlıklı olarak istatistiksel yöntemlerdir. Diğer yöntemler de genellikle istatistiği temel alan ama daha çok makine öğrenimi ve yapay zekâ destekli yeni 23 nesil yöntemlerdir. Son zamanlarda, birden fazla tekniği içine alan hibrid (karma) yöntemler ve zaman serilerine dayalı yöntemlerden de veri madenciliği yöntemi olarak faydalanılmaktadır. Kısaca bilgi keşfine yarayan her yöntem veri madenciliği yöntemi olarak kullanılabilmektedir. Aşağıda yaygın kullanıma sahip başlıca veri madenciliği yöntemleri ve kısa tanımları verilmektedir. 2.3.1. K-ortalamalar (K-Means) kümeleme algoritması Segmentasyon, gruplama ve sınıflandırma yöntemidir. N adet nesnenin, K gruba ayrılması temeline dayanır. Sınıf aralıkları belli olmadığında; bir benzerlik veya farklılık ölçütüne (metriğine) bağlı olarak, grup içinde homojen, gruplar arasında heterojen K adet küme oluşturur. Şekil 2.15. K ortalama adımları Başlangıçta belirtilen k sayısı kadar rasgele grup merkezi belirlenir. Daha sonra veri setindeki her eleman tek tek gezilerek, her eleman en yakın kümeye dâhil edilir. K ortalamalar yönteminde grup içi elemanların ortalaması grup merkezi olarak güncellenir. Küme merkezleri güncellendikten sonra, veri setindeki her eleman yeniden bir gruba dâhil edilerek gezilir. Küme merkezleri değişmeden (sabit) kalıncaya kadar bu adımlar 24 tekrarlanır. Bu yineleme işlemleri çok uzun sürecekmiş gibi görünse de birkaç adımda küme merkezleri sabitlenmektedir [4]. 2.3.2. K-ortancalar (medoids) algoritması K-ortancalar algoritması k-ortalamalar algoritmasının gürültü ve istisna verilere aşırı duyarlılığını gidermek amacıyla geliştirilmiştir. K-ortancalar algoritması kümeyi temsil edecek noktayı bulmak için küme elemanlarının ortalamasını almak yerine kümenin en merkez noktasındaki elemanı yeni küme merkezi olarak alır. Böylece istisna verilerin küme merkezini kenarlara doğru kaydırması problemi engellenmiş olur. K-medoids algoritmasının birçok farklı türevi bulunmaktadır. Bunlardan biri de, PAM (Partitioning Around Medoids) algoritmasıdır. PAM, öncelikle k-means algoritmasında olduğu gibi rastgele seçtiği k adet nesneyi küme merkezi olarak alır. Kümeye yeni eleman eklendiğinde kümenin elemanlarını deneyerek kümenin gelişmesine en fazla katkıda bulunabilecek noktayı tespit eder ve bulduğu elemanı yeni merkez, eski merkezi ise sıradan küme elemanı olarak işaretler [4]. 2.3.3. DBSCAN (Density Based Spatial Clustering of Applications with Noise) Nesnelerin komşuları ile olan mesafelerini hesaplayarak belirli bir bölgede önceden belirlenmiş eşik değerden daha fazla nesne bulunan alanları gruplandırarak kümeleme işlemini gerçekleştirir. DBSCAN algoritması veri madenciliğine birçok yeni terim ve yaklaşım getirmiştir. Bu terimler Şekil 2.16 üzerinden anlatılacaktır. 25 Şekil 2.16. Yoğunluk tabanlı kümelemede, doğrudan erişilebilir nokta, yoğunluk erişilebilir nokta, yoğunluk bağlı nokta [4]. Çekirdek Nesne (core object): Bir veri nesnesi ε-komşuluğunda önceden belirlenen bir eşik değerden (MinPts) daha çok nokta içeriyorsa bu nesne çekirdek nesnedir. Eps: Bir veri nesnesinin komşularını belirlemek için gerekli olan yakınlık mesafesidir. MinPts: Bir bölgenin yoğun olarak adlandırılabilmesi için Eps komşuluğunda bulunması gereken en az komşu sayısıdır. Doğrudan Erişilebilir Nokta (Direct Reachable point): Her hangi bir q noktası m’nin Eps komşuluğunda ise ve m noktası q’ya göre çekirdek nesne ise q noktası m’ye göre doğrudan erişilebilir noktadır. Yoğunluk Erişilebilir Nokta (Density Reachable point): Herhangi p ve q noktalarının her ikisi de bir m noktasına doğrudan erişilebilir durumda ise, p ve q noktaları Eps ve MinPts değerine göre yoğunluk erişilebilir noktalardır. Yoğunluk bağlı noktalar (Density connected): Herhangi s ve r noktalarının her ikisi de bir o noktasına yoğunluk erişilebilir durumda ise, s ve r noktaları Eps ve MinPts değerine göre yoğunluk bağlı noktalardır. DBSCAN algoritması için ilk olarak MinPts ve Eps parametreleri belirlenmelidir. Algoritma rastgele seçilen bir p noktasına MinPts ve Eps değerlerine göre yoğunluk erişilebilir olan tüm noktaları bulur, eğer p çekirdek nokta koşulunu sağlıyor ise yeni bir 26 küme keşfedilmiş olur. Daha sonra p noktasına yoğunluk erişilebilir olan noktalar tespit edilir. Yoğunluk erişilebilir her noktanın da yoğunluk erişilebilir noktaları bulunarak, p noktasının yoğunluk bağlı noktaları bulunur ve kümeye dâhil edilir. Bütün erişilebilir noktalar gezildikten sonra küme sınırı bulunmuş olur. Algoritma yeni bir rastgele nokta seçerek aynı işlemleri tekrar eder. Eğer rastgele seçilen nokta çekirdek nokta koşulunu sağlamıyorsa bu nokta gürültü ya da istisna olarak tanımlanır [4]. 2.3.4. OPTICS (Ordering Pointsto Identify the Clustering Structure) DBSCAN algoritması için kullanıcı tarafından belirtilmesi gereken Eps ve MinPts değerlerine bağımlığı azaltmak için veri nesnelerini Eps değerine göre bir grafik üzerine yerleştirip, grafik üzerinden kümeleri bulmayı sağlar. DBSCAN algoritmasının geliştirilmiş hali olarak tanımlanabilir [14]. OPTICS sadece Eps değerini giriş parametresi olarak aldığı için DBSCAN algoritmasına göre daha bağımsız sonuçlar üretebilmektedir. Bu avantajına rağmen OPTICS kendi başına bir kümeleme algoritması değil, bir kümeleme görselleştirme aracı olarak nitelendirilebilir. Veri kümesini değişken Eps değerlerinin dağılımına göre grafik üzerinde göstererek insan gözünün analiz edebileceği anlamlı şekiller haline getirir. Şekil 2.17. OPTICS algoritması [4] OPTICS algoritmasında öncelikle rastgele bir nokta seçilir. Seçilen noktanın Eps komşuluğunda bulunan en yakın komşusu ile seçilen nokta arasındaki uzaklığı bir çubuk 27 grafiğinde bir sütun olarak temsil eder. Aynı işlemi uzaklık sırasına göre Eps komşuluktaki tüm nesneler için gerçekleştirir. Komşu kalmayınca yeni bir rastgele nokta seçip bu noktanın komşuları için aynı işlemi uygular. Algoritma, veri kümesi içindeki nesnelerin orijinal sırasına duyarsızdır [16]. Eps(ε’) değerinin olduğu noktadan yatay bir çizgi çizildiğinde altında kalan alandaki vadiler istenilen Eps değeri için elde edilen kümelerdir. 2.3.5. K-en yakın komşuluk Anlaşılması ve uygulaması basit olmasından dolayı, özellikle büyük veri tabanlarında kullanılan bir sınıflandırma tekniğidir. Sınıflandırılmak istenen nesnenin ait olduğu kümeyi, en yakınında yer alan K adet nesnenin sınıflarına bakarak belirler. Nesneyi en yakın K komşusunda, en fazla elemanı bulunan sınıfla aynı kümede sınıflandırması mantığına dayanmaktadır. Şekil 2.18. K en yakın komşuluk Sınıfları bilinen eğitim verilerinin niteliklerine göz önünde bulundurularak seçilen bir uzaklık ölçütüne (Euclid, Manhattan ve Minkowski uzaklıkları gibi) göre en yakın k elemanın ait olduğu en fazla sınıf, elemanın sınıfını belirler [4]. 28 2.3.6. Destek vektör makineleri (Support vector machines) Değişkenler arasındaki örüntülerin bilinmediği veri setlerindeki sınıflandırma problemi için önerilmiş bir yöntemdir. Eğitim verisi ile öğrenme yaparak yeni veri üzerinde tahmin yapmaya ve genelleştirmeye çalışır. Şekil 2.19. Destek vektör makineleri Destek vektör makinesi veriyi sınıflandırırken sınıfların birbirine en yakın örneklerini bularak bu örneklerin ayırıcı yüzeye (iki sınıfı ayıracak olan) dik uzaklıklarını maksimize etmeyi amaçlar. Destek vektör makinesi kullanılarak ayırıcı yüzeyin her iki sınıfa da aynı mesafede ve maksimum uzaklıkta olması sağlanır [4]. 2.3.7. Karar ağaçları (Decision trees) Karar ağaçları, uygulanmasının, yorumlanmasının ve entegrasyonunun kolay olması nedeniyle en yaygın kullanılan sınıflandırma tekniklerinden biridir. Güvenilirliklerinin iyi olması da bir başka tercih edilme nedenidir. Karar ağaçlarının hedefi bağımlı değişkendeki 29 farklılıkları maksimize edecek şekilde veriyi sıralı bir biçimde farklı gruplara ayırmaktır. Karar ağaçları, ağaç oluşturulduktan sonra, kökten yaprağa doğru inilerek kolayca kurallar yazılabilir [9]. Karar ağaçları, nitel, nicel, sürekli ve kesikli tüm değişkenlere uygulanabilen algoritmaları, ağaç diyagramı şeklindeki görsel yapısıyla en popüler sınıflama yöntemlerinden birisidir [17]. Karar ağacının yapısı, karar düğümleri, dallar ve yapraklardan oluşur. Karar düğümü: Veriye uygulanacak test tanımlanır. Her düğüm bir özellikteki testi gösterir. Test sonucunda ağacın dalları oluşur. Dalları oluştururken veri kaybı yaşanmaması için verilerin tümünü kapsayacak sayıda farklı dal oluşturulur. Dal: Düğümlerdeki testin sonucunu gösterir. Elde edilen her dal ile tanımlanacak sınıfın belirlenmesi amaçlanır. Ancak dalın sonucunda sınıflandırma tamamlanamıyorsa tekrar bir karar düğümü oluşur. Karar düğümünden elde edilen dalların sonucunda sınıflandırmanın tamamlanıp tamamlanmadığı tekrar kontrol edilerek devam edilir. Yaprak: Dalın sonucunda bir sınıflandırma elde edilebiliyorsa yaprak elde edilmiş olur. Yaprak, verileri kullanarak elde edilmek istenen sınıflandırmanın sınıflarından birini tanımlar. Karar ağaçlarında temel hedef en kısa adımda verinin muhtemel sınıfını bulmaktır. Bu nedenle ağaç oluşturulurken köke hangi niteliğin gelmesi gerektiğinin belirlenmesi gerekir. Çeşitli istatistik hesaplamalar ile niteliklerin öncelikleri hesaplanarak en yüksek fayda sağlayan nitelik köke konulur. Daha sonra diğer niteliklere de aynı işlemler uygulanarak yapraklara(sınıflara) ulaşılmaya çalışılır. Bu dallanma işlemleri hatalı veriler nedeniyle bazen hatalara yol açabilir. Ağaç tamamlandıktan sonra, ağacı temizlemek için (Tree pruning) gürültü ve istisna kararları içeren dallar belirlenir ve kaldırılır. Karar ağacı oluşturulduktan sonra test verileri ile oluşturulan modelin doğruluk değeri hesaplanır. Doğruluk değeri, kabul edilebilir bir aralıkta ise oluşturulan model, sınıfı belli olmayan yeni verilerin sınıflandırılmamasında kullanılabilir. Karar ağaçlarını kullandıkları yöntemlere göre çeşitli versiyonları vardır. C4.5, C5.0, C&RT ve CHAID en popüler karar ağacı yöntemleridir. 30 2.3.8. Yapay sinir ağları (Neural networks) İnsan beyninin hesaplama mantığı baz alınarak oluşturulmuş (yapay) sinir ağları, karar ağaçları gibi yeni jenerasyon veri madenciliği yöntemlerindendir. Yapay sinir ağları (YSA) insan beynindeki sinir hücrelerinin işlevini modelleyen bir yapıdır ve birbiri ile bağlantılı katmanlardan oluşur [9]. Girdi ve çıktı katmanları arasındaki iletim, aradaki bağların ağırlığına ve her hücrenin değerine bağlı olarak değişebilir. Yapay sinir ağları, girdi ve çıktı arasında, küçük hesaplama birimlerinden elde edilen bu sonuçları birleştirerek sonuçlandıran bir modelleme yöntemidir [17]. Şekil 2.20. Yapay sinir ağları modeli Basit bir yapay sinir ağı şu şekilde çalışır. Öncelikle, öğrenme kümesi verilerinin nitelik sayısı, yapay sinir ağına giriş nöronu sayısı, verilerin sınıf sayısı da çıkış nöronu sayısı olarak verilir. Daha sonra YSA’ya verilen eğitim verisi ile model oluşturulur. Gizli katman sayısı ve gizli katmanlardaki nöron sayısı, kullanıcı tarafından verilebileceği gibi model oluşturma esnasında otomatik olarak ta belirlenebilir. Daha sonra model, test verileri ile değerlendirilir ve gerekirse ağda küçültme yapılır. Karar ağaçları uygulama, anlama ve yorumlama açısından ne kadar kolaysa, sinir ağları da o derece zordur. Yalnızca model oluşturma, sonuçları yorumlama aşamasının ötesinde; doğru bir model kurabilmek için ağın eğitimindeki dengenin önemi oldukça büyüktür. 31 Fazla eğitilmiş bir ağ, önceden gözlenmemiş bir gözleme yönelik tahmin kabiliyetini yitirirken; az eğitilmiş bir ağ ise yanlış tahmin verebilmektedir [17]. 2.3.9. Genetik algoritmalar (Genetic algorithms) Genetik algoritmalar problemlerin çözümü için evrim sürecinin bilgisayar ortamına uyarlanmış biçimidir. Diğer eniyileme yöntemlerindeki gibi çözüm için tek bir yapı geliştirmek yerine, bu yapılardan meydana gelen bir küme oluşturur. Problem için olası pek çok çözümü temsil eden bu küme genetik algoritma terminolojisinde popülasyon adını alır. Popülasyon vektör, kromozom veya birey adı verilen sayı dizilerinden oluşur. Birey içindeki her bir elemana gen adı verilir. Her kuşakta, genetik algoritma, çaprazlama ve mutasyon gibi genetik operatörleri kullanarak yeni bir popülasyon oluşturur. Popülasyondaki bireyler evrimsel süreç içinde genetik algoritma işlemcileri tarafından belirlenirler [18]. Şekil 2.21. Genetik algoritma Popülasyon içindeki her bireyin problem için çözüm olup olmayacağına karar veren bir uygunluk fonksiyonu vardır. Uygunluk fonksiyonundan dönen değere göre yüksek değere sahip olan bireylere, popülasyondaki diğer bireyler ile çoğalmaları için fırsat verilir. Bu bireyler çaprazlama işlemi sonunda çocuk adı verilen yeni bireyler üretirler. Çocuk kendisini meydana getiren ebeveynlerin (anne, baba) özelliklerini taşır. Yeni bireyler üretilirken düşük uygunluk değerine sahip bireyler daha az seçildiğinden bu bireyler bir süre sonra popülasyon dışında kalır. Yeni popülasyon, bir önceki popülasyonda yer alan 32 uygunluğu yüksek bireylerin bir araya gelip çoğalmalarıyla oluşur. Aynı zamanda bu popülasyon önceki popülasyonun uygunluğu yüksek bireylerinin sahip olduğu özelliklerin büyük bir kısmını içerir. Böylelikle, pek çok nesil aracılığıyla iyi özellikler popülasyon içerisinde yayılır ve genetik işlemler aracılığıyla da diğer iyi özelliklerle birleşirler. Uygunluk değeri yüksek olan ne kadar çok birey bir araya gelip, yeni bireyler oluşturursa arama uzayı içerisinde o kadar iyi bir çalışma alanı elde edilir [19]. 2.3.10. Apriori algoritması Bir veri kümesi içinde sık tekrarlanan öğeleri bulmak için kullanılan en temel yöntemdir. Apriori algoritması, sık geçen öğe kümelerini bulmak için veri tabanını birçok kez tarar. Şekil 2.22. Apriori algoritması İlk taramada bir elemanlı minimum destek eşik değerini sağlayan sık geçen veriler bulunur. Bulunan tek elemanlı öğeler, sonraki taramalarda aday veriler adı verilen yeni potansiyel sık geçen verileri üretmek için kullanılır. Aday verilerin destek değerleri tarama sırasında hesaplanır ve aday kümelerinden minimum destek eşik değerini sağlayan veriler o geçişte üretilen sık geçen veriler olur. Sık geçen veriler bir sonraki geçiş için aday veriler olurlar. Bu süreç yeni bir sık geçen veri bulunmayana kadar tekrarlanır [9]. 33 2.3.11. Beklenti maksimizasyonu (Expectation maximization EM) algoritması EM (Expectation Maximization) Algoritması bir objenin hangi kümeye ait olduğunu belirlemede kesin mesafe ölçütlerini kullanmak yerine tahminsel ölçütleri kullanmayı tercih eder. Karma olabilirlik yaklaşımı ile yapılan kümelemede karma dağılım modelindeki parametreleri tahmin etmek için genellikle EM algoritması kullanılır. EM algoritması verinin tamamlanmamış veri olması durumunda en çok olabilirlik kestirimi için genel bir istatistiksel yöntemdir [20]. Bu nedenle EM algoritması son yıllarda birçok araştırmada kullanılan popüler bir yaklaşım olmuştur. Maksimum benzerlik prensibine dayanan bu algoritma ilk olarak Dempster, Laird ve Rubin tarafından 1977 yılında ortaya konulmuştur. Beklenti Maksimizasyonu (BM) algoritması, tam olmayan veri problemlerini çözmek için maksimum olasılık tahminlerini yapan tekrarlı bir algoritmadır [21]. EM Algoritmasının her tekrarı iki adımda gerçekleşir. Bu adımlar, bekleneni bulma (E-Adımı) ve maksimizasyon (M Adımı) olarak adlandırılır. E-adımında gözlenen verilerin parametrelerine ait kestirimler kullanılarak, bilinmeyen (kayıp) veri ile ilgili en iyi olasılıklar tahmin edilir. M-Adımında ise tahmin edilen kayıp veri yerine konulup bütün veri üzerinden maksimum olabilirlik hesaplanarak parametrelerin yeni kestirimleri elde edilir [4]. Bu adımlar belirli bir epsilon kriteri sağlanana ya da maksimum iterasyon sayısına ulaşılana kadar ardışık olarak gerçekleştirilir. Şekil 2.23. Gauss dağılımında iki küme örneği EM algoritması, küme ortalamasına dayalı olarak en benzer bulduğu bir nesneyi bu kümeye atamasından dolayı, k-means algoritmasının bir uzantısı olarak görülebilir. Ancak 34 EM algoritması her bir nesnenin her bir kümeye olan üyeliğini bir olasılık değerine göre belirler. Diğer bir değişle kümeler arası kesin bir sınır yoktur. Bu nedenle, ağırlık ölçümüne dayalı hesaplamalar yapılır. EM algoritması karışım modeli parametrelerinin başlangıç değerlerine tahmini değerler vererek başlar (topluca parametre vektörü olarak da anılır). Şekil 2.24. EM algoritması akış şeması Nesneler, parametre vektörü tarafından üretilen karışım yoğunluğuna karşı yeniden skorlanır. Yeni skorlanan nesneler daha sonra parametre tahminlerini güncellemek için kullanılır. Her nesneye, nitelik değerleri belli olan bir kümeye üye olarak verilecek bir olasılık atanır [4]. 35 2.4. Tıbbi Verilerde Veri Madenciliği Çalışmaları Ülkemizde de tıp alanında yapılan birçok veri madenciliği çalışması vardır. Bu bölümde ülkemizdeki tıbbi veriler kullanılarak yapılan veri madenciliği çalışmaları incelenmiş ve aşağıda özetleri sunulmuştur. Tartar (2013) doktora çalışmasında, İstanbul Üniversitesi Cerrahpaşa Tıp Fakültesi Radyoloji Anabilim Dalı’ndan 2010-2013 yılları arasında akciğer kanser hastası olan 103 adet hastaya ait akciğer BT görüntülerinden toplam 159 adet pulmoner nodül ve 141 adet nodül olmayan örüntü elde etmiş ve bu verileri kullanarak literatüre alternatif olabilecek BT (Bilgisayar Tomografi) görüntülerinden pulmoner nodüllerin tespitine yönelik yeni iki farklı BDT (Bilgisayar Destekli Teşhis) sistemi önermiştir. Bunlar, BT görüntülerinden pulmoner nodül örüntülerinin tespitine yönelik bir sistem ve BT görüntülerinden pulmoner nodül örüntülerinin teşhis açısından malign ve benign olduğuna karar veren yeni bir bilgisayar destekli teşhis sistemidir. Bu çalışmada BT görüntülerinden pulmoner nodüllerin teşhisi için hibrid öznitelikler kullanılarak yeni bir sınıflandırma yaklaşımı sunulmaktadır. Pulmoner nodüllerin tespitinde dört farklı öznitelik çıkarma yöntemi kullanılmıştır. Nodül örüntülerinin malign ve benign ayrımı, hastaların risk faktörleri ve morfolojik görüntü işleme yaklaşımları kullanılarak gerçekleştirilmiştir. Destek vektör makineleri çekirdek fonksiyonları kullanılarak her bir yöntemin sınıflandırma performans ölçümleri elde edilmiştir. Nodül tespitine yönelik yapılan hibrit yöntem çalışmasında 0,904 doğruluk değeri ve malign ve benign tespitine yönelik yapılan çalışmada 0,862 doğruluk başarımları elde ederek malign ve benign ayrımının yapılmasında literatüre önemli bir katkı sağlamıştır [22]. Pala (2013) yüksek lisans çalışmasında, National Institute of Diabetesand Digestiveand Kidney Diseases tarafından 1990 da oluşturulan diyabet veri seti kullanmıştır. 625 diyabet hastasına ait 9 nitelikten oluşan diyabet veri setine de WEKA ve RapidMiner programları ile sınıflandırma ve K Means algoritması ile kümeleme işlemleri uygulanmıştır. RapidMiner programında karar ağaçları algoritması dışında yakın ancak daha iyi sonuçlar elde edilmiştir Karar ağacında Weka programı ile daha iyi sonuçlar elde etmiştir. 36 Kayseri Erciyes Üniversitesi Tıp Fakültesi Onkoloji Bölümünden alınan Metastatik Kolorektal Kanser verileri kullanılmıştır. 200 Metastatik Kolorektal Kanser hastasının 20 nitelikten oluşan verileri üzerinde işlemler gerçekleştirilmiştir. RapidMiner programı ile veriler üzerinde ön-işleme, sınıflandırma ve kümeleme işlemleri uygulanmıştır. Veriler en iyi sonuç veren 6 sınıflandırma algoritmasına göre sınıflandırma işlemine tabi tutulmuştur. Yalnızca sınıflandırma algoritmalarının uygulandığı sınıflandırma tahmin modelinde en başarılı algoritma Destek Vektör Makinesi iken Hibrid tahmin modelinde karar ağaçları ve yapay sinir ağları %100 doğruluk yüzdesi ile en başarılı algoritmalar olmuştur. Çalışmada, K means ile yanlış tespit edilen veriler her iki uygulamada da silindikten sonra yukarıdaki sonuçlar elde edilmiştir [23]. Şaylan (2012), yüksek lisans çalışması için İstanbul Üniversitesi Cerrahpaşa Tıp Fakültesi’nde ayakta tedavi gören hastalar arasından, Mart 2006 – Aralık 2007 tarihleri arasında 21 aylık bir sürede tedavisi görmüş hastalara ait veriler bir araya getirilerek bir veri kümesi oluşturmuştur. Bu veri kümesi üzerinde WEKA yazılımı kullanılarak sınıflama, kümeleme ve karar ağacı algoritmaları çalıştırılmış, elde edilen karar kuralları uzman desteğiyle incelenerek koroner arterlerde kalsifikasyon bulunmasında etkili olan faktörlerin neler olduğu belirlenmiş ve öznitelik seçme algoritmalarıyla aynı faktörlere ulaşılıp ulaşılamadığı belirlenmiştir. Sınıf bilgisine erişmede mevcut 26 öznitelikten hangilerinin daha fazla katkı verdiğini bulmaya yardımcı olan korelasyona dayalı öznitelik seçme algoritması (CFS), bilgi kazanç (Info Gain) ve kazanç oranı (Gain Ratio) algoritmalarını kullanılmıştır. Harmoni arama algoritması kullanılarak yazılan eniyileme yöntemiyle problem çözümleme aşamasında Naive Bayes sınıflayıcısı kullanılmıştır ve çapraz geçerlilik ölçütü (cross validation) amaç fonksiyonu olarak ele alınmıştır. Harmoni algoritmasından elde edilen sonuçlar öznitelik belirleme algoritmalarının sonuçları ile karşılaştırılmış ve benzer sonuçlara ulaştığını ifade etmiştir [24]. Çataloluk (2012), yüksek lisans tez çalışmasında veri madenciliği algoritmalarından KNN ve k-means algoritmalarının medikal alanda nasıl kullanılabileceği konusunda örnek bir çalışma yapmıştır. Bu çalışmada kullanılan dermatoloji veri seti California Irvine Üniversitesi’nin makine öğrenmesi havuzundan elde edilmiştir (UCI Repository of 37 Machine Learning Databases, 1998). Bu veri seti Prof. Dr. Nilsel İlter tarafından gerçek hastalardan alınan bilgilerle oluşturulmuştur. Çataloluk (2012), özellikle tıp alanında bu tip uygulamaların, hastalara doğru teşhis koymak için maliyetin yüksek, laboratuvar şartlarının kısıtlı, hasta açısından risk taşıyan yöntemlerin söz konusu olduğu durumlarda ya da tecrübe bakımından yeterli düzeyde olmayan hekimlerin doğru teşhis koymalarına fayda sağlamada önemli bir yardımcı karar destek aracı olarak kullanılabileceğini ifade etmektedir [25]. Akyol (2012), yüksek lisans çalışmasında, Yıldırım Beyazıt Üniversitesi Atatürk Eğitim ve Araştırma Hastanesinden temin edilen biyokimya ve hemogram laboratuvar test değerlerini, hasta tanı ve özgeçmiş bilgilerinin, lojistik regresyon modeli yaklaşımıyla Koroner Arter Hastalığına etkisi araştırmıştır. Lojistik regresyon analizinin seçilmesinin amacı, en az değişkeni kullanarak en iyi uyuma sahip olacak şekilde bağımlı ve bağımsız değişkenler arasındaki ilişkiyi tanımlayabilen ve biyolojik olarak kabul edilebilir bir model kurmak olarak ifade etmiştir. Yapılan analiz sonucunda koroner arter hastalığının risk faktörleri tespit edilmiştir. Ayrıca, gerçekleştirilen tüm analizlerde elde edilen sonuçlardan Yüksek Yoğunluklu Lipoprotein (HDL) test değişkeninin koroner arter hastalığı için çok etkili olduğu ve yaş ve cinsiyet değerlerinin de koroner arter hastalığı olma durumunu etkilediği gözlemlenmiştir [26]. Turgut (2012), yüksek lisans çalışmasında Süleyman Demirel Üniversitesi Tıp Fakültesi Nöroloji Ana Bilim Dalı’na başvuran ve demans ayırıcı tanısı için ayrıntılı klinik muayenesi ve nöropsikolojik değerlendirmesi yapılmış 123 hastaya ait verilerden kullanılabilir durumdaki 101 kişiye ait verileri kullanmıştır. WEKA yazılımı ile veri madenciliği yöntemlerinden sınıflama algoritmaları tek tek denenmiş ve elde edilen sonuçlar karşılaştırmıştır. Veri madenciliği yöntemlerinden 67 farklı algoritma denenebilmiş ve bu algoritmalar kullanılarak bulunan ilişkilerin 13 tanesi %80’in altında, 45 tanesi %80’le %90 arasında, 9’u %95 ve üzerinde doğruluk değerine ulaşmaktadır. Ancak bu algoritmalardan 38 Logitboost %100 doğrulukta çalışmıştır ve hazırlanan uygulama içinde bu algoritma tercih edilmiştir [27]. Eşiyok (2011), yüksek lisans çalışmasında, The Mammographic Image Analysis Society Digital Mammogram Database’den alınan mamografi verilerini analiz etmiştir. Kümeleme algoritması için DBSCAN ve hiçbir kümede yer almayan gürültülü verileri sınıflandırmak için ise K-NN sınıflandırma algoritması kullanılmıştır. Sonuç olarak, mamografi verilerini kümelere ayıran parametre (Eps, Minpts) değerleri incelenerek en uygun sonucu veren parametre değeri Eps=40 ve MinPts=8 olarak belirlenmiştir. Gürültülü veriler için ise k-en yakın komşu parametre değerleri incelenerek, k=5 parametre değeri için K-NN algoritmasının en iyi sonuç ürettiği tespit edilmiştir [28]. Akman (2010)’ın yüksek lisans çalışmasında, Gazi Üniversitesi Diş Hekimliği Fakültesi Periodontoloji bölümünden elde edilen veriler Random Forests metodu kullanılarak 3 ayrı hastalık sınıfına ayrılmıştır. Random Forests (RF) metodu, bir topluluk yöntem olmasına rağmen, topluluk yöntemlerden farklı olarak modele ayrı bir katman olan rastgelelik de katmıştır. Bu rastgelelik sayesinde sınıflandırıcının daha az sapmasız olması sağlanmıştır. Akman (2010)’a göre, RF yöntemi, veri setindeki değişken sayısı ve örnek sayısı ne kadar çok olursa olsun sonuçları, makul sayılan bir sürede verebilmektedir. Kullanılan veri setinde RF yöntemiyle % 95,4 oranında başarılı bir sınıflama yapılmıştır. Oluşturulan karar ormanının genel hata oranı ise % 3,33 olarak bulunmuştur [29]. Karlı (2010) yüksek lisans tezinde, FP- Growth algoritması gibi düşünen fakat FP-ağacı oluşturulurken özyineleme yerine öğe tabanlı aday küme üretimi kullanan yeni bir yöntem önermiştir. Bu yöntem daha sonra nicel değerli veri tabanlarında sıralı örüntülerin bulunması için uyarlanmıştır. Çalışmada kullanılan veriler, Dicle Üniversitesi Tıp Fakültesi Merkez laboratuvarındaki toplam 6580 farklı hastaya yapılmış olan 156099 adet tahlil sonuçlarından oluşmaktadır. Bahadır (2010), bu verileri kullanarak, önerdiği yeni yöntemin uygulanabilirliğini göstermiş ve klasik FP-Growth algoritmasından daha hızlı sonuçlar elde etmiştir. Önerilen 39 yeni yöntemin FP-Growth ile aynı sayıda yaygın öğe kümesi bulurken, FP-Growth a göre daha az bellek ve zaman harcadığını belirtmektedir [30]. Altıntaş (2010)’ın yüksek lisans çalışmasında, Özel Can Diyaliz Merkezi’nde 12 ay ve uzun süre Hemodiyaliz tedavisi gören/görmüş 170 hemodiyaliz hastasına ait demografik ve klinik veriler ile aylık test verilerinden oluşan bir veri kümesi kayıtları kullanılmıştır. Uzman hekimlerce her hasta için belirlenen risk skoru dikkate alınarak uygulanan veri madenciliği teknikleri yardımıyla risk faktörlerinin etkileşimleri (risk deseni) incelenmiştir. ESTARD Data Miner programı ile öznitelik seçimi yapılmıştır ve program 24 adet öznitelik seçmiştir. Daha sonra bu özellikler kullanılarak veriler, Weka programı üzerinde K-means kümeleme algoritması kullanılarak veriler kümelere ayrılmıştır. Weka programının J4.8 ve PART algoritmalarının oluşturduğu karar kuralları ile özniteliklerin hangi aralıklar için hangi risk sınıfta olduğunu belirlenmektedir. Altıntaş (2010) elde ettiği karar kurallarını incelediğinde, temel özellik olarak seçilen ve risk skorunu en çok etkileyen 10 özellik arasından hasta yaş, cinsiyet, C Reaktif Protein, Potasyum ve Glisemi değerlerinin 5’inin karar kuralları içinde yer aldığı görülmüştür [31]. Çakırlı (2010) “Sağlık Sektöründe Apriori Algoritması İle Bir Veri Madenciliği Uygulaması” adlı çalışmasında 24 sorudan oluşan ve Sakarya Üniversitesi’nde rastgele olarak seçilmiş toplamda 170 akademik ve idari çalışana uygulanan olası migren teşhisine yönelik anket sonuçlarında apriori algoritmasını kullanarak birliktelik kuralları çıkarmaya çalışmıştır. Uygulanan ankette elde edilen verilerin tekli, ikili ve üçlü birliktelik durumlarını incelemiştir. Destek eşik değeri örneklem grubu için 102 yani % 60 olarak seçilmiştir. Dolayısıyla 102 üzerinde destek değerine ulaşan gruplandırmaların birliktelik kuralları incelendiğinde migren ve migrene bağlı gelişen baş ağrısı rahatsızlığına ilişkin 9 adet birliktelik kuralına ulaşılmıştır. Gerçekleştirilen anket uygulaması hastalık teşhisine yönelik değil, birliktelik kurallarının bulunması amacıyla yapılmış bir çalışmadır. Çakırlı (2010) mühendislik ve bilgi işlem mantığı kullanılarak geliştirilen yazılım ve ulaşılan sonuçların, uzman bir hekim kontrolünde geliştirilirse hastalık teşhisine yönelik kullanılma ihtimalinin yüksek olacağını ifade etmektedir [32]. 40 Kaya (2010), Fırat Üniversitesi Tıp Fakültesi Adli Tıp Anabilim Dalından elde ettiği şizofreni hastalarının sosyodemografik ve biyokimyasal verilerini inceleyerek suç işleme durumu ile ilgili öncelikle sınıflandırma kuralları elde etmiştir. Bu kurallar elde edilirken tasarlanan sınıflandırıcı sistem çok amaçlı genetik algoritma yöntemini kullanmaktadır. Şizofreni hastalarının sosyodemografik ve biyokimya verilerine uygulanan yöntem, suç işleme durumları dikkate alındığında sosyodemografik verilere daha bağımlı olduğu gözlenmiştir [33]. İ. Aksoy (2010)’un yüksek lisans çalışmasında, Eskişehir Osmangazi Üniversitesi, Tıp Fakültesi, Klinik Mikrobiyoloji ve Enfeksiyon Hastalıkları Bölümünden alınan verileri kullanılarak, yeni doğan yoğun bakım ünitesindeki hastane enfeksiyonlarının tespit edilmeyesi için veri madenciliği yöntemlerinin uygulaması yapmıştır. SAS Enterprise Miner programında, karar ağaçları, yapay sinir ağları ve lojistik regresyon sınıflandırma yöntemlerini kullanmıştır. Hastane enfeksiyonları tespitinde, verilerin %70’ni eğitim, %30’unu test için kullanarak, yapay sinir ağları, test setinde %83 doğruluk başarısı elde edilmiştir. Aksoy (2010), elde ettiği sonuçlara göre, antibiyotik ve üriner kateter kullanımı, periferik kateter kullanım süresi, enteral ve total parenteral beslenme süreleri ve doğum ağırlığının gestasyonel yaşa oranının önemli risk faktörleri arasında bulunduğunu ifade etmiştir [34]. İşler (2009)’in doktora çalışmasında, KKY (Konjestif Kalp Yetmezliği) hastalarının normal kişilerden ayırt edilmesinde MIT/BIH tarafından sağlanan veriler ve sistolik KKY hastalarının diastolik KKY hastalarından ayırt edilmesinde ise Dokuz Eylül Üniversitesi Tıp Fakültesi tarafından sağlanan EKG (Elektrokardiyogram) kayıtları kullanılmıştır. Dalgacık entropisi sınıflandırıcı performansını iyileştirmek için yeni bir KHD değerini öznitelik olarak eklemiştir. Ayrıca, farklı adımlardaki Poincare çizimi ölçümleri de çalışmaya dâhil edilmiş fakat yüksek adımlı Poincare çizimi ölçümlerinin teşhiste faydası görülmediğini ifade edilmiştir. En uygun öznitelik kombinasyonunu seçmek için Genetik Algoritma, sınıflandırma için ise KNN algoritması kullanılmıştır. Sonuç olarak, bu çalışmada KKY hastalarının normal kişilerden ayrılmasında sadece KNN algoritması ile (k=1, k=3, k=5) değerleri için en yüksek %93,98 doğruluk ile sınıflandırma 41 yapılmıştır. Ayrıca sistolik KKY hastalarının diastolik KKY hastalarından ayrılmasında ise Genetik Algoritma ve KNN algoritması birlikte kullanılarak k=1 değeri için %100 başarım sonucuna ulaşılmıştır. İşler (2009), bu değerlerin literatürdeki en yüksek değerler olduğunu ifade etmektedir [35]. B. Aksoy (2009), “Dekompresyon Analizinin Kümeleme Analizi” üzerine bir veri madenciliği uygulaması gerçekleştirmiştir ve çalışmasında, Divers Alert Network (Dalgıçların Acil Durum Ağı)'nın dalış yaralanmaları bildirim formlarından elde edilen1929 adet veriyi kullanmıştır. Bu verileri farklı kümeleme algoritmaları (k-ortalama, COBWEB, EM ) ile kullanılarak dekompresyon hastalığının sınıflandırmasını yapmıştır. COBWEB algoritması için acuity=1 ve cutoff =0,2740947917738781 değerleri ile 58 küme elde etmiş. Kümeler içinde bulunan kayıt sayıları inceleyerek, 2. kümede 721 ve 3. kümede 944 kayıt bulunan bu kümeleri aynen almış ve eleman sayısı az olan diğer kümleri birleştirerek 264 kayıttan yeni bir küme oluşturarak küme sayısını 3’e düşürmüştür. EM algoritması için standart sapma=1,0 ve iterasyon sayısı=100 değeri ile 10 sınıf elde etmiş ve eleman sayısı en yüksek olan 4 kümeyi seçerek burada da küme sayısını 4’e düşürmüştür. Sonuç olarak, kümeleme yöntemleriyle elde edilen sınıfların yeni yapılan istatistiksel sınıflandırmalarla ve klasik sınıflandırmalarla uyumlu olduğu gözlemlemiştir. Ayrıca teşhiste yardımcı olabilecek birliktelik kuralları (association rules)’da elde etmiştir [36]. Farboudi (2009) yüksek lisans tez çalışmasında, Yıldırım Beyazıt Eğitim ve Araştırma Hastanesi Üroloji Bölümünden aldığı veriler ile SPSS Clementine programını kullanarak hastalık teşhisine yönelik karar ağacı uygulaması gerçekleştirmiş, ancak istediği şekilde ve yeterli sayıda veri elde edemediğinden dolayı uygulamanın başarı yüzdesi % 65 gibi düşük bir değerde kalmıştır [37]. Oğuz (2009)’un yüksek lisans tez çalışmasında, Akdeniz Üniversitesi Hastanesi KBB (Kulak Burun Boğaz) Hastalıkları Anabilim Dalından alınan ve ameliyat geçiren hastalara ait 600 adet hasta bilgi formu kullanılmıştır. Ayrıca bu bilgi formlarını yapılandırılmış formata dönüştüren, hasta bilgilerine erişimi kolaylaştıran ve metinlerdeki 42 varlıklar/kavramlar arasındaki ilişki örüntülerini ortaya çıkaran bir metin analiz aracı geliştirilmiştir. Veri madenciliği yöntemlerinden Birliktelik kuralı kullanılmış ve aralarındaki yüksek sıklıkta görülen ilişki örüntüleri tespit edilmiş ve minimum destek değerini sağlayan 26 adet kural çıkartılmıştır. Elde edilen kurallar kullanılarak hastaların semptomlarına göre kanserli olup olmadıklarını tahmin eden küçük ölçekli bir sistem geliştirilmiştir. Çalışmanın diğer bir faydası formatsız şekilde word dosyalarında tutulan hasta bilgileri veri tabanına atılarak sorgulama ile hasta bilgilerine erişim kolaylaştırılmıştır [38]. Demirel (2008) yüksek lisans çalışmasında, Ankara Onkoloji Hastanesi’nden aldığı 462 meme kanseri hastasının patoloji sonuçlarını ve demografik bilgiler içeren verilerini kullanarak, doktorlara kanserin tedavi yöntemi belirlerken yardımcı olacak bir uygulama geliştirmiştir. Bu çalışmada tedavi yöntemleri için Weka sınıflandırma algoritmalarıyla tüm veriyi, hormonoterapi (ht), tamoxifen (tamox), radyoterapi (rt) ve kemoterapi (kt) tedavileri için ayrı ayrı işlemiş, doğru tahmin etme performansı yüksek olan algoritmaları uygulamada kullanmıştır. Hormonoterapi (ht) alanı için IB1 algoritması %94.62, tamoxifen (tamox) alanı için Multilayer Perceptron algoritması %92.0 ve yine radyoterapi (rt) alanı için Multilayer Perceptron algoritması %95.24 kemoterapi (kt) alanı için ise Decision Table algoritmasının %97.78 ile en yüksek doğrulukta tahminde bulunduğunu tespit etmiş ve bu algoritmaları kullanarak meme kanseri tedavi destek uygulaması hazırlamıştır [39]. Kahramanlı (2008) doktora çalışmasında özellikle tıp alanında sınıflandırma başarısını yükselten bir sistem geliştirmeyi amaçlanmıştır. Bunun için tıp verileri incelenmiş ve veri tiplerinden yola çıkarak sınıflandırma yapmak için yeni bir sinir ağı türü önermiş ve onun eğitim algoritması oluşturmuştur. Daha sonra kurallar tabanı oluşturulması için bu sinir ağının ürettiği fonksiyonu optimize eden yeni bir algoritma geliştirilmiştir. Optimizasyon için bir yapay bağışıklık algoritması olan Opt-aiNET kullanılmıştır. Sonuçların doğruluğunu test etmek k-kat çapraz doğrulama yöntemi seçilmiştir. Yaptığı incelemede Deneysel çalışmaların, k-kat çapraz doğrulama yönteminde k için optimum değerin 10 değerini gösterdiğini ifade etmektedir. 43 Çalışmada kullanılan veriler; UCI Machine Learning Repository’den alınan Cleveland Kalp Hastalıkları ve Hepatit Hastalığı veri kümeleridir. Cleveland Kalp Hastalıkları veri kümesinde yapılan sınıflandırma sonuçlarının doğruluk oranının %46,2 ile %90 arasında değiştiğini, önerilen yöntemle bu değerin %92.08’e çıkarıldığını ifade etmektedir. Hepatit veri kümesinde yapılan sınıflandırma çalışmalarının başarı oranlarının %77,4 ile %92,9 arasında değiştiğini, önerilen yöntemle bu değerin %94.19’a çıkarıldığını ifade etmektedir. Cleveland Kalp Hastalıkları veri kümesinde kural çıkarma ile ilgili yapılan iki çalışma sonucu başarı oranı %82,2 ve %82,5 iken önerilen yöntem ile %96,4 başarı oranı elde edilmiştir. Hepatit veri kümesinde kural çıkarma ile ilgili yapılan üç çalışma sonucu başarı oranları %82,7, %90 ve %96,1 iken önerilen yöntemle bu değerin %96,8’e çıkarıldığını ifade etmektedir [40]. Doğan (2007) Veri madenciliği Kullanarak Biyokimya Verilerinden Hastalık Teşhisi adlı çalışmasında biyokimya verilerini veri madenciliği yöntemlerini kullanarak 4 farklı hastalık için Delphi ile hastalık teşhisi uygulaması geliştirmiş. Kardiyak Enzim Parametrelerinden Kalp Krizi Teşhisi, Lipid Parametrelerinden Hiperlipidemi Teşhisi, Hematolojik Parametrelerden Demir Eksikliği Anemisi Teşhisi ve Tiroid Hormon Parametrelerinden Hipotiroidi-Hipertioidi Teşhisi için geliştirilen uygulamalarda, hastalıklar için uzman doktorların belirlediği kurallara göre karar ağaçları oluşturmuş ve elde ettiği hasta verileri ile geliştirdiği uygulamayı test etmiştir. Karar ağacını oluştururken elindeki verilerden karar ağacı oluşturmamış uzman doktorların bilgilerine göre karar ağacı oluşturulmuştur [41]. Dinçer (2006) yüksek lisans çalışmasında, Kocaeli Üniversitesi Tıp Fakültesi Hastanesi, Kulak, Burun ve Boğaz Bölümünden aldığı gırtlak kanseri ameliyat verileri üzerinde, kmeans algoritması kullanarak veri madenciliği çalışması yapmıştır. Veri madenciliği çalışmalarında genellikle veriler SPSS ve MATLAB gibi paket programlar aracılığı ile analiz edildiğine dikkati çeken Dinçer (2006), bu çalışmasında, paket programlardaki kısıtları içermeyen ve kullanıcı açısından öğrenme süresi çok kısa ve kolay olan bir yazılım geliştirmiştir. Geliştirdiği uygulamada k küme sayısını 2 ile 9 arasında bir değer girilecek şekilde sınırlanmıştır. Üst değeri belirlerken, yaptığı sınama sonuçlarına göre, 9 kümeden daha 44 fazlasının verimli olmadığını tespit etmiştir. Geliştirilen yazılım, tıp doktorlarının geçmiş kayıtları analiz ederek, ileriye dönük tahminde bulunabilmelerini kolaylaştıran ve karar almalarına yardımcı olabilecek bir araçtır. Uygulamadan elde edilen sonuçlardan yola çıkılarak uygulamanın tıp fakültesi bünyesinde geliştirilerek kullanılması planlanmıştır [14]. Danacı ve arkadaşları (2010), Irvine California Üniversitesi veri madenciliği havuzundan aldıkları 569 hastaya ait meme altı doku örneklerini, tanı ve teşhis amacı ile kullanmışlardır. Xcyt örüntü tanıma programı ile doku hakkında genel veriler elde edilmiş, Weka programı kullanılarak meme kanseri hücrelerinin tahmin ve teşhisi yapılmıştır. Verilerin 450’si eğitim verisi, 117’si test verisi olarak kullanılarak, C4.5 karar ağacı algoritması ile karar ağacı oluşturulmuştur. C4.5 karar ağacının hastalık tanı ve teşhisinde %97,4359 doğruluk başarısı elde edilmiştir [42]. Güllekesen, Köksal, Özdem ve Saka (2008), prostat kanseri tespiti için karar ağacı çalışması geliştirmişlerdir. 750 hasta verisi QUEST (Qıick, Unbiased and Efficient Statistical Tree) algoritması ile kullanılarak karar ağacı oluşturulmuştur. Geliştirilen karar ağacı % 99 başarımıyla hastalık hakkında bilgi vermektedir. Ancak farklı etnik gruplarda karar ağacının aynı başarımı vermeyebileceği de ifade edilmiştir [43]. Selver ve diğerleri (2007) çalışmalarında, çok katmanlı yapay sinir ağları kullanarak otomatik ve uyarlamalı bir karaciğer bölütleme yöntemi geliştirmişlerdir. Yöntem, önişleme, sınıflama ve son işleme olmak üzere üç adımdan oluşmaktadır. 20 görüntü serisine uygulanan yöntemin başarımı alan hata oranı ile değerlendirilmiş ve başarımın klinik kullanım için uygun olduğu görülmüştür. Fakat karaciğer ve kalbin yakın olduğu durumlarda daha ayrıntılı çalışmalar yapılması gerektiği belirtilmiştir [44]. 45 3. ARAŞTIRMANIN TIP ALANI İLE İLGİLİ GENEL BİLGİLER 3.1. Temel Kavramlar ve Tanımlar Allel: Bir kromozomun belli bir lokusundaki genin mevcut birkaç alternatif formundan biridir. Bir lokusta heterozigot olan bir birey her biri ayrı kromozomda olmak üzere biri anneden, diğeri de babadan gelen iki faklı allele sahiptir [45]. Allel frekansı: Bir allelin belirli bir toplumda görülme sıklığıdır [46]. Antijen: Bir antikora ve T hücre reseptörüne bağlanan moleküldür [45]. Antikor: B lenfositleri tarafından sentezlenen, sıklıkla antijene yüksek özgüllük ve afinite ile bağlayan, immünoglobülin olarak da adlandırılan bir glikoprotein molekülüdür. Antikorlar, antijen nötralizasyonu, kompleman aktivasyonu, fagositoz ve mikropların yıkımı gibi pek çok efektör fonksiyonda rol almaktadır [45]. DNA(DeoksiriboNukleik Asit): Genellikle çift sarmal yapıda çok uzun bir molekül olup; deoksişeker (riboz), fosfat grupları ve dört nitrojen bazından (A, T, C, G) oluşan ve organizmadaki genetik bilgiyi taşıyan yapısal elemandır. RNA virüsleri hariç bilinen bütün canlı organizmalarda genetik yapıyı idare eden nükleik asitlerdir [46]. Dominant gen: Baskın gen, gen ve alleller arasındaki ilişki sonucunda ortaya çıkan genetik durumdur. Aynı lokusta bulunan allellerden biri diğerinin etkisini maskeleyerek fenotipte etkili olmasını engeller [47]. Fenotip: Bir organizmanın genetik yapısına bağlı olarak, dış etkenlerin de etkisiyle ortaya çıkan görünüşüdür [47]. Gen: Spesifik bir fonksiyonla ilgili kodu taşıdığı tanımlanmış olan DNA segmentidir [46]. Genotip: Bir canlının sahip olduğu baskın ve çekinik genlerin toplamına genotip denir [47]. 46 Haplotip: Bir kromozom üzerinde bulunan, birbirine yakın lokuslardaki allel kompleksleridir. Anne ya da babadan kalıtılırlar [48]. Heterozigot: Homolog kromozomlar üzerinde, birbirine karşılık gelen allellerin farklı olması durumudur [47]. Homozigot: Homolog kromozomlar üzerinde, birbirine karşılık gelen allellerin ikisinin de aynı olması durumudur [47]. Kromozom: Ökaryotik hücre çekirdeğinde, prokaryotik hücre sitoplâzmasında bulunan yoğun yapılar olup; içlerinde, organizmanın genlerini taşırlar [46]. Lokus: Bir genin veya DNA dizininin kromozom üzerinde bulunduğu yere verilen addır [47]. Polimorfizm: Bir popülasyonda aynı gen için çok sayıda allelin bulunması durumudur [46]. Popülasyon: Belli bir zaman diliminde belli bir coğrafi bölgede yaşamış olan bireylerden oluşan topluluktur [46]. Resesif gen: Çekinik gen, sadece homozigot halde iken (AA veya BB) etkisini gösterebilen genlerdir. Allelin aynı lokusta bulunması (homozigot) durumda etkisini gösterebilen gendir. Baskın allelin varlığında etkisini gösteremez [47]. 3.2. Organ Transplantasyonu (Nakil) ve Atılım (Ret) Son dönemdeki pek çok organ yetmezliğinin tek tedavi şekli, organ naklidir. Vücutta görevini yapamayacak kadar hasta ve hatta bedene zararlı hale gelen bir organın yerine canlı bir vericiden veya kadavradan alınan sağlam ve aynı görevi üstlenecek bir organın nakledilmesi işlemine "Organ Nakli" veya "Organ Transplantasyonu" Transplantasyon işlem zincirinin en önemli halkalarından biri, denir. transplantasyon immünolojisidir. Bu aşama, organ alıcısı ile vericisi arasında doku uyumunun olup olmadığının ortaya konduğu en kritik aşamadır [49]. 47 Transplantasyon işleminde karşılaşılan ilk engel alıcı ve verici arasındaki yapısal (antijenik özelliklerindeki) farklılıktır. Alıcı için yabancı olan vericinin yapısal antijenleri, alıcının bağışıklık sistemini uyararak immün cevabı başlatır ve antijenlere karşı antikor üretilir. Bunun sonucunda nakledilen organda veya nakil yapılan hastada istenmeyen hasarlar ortaya çıkar. Bu tip reaksiyonların gelişmemesi ve azaltılması için transplantasyon öncesi alıcı ve vericinin genetik benzerliği iyi belirlenmeli, yorumlanmalı ve bu kriterler doğrultusunda en uygun vericinin seçimi yapılmalıdır. Transplantasyonun reddedilmesinin temel sebebi bağışıklık sistemidir. Nakil yapılan organ veya doku, bağışıklık sistemi tarafından ‘yabancı’ olarak görülüp, tanınır ve organının reddine yol açar [49]. Reddin ana belirleyicileri Büyük Doku uyumu Kompleks (Major Histocompability Complex MHC) molekülleridir. MHC, T lenfositleri tarafından tanınan peptit bağlayıcı molekülleri kodlayan yüksek polimorfik genleri içeren büyük bir lokustur. İnsan MHC’si insan lökosit antijen (Human Leukocyte Antigen HLA) kompleksi olarak adlandırılır [45]. Alıcının bağışıklık sistemi, vericinin HLA antijenlerinden yabancı olarak gördüklerine karşı saldırıya geçer. MHC moleküllerinin (insanda HLA) pek çok farklı allelleri bulunmaktadır. Organ reddinin gücünü azaltmanın bir yolu verici ve alıcı arasında karşılaştırma yapmak ve mümkün oldukça ortak allel taşımalarını sağlamaktır. Birbiriyle ilişkisiz alıcı ve vericiler arasında HLA uyumu, MHC lokuslarındaki yüksek derecedeki polimorfizm nedeniyle nadiren mükemmel olabilmektedir [49]. Transplantasyonda organın reddini önleyen iki önemli yöntem vardır: - Antijenik farklılıkları en aza indirmek için, verici ve alıcı arasında karşılaştırma (match). Verici ve alıcı uyumu ne kadar fazlaysa, ret o kadar az olacaktır. - Organa karşı oluşan immün yanıtı engellemek için, immün baskılayıcı ajanların (immün baskılayıcı ilaçlar) kullanılması gerekir [45]. Genel olarak alıcı ve verici arasında uyumsuz antijen (mismatch) sayısı arttıkça nakledilen organın yaşam süresi azalmaktadır ve hasta daha yoğun immünsüpresif tedaviye ve komplikasyonlarına maruz kalmaktadır. Bu nedenle donör ile alıcının HLA antijenlerinin belirlenmesi büyük önem taşımaktadır [50]. 48 3.3. HLA (Human Leukocyte Antigen) Doku uyumu çalışmaları, Büyük Doku Uyumu Antijenleri (MHC) ile ilgili uygulanan tüm testleri kapsamaktadır. HLA tiplendirimi, HLA antijenlerine karşı gelişmiş (anti-HLA) antikorların tespiti, “cross-match” çalışmaları, hücresel testler bu çalışmalar arasında sayılabilir [46]. HLA, İngilizce “ Human Leukocyte Antigen” kelimelerinin kısaltılmış halidir. Çok sayıda ve çeşitte HLA antijen çifti bulunur (en çok bilinenleri A, B, C, DR, DQ ve DP'dir). Annebabadan bu antijenlerin her birinden birer tane alınır (ve çocuklara her çiftten birer tanesi kalıtsal olarak aktarılır). HLA’nın temel klinik uygulamaları; transplantasyon/transfüzyon ve hastalık çalışmaları olarak özetlenebilir. Bu iki grubun yanı sıra antropolojik çalışmalarda ve babalık testi amacıyla da kullanılmaktadır [46]. HLA’ları kodlayan gen bölgesi, insanda 6. kromozom üzerinde bulunur. İnsan genomundaki en polimorfik gen bölgesidir. Moleküler testler doku tipi antijenlerini kodlayan bu genlerin belirlenmesini sağlar. Şekil 3.1. HLA kompleksinin insanın 6. kromozomunun kısa kolu üzerindeki yeri ve kompleks içindeki genlerin pozisyonları [50]. HLA, kodlanan proteinlerin özelliklerine göre Sınıf I, II, III olarak alt bölgelere ayrılır. Sınıf-I (HLA -A, -B, -C, -E, -F, -G), Sınıf-II (HLA-DR, -DP, -DQ, -DO,-DN) ve Sınıf-III 49 (C2, C4A, C4B, PF, TNF-α) lokusları yer almaktadır. Her lokusta 2 allel gen bulunur ve bunlar numaralarla gösterilir: HLA-A2, HLA-B35, HLA-DR8, HLA-Bw16 gibi [2]. HLA -A, -B, -C; klasik Sınıf-I antijenleridir, hemen her dokuda bulunurlar, fonksiyonları daha iyi bilinmektedir. HLA-E, -F,-G non-klasik Sınıf-I antijenleridir, daha az sayıda dokuda bulunurlar [50]. Sınıf I moleküller, tüm çekirdekli hücrelerin yüzeyinde bulunabilirken Sınıf II moleküller sadece B lenfositlerde, profesyonel olarak antijen sunan (APC) monosit, makrofaj, dentritik hücrelerin yüzeyinde bulunmaktadır [2]. Her insan, 6 tane sınıf I MHC alleli (her ebeveynden birer HLA-A, B ve C alleli) ve en az 6 tane de sınıf II MHC alleli (her ebeveynden birer HLA-DR, DQ ve DP alleli) ve bunların bazı kombinasyonlarını taşır. MHC genleri yüksek derecede polimorfiktir [49]. Bu nedenle, tek yumurta ikizleri hariç, her birey diğer bireyin bağışıklık sistemine yabancı olabilecek bazı MHC proteinlerini eksprese eder. MHC moleküllerinin tümü ret hedefi olabilir. Ancak, HLA-C ve HLA-DP sınırlı polimorfizme sahiptir ve muhtemelen daha az düzeyde önem taşır [45]. 3.3.1. Anti-HLA antikorları Anti-HLA antikorları kişinin, yabancı HLA antijenlerine immün yanıt olarak gelişebilmektedir. Sınıf I anti-HLA antikorları HLA-A,-B,-C’ye karşı, Sınıf II antikorları ise HLA-DR,-DP ve DQ’ya karşı gelişen antikorlardır. Anti-HLA antikorlarının oluşumu kişiye göre değişebilir. Anti-HLA antikorlarını oluşturan 3 neden mevcuttur [50]. Kan transfüzyonları: Kan transfüzyonları anti-HLA antikor oluşumunun en büyük risklerden biridir. Ortalama 5 ünite tam kan transfüzyonu sonrası antikor gelişme riski vardır. Bazen 1 ünite kan transfüzyonu sonrasında antikor gelişiminin pozitif olduğu durumlar da görülebilmektedir. Gebelik: Özellikle birden fazla gebeliği (düşük, kürtaj hikayesi) olan bayanlarda yaklaşık 1/8 oranında anti-HLA antikoru meydana gelebilmektedir. Her gebelikte HLA antikoru oluşmaz. Normalde plesenta babadan gelen HLA antijenlerinin anneye 50 geçmesine izin vermez. Ancak plasentaya bağlı anomalilerde, kanama olduğunda baba kaynaklı antijenler anne kanına karışır ve annede antikor meydana gelebilir. Organ transplantasyonu: Antikorlar, organ nakilleri sonrası görülen organ reddinde hemen artmaya başlar. Bu yüzden nakil sonrası dönemlerde organ reddi şüphesi olan hastalarda düzenli aralıklarla anti-HLA antikorlarına bakılması gerekmektedir. 3.3.2. Panel reaktif antikorlar (PRA) Panel reaktif antikorlar (PRA) olarak ifade edilen yaklaşım, hastada HLA antijenlerine özgü antikorların olup olmadığını saptamak için yapılır [51]. Kan transfüzyonu yapılan, daha önce organ nakli olmuş ve gebe kişiler HLA antikorları açısından kontrol edilmelidirler. Antikor varsa antikorun tipi ve hangi HLA antijenine karşı olduğu bilinmelidir. Organ nakline aday hastaların serumunda HLA antijenlerine karşı antikor varlığının tespiti için tarama ve tanımlama testleri yapılır. PRA, hasta serumunda antijene karşı ne kadar anti-HLA antikoru bulunduğunu % PRA olarak gösteren değerdir [50]. Şekil 3.2. PRA paneli [52] PRA bir hastanın doku veya organ nakli olamayacağı HLA antijenlerini belirler. Bu nedenle hasta seçiminde HLA doku tipleri uyumundan sonra ikinci sırada PRA gelir. PRA 51 oranı yüksek hasta cross-match negatif bir organ bulunduğunda, PRA düşük ve uyumlu bir hastadan daha öncelikli bir hal alır. Bunun nedeni PRA pozitifliği olan hastanın tekrar cross-match negatif bir organ bulma şansının düşük olmasıdır. PRA’nın bir diğer önemi de hastayı muhtemel bir organ naklinde sanal cross-match imkânı tanıyarak nakil için hazır tutmasıdır [2]. 3.3.3. Transplantasyon ve HLA uyumu Transplantasyonda immün toleransın sağlanabilmesi ve bu suretle, nakledilen organın alıcıda reddedilmeden kalabilmesi için alıcı ve vericinin MHC antijenlerinin birbirine uyması gerekir. Terminolojik olarak HLA tam uyumlu (full match) demek, 6 antijenin tamamının (2A, 2B, 2DR) aynı olması anlamına gelir [50]. Şekil 3.3. HLA uyum örnekleri [53] Şekil 3.3’deki HLA uyum örneklerinden X örneği, 6'da 6 uyum A, B, DRB1'de kusursuz uyum olduğunu anlamına gelir. 10'da 10 uyum ise hastanın antijenlerinin (A, B, DRB1, C ve DQ) tümünün donörün antijenleri ile uyumluluğunu gösterir. Y örneği ise hastanın A antijenlerinden birinin donörün A antijenlerinden biriyle uyumsuzluğunu göstermektedir. Dolayısıyla buradaki uyum, 6'da 5 veya 10'da 9’dur [53]. Kimi HLA tiplemeleri diğerlerinden daha yaygındır. Buna ek olarak, kimi HLA tiplerine bazı ırksal ve etnik gruplarda diğerlerinden daha sık rastlanır. Bu, uygun bir donör bulmadaki en yüksek şansın, hasta ile benzer ırksal ve etnik kökene sahip kişiler arasında olabileceği anlamına gelmektedir. 52 3.4. Popülasyon Genetiği Popülasyon genetiği, popülasyonun genetik özelliklerini ve bu özellikleri belirleyen etmenleri inceleyen bilim dalıdır [54]. Popülasyon genetiğinin temelleri Sewall Wright, J.B.S. Haldane ve Ronald Fisher tarafından atılmıştır [55]. Popülasyon genetiği, toplumlarda genlerin dağılımını ve bu gen frekanslarının nasıl korunduğu ya da değiştiğini inceler. Örneğin, “A Rh(+) kan grubuna sahip bir kişiye kan ihtiyacı olduğunda toplumun yüzde kaçının kan verebileceği” sorusu popülasyon genetiğinin ilgi alanına girer. Popülasyon genetiği araştırmalarını şu dört temel evrimsel mekanizmayı esas alarak yapar: doğal seçilim, genetik sürüklenme, mutasyon ve gen akışı [54]. Gen frekanslarının hesaplanmasında gen havuzu kavramından yararlanılır. Gen havuzu, her bireyin iki genle (gametle) katkıda bulunduğu genler topluluğunu ifade eder. Bu durumda homozigot birey gen havuzunda aynı çeşit iki genle heterozigot birey ise farklı çeşit iki genle katkıda bulunur. Gen frekansının nasıl hesaplandığını bir örnek ile verelim: Eş baskın M ve N kan grubu için bir popülasyonda Çizelge 3.1. Genotip sayıları Genotip Sayı MM MN NN 16 18 20 sayıları elde edilmiş olsun. M ve N geninin frekansları: F(M)= (2*16+1*18) / (2*54) = 0,463 F(N)= (2*20+1*18) / (2*54) = 0,537 F(M) + F(N) = 0,463 + 0,537 = 1 olarak bulunur. 53 3.4.1. Hardy - Weinberg kuralı Gen frekansı ilk defa 1908 yılında İngiliz matematikçi G. Hardy ve Alman doktor W. Weinberg’in birbirinden bağımsız olarak yaptıkları çalışmalar sonucunda ortaya konmuştur. Hardy-Weinberg analizleri sonucunda, Mendel’in 3:1 monohibrit oranın aksine, kararlı bir popülasyonda baskın ve çekinik allellerin frekansının (bir önceki nesillerdeki değerler nasıl olursa olsun) değişmeden kalacağını, şimdiki ve gelecek gen frekanslarının geçmiş frekanslarla aynı olacağını buldular [56]. Hardy-Weinberg kuralına göre popülasyondaki baskın ve çekinik genlerin frekans toplamları 1’e eşittir. Bir karakter geninin baskın A ve çekinik a allelleri olduğu varsayılırsa ve A gen frekansı p, a gen frekansı da q ise p + q = 1 olmalıdır. Hardy-Weinberg kuralına göre dengedeki bir popülasyonda genotip dağılımı da şu şekilde olmalıdır. AA homozigot baskın genotipi, aa homozigot çekinik genotipi ve Aa hetorozigot genotipini göstermek üzere (p + q)2 = 12 binomiyal açılımından: p2 + 2pq + q2 = 1 olduğu gibi F(AA) + F(Aa + Aa) + F(aa) = 1 olur. Hardy-Weinberg denklemi kararlı (kapalı) bir popülasyonda geçerlidir. Böyle bir popülasyon çok ideal ya da tümüyle teoriktir. Dengenin geçerli olması için bazı gerekli koşullar vardır: - Eğer eşlemeler rastgele ise, - Allel frekansları erkek ve dişilerde aynı ise, - Yaşayabilirlik ve üretkenlik eşitse, yani seleksiyon yoksa, - Mutasyon yoksa, - Göç olmuyorsa, - Popülasyon yeteri kadar büyük, bu nedenle gen frekansı kuşaktan kuşağa şans eseri değişmiyorsa, denklemdeki gen frekansı ve dolayısıyla denklem sabit kalır [56]. 3.5. Haplotip Frekansı HLA Haplotipi: 6. kromozom üzerinde bulunan, birbirine yakın lokuslardaki allel kompleksleridir. Anne ya da babadan kalıtılırlar [48]. Tek bir ebeveynden geçtiği için tek 54 kromozom üzerinde bulunan majör doku uyumluluk kompleks (MHC) yani HLA allellerinin tümüdür. Haplotip frekansı birçok yöntemle hesaplanabilir. En doğru yöntem gen dizilimine bakılarak yapılan hesaplama yöntemidir. Ancak bu yöntem ekstra ekipmanlar gerektirir ve yüksek maliyetlidir. Haplotip frekansı, bütün genotiplerin eşit şekilde üretken olduğu aile datalarından da hesaplanabilmektedir. Fakat bu yöntem de ihtiyaç duyulan data miktarını en az % 50 oranında artırmaktadır. Haplotip frekansı popülasyon datasından da tahmin edilebilir. Bunun için en sık kullanılan iki yöntem maksimum olasılık tahmini (maximum likelihood estimation) ve karekök metodu (square root method)’dur [57]. Popülasyon datasından yapılan frekans hesabı sadece tahmindir, kesin olarak doğru olduğu söylenemez. Ancak en iyi olabilirlik tahminidir. Çünkü HLA verilerinin dizilimi bilinmemektedir. Eldeki verilerden yola çıkarak HLA dizilimi hakkında bir çıkarım yapılır. Çalışmada bu yöntemlerden maksimum olasılık tahmini (maximum likelihood estimation) kullanılacaktır. Çünkü maksimum olasılık tahmini literatürde en doğru tahmin sağlayan yöntem olarak kullanılmaktadır. Maksimum olasılık tahmini tercih edildiğinde analitik çözüm, genetik algoritmalar ve EM algoritması mümkün metotlar olarak karşımıza çıkmaktadır. Burada da EM algoritması tercih edilecektir. 3.6. Literatürde HLA Çalışmaları Bardi ve diğerleri (2012), “HLA-A, B and DRB1 allele and haplotype frequencies in volunteer bone marrow donors from the north of Parana State” adlı çalışmasında Brezilya’da yaşayan üç farklı etnik grubun haplotip frekansları arasındaki benzerlikler ve farklılıkları araştırmışlardır. Frekans hesabı için arlequin programını kullanmışlar ve en sık görülen allel ve haplotip türlerinin karşılaştırmasını yapmışlardır [58]. Cecka (2010), “Calculated PRA (CPRA): The New Measure of Sensitization for Transplant Candidates” adlı çalışmasında PRA ve CPRA değerlerinin karşılaştırmasını yapmıştır. PRA değeri yükseldikçe CPRA ile uyumunun da arttığını tespit etmiştir. PRA 55 değeri % 80 üzeri olan hastaların % 90’ının CPRA değerinin % 80 ve üzerinde olduğu görülmüştür [59]. Steiner (2013), doktora tezinde, hasta ve donör arasında en iyi eşleşmeyi bulan ve farklı sistemlerle entegre çalışabilen bir arama algoritması geliştirmiştir. HLA verilerini kullanarak haplotip tahmini yapmış ve hasta için en iyi eşleşme oranını hesaplamıştır. Çek Cumhuriyeti için başlanmış olan çalışmaya Finlandiya, İsviçre, İsveç, Slovakya, Belçika, İngiltere, İrlanda gibi elinde kullanılabilir ve yeterli HLA verisi bulunan ülkeler de dâhil edilmiştir [60]. Sousa ve diğerleri (2011), HLAMatchmaker algoritmasını kullanarak donör hasta eşleştirmesi yapan bir uygulama geliştirmişlerdir. Program kabul edilebilir ve kabul edilemez HLA epitoplarının analizini otomatik olarak yapmaktadır. Uygulamaya farklı kaynaklardan veri girilebilmekte ve otomatik raporlama yapılabilmektedir. Böylece yüksek hassasiyete sahip hastalar için hasta-donör çiftinin seçiminin yönetimini kolaylaştırmaktadır [61]. Sulcebe ve diğerleri (2009), Arnavut popülasyonu için, 160 sağlıklı bireyin HLA verileri ile allel ve haplotip frekansı hesaplaması yapmışlardır. Bu alanda Arnavutluk için yapılan ilk çalışmadır. 23 farklı ülke ile HLA benzerlik-farklılık karşılaştırması yapılmıştır. Karşılaştırmalarda Arnavutluk popülasyonuna en yakın benzerlik Kuzey Yunan, Bulgar, Makedon, Romen, Türk, Girit, Sırp, Hırvat ve İtalyan popülasyonları ile bulunmuştur [62]. Shen ve diğerleri (2010), Çin Uygur etnik grubuna ait sağlıklı ve birbiriyle ilişkisiz 104 kişinin 4 basamakta tiplendirilmiş HLA-A, -B ve –DRB1 allel bilgileri ile allel ve haplotip dağılımlarını incelemişlerdir. EM algoritması ile haplotip frekansları bulunmuş ve en sık görülen allel ve haplotipler verilmiştir. Daha önceki dört basamak tiplendirme çalışmaları kullanılarak birçok ülke ile Çin Uygur etnik grubu karşılaştırılmış ve en yakın benzerlik Xibe, daha sonra Kırgız, Hui ve Moğol popülasyonları ile bulunmuştur [63]. Cecka, Kucheryavaya, Reinsmoen ve Leffell (2011), çalışmalarında United Network for Organ Sharing (UNOS) tarafından yayınlanan verileri analiz ederek CPRA ve PRA arasındaki ilişkiyi incelemişlerdir. Veriler, CPRA yöntemi kullanılmaya başlanmasından önce 2001-2002 yılları ile ve sonrasında 2009-2010 yılları arasında 6 aylık periyotlar 56 halinde gruplandırılmıştır. CPRA yöntemi kullanılmaya başlandıktan sonra nakil verimliliğinin arttığı ve pozitif cross-match’in azaldığı görülmüştür [64]. 57 4. MATERYAL VE YÖNTEM Tez çalışmasında kullanılan veriler, Ankara ilindeki doku tiplendirme ruhsatı olan Yıldırım Beyazıt Dışkapı Eğitim ve Araştırma Hastanesi Doku Tiplendirme Laboratuvarından elde edilmiştir. 2012, 2013 ve 2014 yıllarına ait yaklaşık 4500 hasta ve vericinin HLA verilerinden, uzman eşliğinde yapılan analiz sonucunda 1192 kaydın HLA verisinin bu tez çalışması için kullanılabilir olduğu görülmüştür. Frekans hesaplamada birbiriyle akrabalık bağı bulunmayan bu 1192 sağlıklı bireyin 5 lokusa ait HLA doku tipi verileri kullanılmıştır. Laboratuvarda her bireyin yapılacak işleme göre HLA doku tiplendirimi yapılmaktadır. Bu nedenle her bireyin beş lokus ait HLA verilerinin tamamı bulunmamaktadır. Laboratuvardan alınan 1192 kaydın tamamında HLA-A, HLA-B ve HLA-DR, 1192 kaydın sadece 185’inde beş lokus ait HLA verisi bulunmaktadır. Elde edilen bu veriler ile allel ve haplotip frekansları hesaplaması yapılmıştır. Allel frekansı hesaplanması ve haplotip frekans tahmininde literatürde de kullanılan Arlequin 3.5.1.3 uygulamasının script olarak çalıştırılabilen arlecore versiyonu kullanılmıştır. Elde edilen frekans değerleri kullanılarak da CPRA hesabı yapan bir masaüstü ve bir de web uygulaması geliştirilmiştir. Tüm bu uygulama geliştirme adımları, uygulama kısmında detaylı olarak anlatılacaktır. Uygulamalar Microsoft Visual Studio 2010 program geliştirme ortamında, C# programlama dili kullanılarak geliştirilmiştir. 58 4.1. Arlequin Arlequin programı, popülasyon genetiğinde veri analizi yapmak için kullanılan bir uygulamadır. Arlequin, kullanımı basit ve içerisinde birçok popülasyon genetiği analiz yöntemini barındıran bir programdır [65]. Şekil 4.1. Arlequin programı arayüzü Kullanıcının programı öğrenme süresi ile zaman kaybetmeden analiz aşamasına geçebilmesi amacıyla geliştirilmiştir. Ancak girdi dosya formatı biraz karmaşık bir yapıya sahiptir. Arp uzantılı proje dosyası şeklinde hazırlanmış girdi dosyaları ile çalıştırılır. Şekil 4.2’de girdi dosyası örneği verilmiştir. 59 Şekil 4.2 Arlequin proje dosya formatı Şekil 4.2’de de görüldüğü gibi proje dosyasının giriş kısmında verinin genel özelliklerinin belirtildiği profil alanı, daha sonra ise dataların bulunduğu alan bulunmaktadır. Data alanı içerisinde bir ya da daha fazla popülasyon datası tanımlanabilmektedir. Her bir popülasyon için örneklem (Sample) adı ve boyutu bilgilerinden sonra datası gelecek şekilde veriler tanımlanmalıdır. Örneklem datası tanımlanırken ilk satırın, ilk sütunda “kayıt_no” bilgisi daha sonra bu kaydın sayısı ve son olarak muhtemel haplotiplerden biri, alt satıra sadece diğer haplotip bilgisi olacak şekilde yazılır. Arlequin ile arp proje dosyası seçilip yüklendikten sonra arayüzden yapılmak istenilen analizin yöntemi ve ayarları belirtilir. İstenilirse daha önceden hazırlanmış bir ayar dosyası yüklenilerek ayarlar otomatik olarak yapılabilmektedir. Arlequin aynı anda birden fazla analiz yönteminin seçilebilmesine imkân vermektedir. Ayarlar yapıldıktan sonra “çalıştır” düğmesine (buton) basılarak analiz çalışması başlatılır. 60 İşlemler tamamlandığında proje dosyasının bulunduğu dizine, “proje_dosyasının_adı.res” şeklinde bir klasör oluşturup, içinde “proje_dosyasının_adı.xml” dosyasına sonuçları kaydeder. Arlequin programı; genotip bilgisi verilen kayıtlar için ELM ya da EM algoritması ile haplotip frekans tahmini yapabilmektedir. Ancak programın bazı sınırlama ve yetersizlikleri söz konusudur. Örneğin; haplotip frekans tahminini sadece verilen kombinasyon ve istenilirse üç ve üzeri lokus genotip bilgisi girilen veriler için ikili kombinasyonlarının da hesaplamasını yapabilmektedir. Fakat CPRA hesaplaması için bütün haplotip kombinasyonlarında frekansların bilinmesi gerekmektedir. Arlequin programındaki bu yetersizliği ortadan kaldırmak için, eldeki verileri 1’li, 2’li, 3’lü, 4’lü ve 5’li haplotip kombinasyonlarında arlequin proje dosya formatına dönüştüren bir uygulama geliştirilmiştir. Uygulama, oluşturulan bu dosyaları, arlequin programında EM algoritması ile çalıştırıp ve çıktı dosyalarını tek tek okuyup, haplotip frekanslarını tek dosyada birleştirmektedir. Tek dosyada birleştirilen bu frekans değerleri kullanılarak da CPRA hesabı yapan bir masaüstü ve bir de web uygulaması geliştirilmiştir. Tüm bu uygulama geliştirme adımları, uygulama kısmında detaylı olarak anlatılacaktır. 4.2. CPRA’nın Hesaplanması CPRA hesabı popülasyon genetiğinde Hardy-Weinberg kuralı olarak bilinen formül kullanılarak yapılmaktadır. Zachary, frekans tahmini yaparken tüm allelleri, ilgilendiği alleller (A+) ve diğerleri (A-) olarak iki duruma indirgemiştir. İlgilendiği allellin frekansı p ve diğerlerinin toplam frekansı (1-p) olmak üzere fenotip frekansı: Çizelge 4.1. Fenotip frekansları Fenotip A+ A- Frekans p2+2p(1-p) (1-p)2 olarak gösterilir. F(A+) = p2+2p(1-p) ya da F(A+) = 1- (1-p)2 şeklinde yazılabilir [57]. 61 PRA yöntemi, antikorların paneldeki antijenlerle eşleşmesi prensibine dayandığından eğer hastanın HLA antikor türleri bilinirse toplumun allel frekansları kullanılarak PRA değeri teorik olarak hesaplanabilir. Hastanın antikorlarından dolayı organ kabul edemeyeceği antijenler ilgi alanına alınarak kabul edilemeyecek allellerin frekansı 1- (1-p)2 ile hesaplanabilir. Kişinin taşıyacağı birden çok antikor olacağından CPRA; 1- (1-∑pi)2 formülüyle hesaplanır [65]. ∑pi ilgilenilen kabul edilemeyecek allellerin frekans toplamını ifade etmektedir. S1: 1 lokus haplotip frekans toplamı (A, B, C, DQ, DR) S2: 2 lokus haplotip frekans toplamı (AB, AC, ADQ, ADR, BC, BDQ, BDR, CDQ, CDR, DQDR) S3: 3 lokus haplotip frekans toplamı (ABC, ABDQ, ABDR, ACDQ, ACDR, ADQDR, BCDQ, BCDR, BDQDR, CDQDR) S4: 4 lokus haplotip frekans toplamı (ABCDQ, ABCDR, ABDQDR, ACDQDR, BCDQDR) S5: 5 lokus haplotip frekans toplamı (ABCDQDR) olmak üzere CPRA = 1- (1 - S1 + S2 - S3 + S4 - S5)2 bulunur. Konuyu bir örnek üzerinden açıklamak gerekirse; alıcının serumunda, HLA-A*02, B*08, C*07, DQ*03, DR*05 anti HLA antikorlarının bulunduğu kabul edelim. Dolayısıyla hastaya bu antikorların kabul etmeyeceği antijenleri taşıyan donörlerden nakil yapılamayacaktır. Organ kabul edilemeyecek antijenlerin 1, 2, 3, 4 ve 5 lokus için haplotip frekans değerleri Çizelge 4.2. Bir lokus haplotipler ve frekanslar 1 lokus haplotip Frekans A*24 0,160686 B*35 0,216589 C*04 0,202632 DQ*03 0,455263 DR*11 0,217889 Toplam=S1 1,253059 62 Çizelge 4.3. İki lokus haplotipler ve frekanslar 2 lokus haplotip Frekans A*24 B*35 0,0598 A*24 C*04 0,051393 A*24 DQ*03 0,074735 A*24 DR*11 0,049866 B*35 C*04 0,189406 B*35 DQ*03 0,153575 B*35 DR*11 0,056147 C*04 DQ*03 0,133515 C*04 DR*11 0,064083 DQ*03 DR*11 0,221053 Toplam=S2 1,053573 Çizelge 4.4. Üç lokus haplotipler ve frekanslar 3 lokus haplotip Frekans A*24 B*35 C*04 0,052118 A*24 B*35 DQ*03 0,036105 A*24 B*35 DR*11 0,018931 A*24 C*04 DQ*03 0,02712 A*24 C*04 DR*11 0,026614 A*24 DQ*03 DR*11 0,061468 B*35 C*04 DQ*03 0,129834 B*35 C*04 DR*11 0,055645 B*35 DQ*03 DR*11 0,059906 C*04 DQ*03 DR*11 0,057611 Toplam=S3 0,525352 63 Çizelge 4.5. Dört lokus haplotipler ve frekanslar 4 lokus haplotip Frekans A*24 B*35 C*04 DQ*03 0,028939 A*24 B*35 C*04 DR*11 0,026207 A*24 B*35 DQ*03 DR*11 0,02891 A*24 C*04 DQ*03 DR*11 0,027419 B*35 C*04 DQ*03 DR*11 0,067032 Toplam=S4 0,178507 Çizelge 4.6. Beş lokus haplotipler ve frekanslar 5 lokus haplotip Frekans A*24 B*35 C*04 DQ*03 DR*11 0,029468 Toplam=S5 0,029468 olduğu varsayılırsa CPRA = 1- (1 - S1 + S2 - S3 + S4 - S5)2 CPRA = 1- (1 - 1,053573 + 1,053573 - 0,525352 + 0,178507 - 0,029468)2 CPRA = 1- (1 - 0,575799)2 =1- (0,424201)2= 1- 0,179946488 CPRA = 0,820053512 olarak bulunur. Yani toplumun % 82’si bu hastaya organ vermek için uygun değildir. 4.3. Uygulama Tez çalışmasında uygulanan veri madenciliği basamaklarının, çalışmada gerçekleştirilen adımlar hakkında genel bir fikir oluşturması amacıyla, özet gösterimi Şekil 4.3’te verilmiştir. Devamında, özet olarak verilen adımlar ayrıntılı olarak açıklanmaktadır. 64 Şekil 4.3. Tezde uygulanan veri madenciliği adımları 65 Tez çalışmasında kullanılan HLA verileri, Ankara Yıldırım Beyazıt Dışkapı Eğitim ve Araştırma Hastanesi doku tiplendirme laboratuvarından elde edilmiştir. 2012, 2013 ve 2014 yıllarına ait sağlıklı organ bağışçılarının HLA verileri kullanılmıştır. Yıllara göre ayrı ayrı düzenlenmiş excel dosyalarında tutulan HLA bilgileri, ilgili alanlar aynı sütunlara gelecek şekilde tek dosyada birleştirilmiştir. Hastalar her yıl 1’den başlanarak numaralanmıştır. Birleştirme işleminden sonra mükerrer kayıt numaraları olduğundan, yeni bir sütunda tüm kayıtlara “yıl-sıra_no” şeklinde 1’den başlayarak sıra numarası verilmiştir. Laboratuvardan alınan HLA-A, B, C, DQ, DR doku tipi bilgileri 4 basamak olarak alınmıştır. Ancak eldeki veriler incelendiğinde, verilerin % 50’den fazlasının 3. ve 4. basamak bilgilerinin eksik olması nedeniyle, her bir lokusun 3. ve 4. basamak bilgileri veriden çıkarılmış ve 2 basamak tiplendirme değerleri kullanılmıştır. Tez çalışmasının kapsamı Türk toplumu ile sınırlı olduğundan, Türkiye dışından gelen donör bilgileri araştırma dışı bırakılmıştır. Bir biri ile yakın akraba olan donörler de frekans hesabında sapmalara yol açacağından, yakın akrabalardan biri rasgele seçilerek diğerleri listeden çıkarılmıştır. Elde kalan verilerin HLA bilgileri uzman eşliğinde incelenmiş ve HLA bilgisi hatalı girildiği tespit edilen kayıtlar listeden çıkarılmıştır. Tüm bu işlemlerden sonra elimizde 1192 kayıt kalmıştır. 1192 adet donörün HLA verisi kullanılarak, maksimum olabilirlik yöntemleri ile muhtemel haplotipler belirlenmiş ve haplotip frekans tahmini yapılmıştır. Haplotip frekans tahmini için EM algoritması kullanılmıştır. EM algoritmasının tercih edilmesinin nedenlerinden biri, EM algoritmasının her bir nesnenin her bir kümeye olan üyeliğini kesin bir ölçüt yerine, bir olasılık değerine göre belirlemesidir. Yani her eleman belli bir oranda bir kümenin üyesidir. EM algoritmasının tercih edilmesinin diğer nedeni de, EM algoritmasının veri datası içinde kayıp veriler olsa bile en iyi olabilirlik kestirimi yapan istatistiksel bir yöntem olmasıdır. Araştırmada kullanılan verilerde kayıp veri bulunmamakla beraber geliştirilen uygulama ile ileride farklı merkezlerden toplanacak 66 verilerle yeni frekans tahmini yapılmak istenirse uygulamanın eksik verilerden etkilenmeden frekans tahmini yapabilmesi amaçlanmıştır. Hesaplanan frekans değerleri kullanılarak CPRA hesabı yapan bir uygulama geliştirilmiştir. Geliştirilen uygulamaların akış şeması Şekil 4.4’te verilmiştir. Şekil 4.4. Uygulama akış şeması 4.3.1. Arlecore ile frekans tahminleme uygulaması Frekans tahmininde, literatürde haplotip frekans tahmini için kullanılan Arlequin programının bir türü olan arlecore programı kullanılmıştır. Ancak arlecore programı ile tek dosyadaki verilerden yapılamamaktadır. bütün CPRA kombinasyonlar hesaplaması için için bütün haplotip haplotip frekans tahmini kombinasyonlarında frekansların bilinmesi gerekmektedir. Bu nedenle beş lokus için CPRA hesabı yapılmak istenirse (26’sı iki ve üzeri lokus haplotip kombinasyon frekansları, 5’i her bir lokusun allel frekansı için) 31 adet haplotip kombinasyonunun frekans hesaplaması yapılmalıdır. Arlequin programı ile bu işlem yapılmak istendiğinde ise 31 farklı kombinasyonda girdi dosyası oluşturulması 67 gerekmektedir. Eğer grafik ara yüzü olan Arlequin programı kullanılırsa her bir girdi dosyasının tek tek çalıştırılması ve oluşan sonuç dosyalarının içinden frekans bilgileri toplanarak CPRA hesabı için kullanılmalıdır. Bu durum da kullanıcıya büyük zorluk oluşturmaktadır. Bu problemi ortadan kaldırmak için bu işlemleri otomatik olarak yapan bir uygulama geliştirilmiştir. Uygulamaya öncelikle excel ya da csv formatında hazırlanmış bir dosyanın yüklenmesi gerekmektedir. Yüklenecek dosyanın formatı, ilk sütunda kayıtno, diğer sütunlarda ise alfabetik sırada HLA bilgileri (her lokus çifti yan yana olacak şekilde) yazılmış şekilde olmalıdır. Şekil 4.5. Frekans hesabı için yüklenecek HLA datasının excel dosya formatı Eğer csv formatında bir dosya yüklenecek ise her sütun ayraç karakteri (noktalı virgül) ile ayrılarak yazılmalıdır. 68 Şekil 4.6. Frekans hesabı için yüklenecek HLA datasının csv dosya formatı Uygun formatta düzenlenmiş dosya yüklenip, “Frekans Hesapla” düğmesine basıldığında, seçilen dosyadaki veriler ile 1’li, 2’li, 3’lü, 4’lü ve 5’li kombinasyonlarda arlequin proje dosyası (arp) formatında proje dosyaları oluşturulur. Proje dosyaları oluşturulurken, eğer verilerde, bilgisi girilmemiş alanlar varsa bu alanlar dikkate alınarak haplotip kombinasyonları oluşturulur. 4 lokus bilgisi tam olan ancak HLA-DQ bilgisi girilmemiş bir kayıt için en fazla 4 lokus haplotip kombinasyonu oluşturulabilmektedir. Şekil 4.7. Frekans hesaplama uygulaması ekran görüntüsü Arlecore programının hangi yöntemi, hangi parametrelerle kullanacağı ayar dosyasında (ars) belirtilmiştir. Ayar dosyasında haplotip frekans hesaplaması için kullanılacak yöntem 69 olarak EM algoritması belirtilmiş ve EM algoritmasının başlangıç durumu 500, epsilon 1*10-5 ve maksimum iterasyon 1000 değeri ile konfigüre edilmiştir. Oluşturulan 31 adet haplotip proje dosyası sırayla ve ayar dosyası ile birlikte, arlecore programına parametre olarak gönderilerek çalıştırılır. Oluşturulan haplotip kombinasyonlarının frekans tahminleri bulunur. Şekil 4.8. Haplotip frekans hesaplama uygulaması akış şeması Arlecore programı, her hesaplamanın sonucunu proje dosyasının bulunduğu dizinde, “proje_ dosya_ adı .res” adında bir klasör oluşturup içinde xml dosyasına kaydeder. Tüm proje dosyaları çalıştırıldıktan sonra, sonuç klasörlerindeki haplotip frekans değerleri tek dosyada birleştirilir. Tek dosyada toplanan frekans değerleri CPRA hesaplamasında kullanılmaktadır. İstenilirse ara yüzde bulunan “Frekans Dosyasını Kopyala” düğmesine basarak frekans dosyasının kopyası alınabilir. CPRA web uygulamasına yüklenerek program güncellenmiş frekans değerleri ile çalıştırılabilmektedir. 70 Geliştirilen uygulama 600, 1200 ve 2400 kayıt HLA verisi içeren dosyalar için ayrı ayrı çalıştırılarak performans testi yapılmıştır. Performans testi, Windows 7 Professional işletim sistemi, 4 GB RAM ve İ5 (3.3GHz) işlemci donanıma sahip bilgisayarda yapılmıştır. Sisteme yüklenen verilerin arlequin proje dosyasına dönüştürülmesi, arlecore programı ile bu dosyalardan frekans hesaplatılması ve sonuç dosyalarının tek dosyada birleştirilmesi için geçen süreler karşılaştırılmıştır. Yukarıda belirtilen işlemler, 600 kayıt için 42 saniyede, 1200 kayıt için 3 dakika 29 saniyede, 2400 kayıt için ise 4 dakika 34 saniyede tamamlanmıştır. Yapılan performans testinin ekran görüntüleri EK 3’te verilmiştir. Çizelge 4.7. Performans karşılaştırma sonuçları Kayıt Sayısı Geçen Süre 600 42 Sn 1200 3 Dk 29 Sn 2400 4 Dk 34 sn 4.3.2. CPRA hesaplama masaüstü uygulaması CPRA hesaplama uygulaması, kolay kullanım için basit bir ara yüze sahip olacak şekilde tasarlanmıştır. Uygulama açıldığında kullanıcının seçebileceği antijen listeleri, Allel.csv dosyasından okunarak ekranda listelenir (Şekil 4.9). 71 Şekil 4.9. CPRA hesaplama masaüstü uygulaması ekran görüntüsü Kullanıcı; hasta için “kabul edilemez antijenleri” seçip “Hesapla” düğmesine bastığında, seçilen allellerden oluşabilecek tüm haplotip kombinasyonları oluşturulur ve frekans dosyasından bu haplotiplerin frekans değerleri bulunur. Bu frekans değerleri ile S1, S2, S3, S4, S5 toplamları bulunur ve CPRA formülünde (1- (1-∑pi)2 = 1- (1 - S1 + S2 - S3 + S4 S5)2) yerine konularak CPRA değeri hesaplanır. 72 Şekil 4.10. Masaüstü uygulamasında CPRA hesaplama CPRA değeri toplumun % kaçının hasta için uygun donör olmadığını ifade eder. O hasta için, CPRA değerini 1’den çıkartarak, toplumdaki uygun donör oranı bulunmuş olur. Eğer elimizde farklı bir topluma ait sadece haplotip frekans bilgileri varsa bu bilgileri frekans dosyası formatında txt olarak düzenledikten sonra “Menü” başlığı altındaki “Frekans Dosyasını Güncelle” sekmesine tıklayarak, programa yüklenebilir (Şekil 4.11). Bu frekans değerleri kullanılarak, o topluma ait CPRA değeri de hesaplanabilir. Şekil 4.11. CPRA menü içeriği 73 Ayrıca yeni bir allel türünün listeye eklenmesi veya değiştirilmesi gerekirse, Allel.csv dosya formatında düzenlenmiş bir dosyayı “Menü” başlığı altındaki “Allel Dosyasını Güncelle” sekmesine tıklayarak, allel listeleri güncellenebilmektedir. Böylece herhangi bir programlama gerekmeden program güncellenebilecektir. Bu programın, sağlık hizmetlerinde çalışanlar tarafından kullanılacağı düşünülürse bu, onlar için büyük kolaylık oluşturacaktır. 4.3.3. CPRA hesaplama web uygulaması CPRA hesaplama web uygulaması da masaüstü uygulamasında olduğu gibi dosyalardan okuyarak dinamik olarak oluşturulan allel listeleri ile açılmaktadır. Masaüstü uygulamasındaki gibi basit bir ara yüzden seçilen “kabul edilemez antijenler” için CPRA hesabı yapılmaktadır. Şekil 4.12. CPRA hesaplama web uygulaması ekran görüntüsü 74 Şekil 4.13. Web uygulamasında CPRA hesaplama Web uygulamasında da allel ve frekans bilgilerinin bulunduğu dosyaların güncellenebileceği bir arayüz sayfası bulunmaktadır. Kullanıcılar, kullanıcı adı ve şifre bilgilerini girerek bu sayfaya erişebilmektedirler. Kullanıcı bu ekrandan ilgili dosyayı seçip “Yükle” düğmesine bastığında seçilen dosya sisteme yüklenir (Şekil 4.14). Program işlemleri bu dosyadaki veriler ile yapar. Dosyaların güncellenmesi ile CPRA web uygulaması, hiçbir programlama gerektirmeden güncellenmiş olacaktır. 75 Şekil 4.14. CPRA web uygulaması yönetim sayfası ekran görüntüsü Uygulamanın web tabanlı hazırlanması, elinde yeterince HLA verisi olmayan merkezler için kolayca erişerek kullanabilecekleri bir CPRA hesaplama uygulamasına imkân sağlayacaktır. 4.4. Bulgu ve Değerlendirmeler Ön işlemlerdeki elemelerden sonra kalan 1192 kaydın tamamında HLA-A, -B ve -DR bilgisi vardır. Ancak 1192 kaydın sadece 185’inin HLA-C ve –DQ bilgisi vardır. Bu nedenle HLA-C ve –DQ içeren haplotiplerin frekansları 185 kayıt üzerinden, diğer haplotiplerin frekansları ise 1192 kayıt üzerinden hesaplanmıştır. Hardy-Weinberg kuralının geçerli olabilmesi için popülasyonun yeterli büyüklükte ve dengede olması gerekmektedir. Popülasyonun sahip olduğu allellerin genotip frekans değerleri ile popülasyonun dengede olup olmadığı, X2 (Ki-Kare) testi uygulayarak tespit edilmiştir. X2 değeri 1,776 olarak hesaplanmıştır. Bu değer 0,05 anlamlılık düzeyinde X2 tablosunda (Ek 3. X2 Tablosu) tek parametre değerinden daha düşük bir değerdir. 657 parametre için X2 değerinin bu kadar düşük olması; popülasyonun gözlenen allel genotip frekans dağılımı beklenene çok yakın olduğunu gösterdiğinden popülasyon dengededir. 76 Laboratuvardan alınan verilerden, 2014 yılına ait vericilerin adres bilgileri bulunmamaktadır. 2012 ve 2013 yıllarına ait 734 vericinin adreslerinin illere göre dağılımı Çizelge 4.8’de verilmiştir. Çizelge 4.8. Vericilere ait adreslerin illere göre dağılımı Adres Oran Adres Oran Adres Oran Adres Oran ADIYAMAN 0,008 ÇANAKKALE 0,004 İSTANBUL 0,076 MUŞ 0,014 AFYON 0,003 ÇANKIRI 0,026 İZMİR 0,001 NİĞDE 0,003 AKSARAY 0,001 ÇORUM 0,004 KARAMAN 0,011 SAMSUN 0,031 AMASYA 0,003 DİYARBAKIR 0,003 KASTAMONU 0,007 SİİRT 0,003 ANKARA 0,458 DÜZCE 0,049 KAYSERİ 0,012 SİVAS 0,008 ANTALYA 0,005 ELAZIĞ 0,011 KIRIKKALE 0,015 ŞANLIURFA 0,008 ARTVİN 0,001 ERZİNCAN 0,008 KIRŞEHİR 0,004 ŞIRNAK 0,015 BARTIN 0,001 ERZURUM 0,001 KOCAELİ 0,001 TOKAT 0,003 BİLİNMEYEN 0,044 ESKİŞEHİR 0,001 KONYA 0,016 TRABZON 0,007 BİNGÖL 0,003 GAZİANTEP 0,001 MALATYA 0,001 VAN 0,018 BİTLİS 0,004 GİRESUN 0,010 MARDİN 0,008 YOZGAT 0,012 BOLU 0,010 HAKKARİ 0,012 MERSİN 0,010 ZONGULDAK 0,023 BURSA 0,004 HATAY 0,015 MUĞLA 0,001 Donörlerin adres bilgileri dikkate alındığında, Türkiye’nin her bölgesinden donörlere ait veriler olduğu görülmektedir. Ancak verilerin elde edildiği laboratuvarın Ankara’da olması donörlerin Ankara yoğunluklu olmasına neden olmuştur. Genel olarak bakıldığında, çalışmadaki veri grubunun Türk toplumunu temsil edebileceği düşünülmektedir. Veriler analiz edildiğinde, toplumumuzda 19 HLA-A, 29 HLA-B, 13 HLA-C, 13 HLADRB1 ve 5 HLA-DQ allel türünün bulunduğu görülmüştür. Haplotiplere baktığımızda ise 5 lokus haplotip için 270 farklı haplotip görülmüştür. 5 lokus haplotiplerde en sık görülen ilk 10 haplotip ve frekans değerleri Çizelge 4.9’da verilmiştir. 77 Çizelge 4.9. Türkiye’de en sık görülen 5 lokus haplotipler ve frekans değerleri Haplotip Frekans HLA-A*24 HLA-B*35 HLA-C*04 HLA-DQ*03 HLA-DR*11 0,0286 HLA-A*02 HLA-B*51 HLA-C*15 HLA-DQ*03 HLA-DR*04 0,0208 HLA-A*11 HLA-B*35 HLA-C*04 HLA-DQ*03 HLA-DR*04 0,0179 HLA-A*23 HLA-B*49 HLA-C*07 HLA-DQ*03 HLA-DR*11 0,0167 HLA-A*24 HLA-B*18 HLA-C*12 HLA-DQ*03 HLA-DR*11 0,0167 HLA-A*32 HLA-B*35 HLA-C*04 HLA-DQ*03 HLA-DR*11 0,0167 HLA-A*01 HLA-B*52 HLA-C*12 HLA-DQ*06 HLA-DR*15 0,0139 HLA-A*03 HLA-B*44 HLA-C*16 HLA-DQ*03 HLA-DR*04 0,0139 HLA-A*01 HLA-B*51 HLA-C*07 HLA-DQ*03 HLA-DR*11 0,0111 HLA-A*02 HLA-B*51 HLA-C*15 HLA-DQ*03 HLA-DR*11 0,0111 Yapılan hesaplama sonucunda elde edilen allel frekans değerleri, “www.allelefrequincies.net” internet adresinden alınan 3 Avrupa ülkesinin (Almanya [67], İtalya [68] ve Fransa [69]) frekans değerleri ile karşılaştırmalı olarak çizelge ve grafikler şeklinde aşağıda verilmiştir. Çizelgelerde alleler, Türkiye frekans değerleri dikkate alınarak en yüksek frekans değerinden en düşüğüne doğru sıralanarak verilmiştir. Grafiklerdeki sıralama ise allellerin alfabetik sırasına göre yapılmıştır. Bazı alleller çok düşük frekans değerlerine sahip olduğundan virgülden sonra 3 basamağa yuvarlandığında 0 (sıfır) olarak görülmektedir. Frekans değerinin 0,000 olması allelin toplumda var olduğunu fakat frekansının çok küçük olduğunu ifade eder. Frekans değerinin *** olması ise bu allellin toplumda hiç görülmediği anlamına gelmektedir. 78 Çizelge 4.10. HLA-A allelerinin ülkelere göre frekans değerleri Allel A*02 A*24 A*03 A*01 A*11 A*26 A*32 A*68 A*30 A*23 A*33 A*29 A*31 A*66 A*69 A*25 A*74 A*34 A*36 A*80 Türkiye↓ 0,209 0,159 0,116 0,105 0,084 0,068 0,055 0,047 0,039 0,031 0,029 0,018 0,017 0,009 0,006 0,005 0,001 0,000 0,000 *** Frekans Almanya İtalya 0,285 0,284 0,087 0,136 0,138 0,120 0,181 0,105 0,065 0,048 0,029 0,045 0,036 0,038 0,037 0,040 0,019 0,061 0,016 0,022 0,009 0,027 0,036 0,026 0,026 0,027 0,005 0,008 0,001 0,004 0,022 0,017 0,000 0,001 0,001 0,001 0,000 0,001 0,001 *** Fransa 0,258 0,100 0,122 0,126 0,061 0,038 0,047 0,043 0,035 0,030 0,018 0,064 0,033 0,005 0,001 0,015 0,001 0,002 0,000 0,000 Çizelge 4.10’a göre, HLA-A lokusu için Türkiye’de en sık görülen ilk 3 allel; A*02 (% 20,9), A*24 (% 15,9), A*03 (% 11,1) olurken, Almanya için A*02 (% 28,5), A*01 (% 18,1), A*03 (% 13,8), İtalya için A*02 (% 28,4), A*24 (% 13,6), A*03 (% 12,0), Fransa için A*02 (% 25,8), A*01 (% 12,6), A*03 (% 12,2) olduğu görülmüştür. Almanya ve Fransa toplumlarında görülen A*80 alleli, Türkiye ve İtalya toplumuna ait popülasyonlarda görülmemiştir. 79 0,30 0,28 0,26 Türkiye 0,24 Almanya 0,22 0,20 0,18 İtalya Fransa 0,16 0,14 0,12 0,10 0,08 0,06 0,04 0,02 0,00 Şekil 4.15. HLA-A allelerinin ülkelere göre frekans grafiği Şekil 4.15’te görüldüğü üzere A*02 alleli bütün popülasyonlarda en sık görülen HLA-A alleldir. Çizelge 4.11’e göre, HLA-B lokusu için Türkiye’de en sık görülen ilk 3 allel; B*35 (% 20,8), B*51 (% 12,3), B*44 (% 7,1) olurken, Almanya için B*44 (% 15,2), B*07 (% 14,0), B*08 (% 13,4), İtalya için B*35 (% 18,1), B*15 (% 9,6), B*51 (% 8,5), Fransa için B*44 (% 14,9), B*35 (% 10), B*07 (% 9,1) olduğu görülmüştür. 80 Çizelge 4.11. HLA-B allelerinin ülkelere göre frekans değerleri Allel B*35 B*51 B*44 B*38 B*18 B*07 B*49 B*40 B*55 B*13 B*50 B*27 B*52 B*08 B*15 B*14 B*41 B*58 B*39 B*37 B*57 B*53 B*48 B*45 B*54 B*47 B*56 B*46 B*73 B*81 B*67 B*78 B*42 Türkiye↓ 0,208 0,123 0,071 0,061 0,052 0,046 0,043 0,038 0,038 0,037 0,034 0,034 0,032 0,030 0,027 0,025 0,021 0,018 0,018 0,013 0,010 0,006 0,004 0,004 0,003 0,003 0,001 0,001 0,000 *** *** *** *** Frekans Almanya İtalya 0,074 0,181 0,042 0,085 0,152 0,068 0,017 0,029 0,036 0,061 0,140 0,046 0,013 0,043 0,071 0,038 0,016 0,013 0,029 0,021 0,011 0,023 0,040 0,026 0,004 0,012 0,134 0,041 0,074 0,096 0,031 0,069 0,010 0,015 0,005 0,016 0,020 0,024 0,014 0,012 0,042 0,025 0,003 0,007 *** 0,000 0,006 0,003 *** *** 0,003 0,003 0,002 0,004 *** *** *** 0,003 *** 0,001 *** *** *** 0,031 0,002 0,001 Fransa 0,100 0,084 0,149 0,026 0,060 0,091 0,026 0,056 0,017 0,020 0,017 0,036 0,010 0,082 0,064 0,044 0,011 0,013 0,022 0,013 0,028 0,009 0,000 0,007 *** 0,004 0,008 0,001 0,000 *** 0,000 0,000 0,001 B*54 alleli sadece Türkiye popülasyonunda görülmüştür. B*42 alleli ise diğer popülasyonlarda görülmüş olmasına rağmen Türkiye popülasyonunda görülmemiştir. 81 0,22 Türkiye Almanya İtalya Fransa 0,20 0,18 0,16 0,14 0,12 0,10 0,08 0,06 0,04 0,02 B*07 B*08 B*13 B*14 B*15 B*18 B*27 B*35 B*37 B*38 B*39 B*40 B*41 B*42 B*44 B*45 B*46 B*47 B*48 B*49 B*50 B*51 B*52 B*53 B*54 B*55 B*56 B*57 B*58 B*67 B*73 B*78 B*81 0,00 Şekil 4.16. HLA-B allelerinin ülkelere göre frekans grafiği Çizelge 4.12’ye göre, HLA-C lokusu için Türkiye’de en sık görülen ilk 3 allel; C*04 (% 20,5), C*12 (% 17,0), C*07 (% 15,9) olurken, Almanya için C*07 (% 33,2), C*03 (% 14,3), C*06 (% 10,3), İtalya için C*07 (% 22,1), C*04 (% 16,5), C*12 (% 12,9), Fransa için C*07 (% 25,7), C*04 (% 12,6), C*03 (% 9,9) olduğu görülmüştür. Çizelge 4.12. HLA-C allelerinin ülkelere göre frekans değerleri Allel C*04 C*12 C*07 C*15 C*06 C*16 C*03 C*02 C*14 C*08 C*17 C*01 C*05 C*18 Türkiye↓ 0,205 0,170 0,159 0,095 0,092 0,059 0,057 0,043 0,041 0,022 0,022 0,019 0,016 *** Frekans Almanya İtalya 0,092 0,165 0,047 0,129 0,332 0,221 0,017 0,060 0,103 0,083 0,034 0,060 0,143 0,055 0,044 0,042 0,009 0,041 0,030 0,038 0,011 0,011 0,032 0,033 0,098 0,057 0,000 0,000 Fransa 0,126 0,071 0,257 0,037 0,083 0,067 0,099 0,061 0,025 0,043 0,011 0,038 0,082 0,000 82 C*18 alleli diğer popülasyonlarda da çok düşük bir frekansta görülmesine rağmen, Türkiye popülasyonunda hiç görülmemiştir. 0,36 0,34 0,32 0,30 0,28 0,26 0,24 0,22 0,20 0,18 0,16 0,14 0,12 0,10 0,08 0,06 0,04 0,02 0,00 Türkiye Almanya İtalya Fransa C*01 C*02 C*03 C*04 C*05 C*06 C*07 C*08 C*12 C*14 C*15 C*16 C*17 C*18 Şekil 4.17. HLA-C allelerinin ülkelere göre frekans grafiği Çizelge 4.13’e göre, HLA-DQB1 lokusu için Türkiye’de en sık görülen ilk 3 allel; DQB1*03 (% 45,7), DQB1*06 (% 19,7), DQB1*05 (% 18,9) olurken, İtalya için DQB1*03 (% 41,2), DQB1*05 (% 25,7), DQB1*02 (% 15,6) görülmüştür. Fransa ve Almanya popülasyonu için DQB1 tiplendirmesi yapılmadığından değerlendirme yapılamamıştır. Çizelge 4.13. HLA-DQB1 allelerinin ülkelere göre frekans değerleri Allel DQB1*03 DQB1*06 DQB1*05 DQB1*02 DQB1*04 Türkiye↓ 0,457 0,197 0,189 0,130 0,027 Frekans İtalya Almanya Fransa 0,412 0,145 Bu popülasyonlar için HLA-DQ tiplendirmesi 0,257 yapılmamış 0,156 0,032 83 0,50 Türkiye İtalya 0,45 0,40 0,35 0,30 0,25 0,20 0,15 0,10 0,05 0,00 DQB1*02 DQB1*03 DQB1*04 DQB1*05 DQB1*06 Şekil 4.18. HLA-DQB1 allelerinin ülkelere göre frekans grafiği Çizelge 4.14’e göre, HLA-DRB1 lokusu için Türkiye’de en sık görülen ilk 3 allel; DRB1*11 (% 21,3), DRB1*04 (% 16,8), DRB1*13 (% 11,1) olurken, Almanya için DRB1*04 (% 17,2), DRB1*15 (% 14,7), DRB1*03 (% 14,1), İtalya için DRB1*11 (% 24,1), DRB1*07 (% 12,5), DRB1*13 (% 11,8), Fransa için DRB1*07 (% 14,6), DRB1*11 (% 14,3), DRB1*13 (% 13,1) olduğu görülmüştür. Çizelge 4.14. HLA-DRB1 allelerinin ülkelere göre frekans değerleri Allel DRB1*11 DRB1*04 DRB1*13 DRB1*15 DRB1*07 DRB1*03 DRB1*14 DRB1*01 DRB1*16 DRB1*10 DRB1*08 DRB1*12 DRB1*09 Türkiye↓ 0,213 0,168 0,111 0,095 0,089 0,074 0,070 0,065 0,038 0,029 0,023 0,020 0,006 Frekans Almanya İtalya 0,078 0,241 0,172 0,079 0,119 0,118 0,147 0,071 0,138 0,125 0,141 0,094 0,022 0,055 0,103 0,092 0,012 0,054 0,009 0,019 0,022 0,030 0,022 0,012 0,010 0,004 Fransa 0,143 0,125 0,131 0,103 0,146 0,109 0,039 0,105 0,029 0,010 0,038 0,012 0,009 HLA-DRB1 lokusu için tüm alleller bütün toplumlarda görülmüştür. 84 Türkiye 0,26 Almanya 0,24 İtalya 0,22 Fransa 0,20 0,18 0,16 0,14 0,12 0,10 0,08 0,06 0,04 0,02 0,00 Şekil 4.19. HLA-DRB1 allelerinin ülkelere göre frekans grafiği Yukarıdaki grafiklerde de görüldüğü üzere Türkiye’deki popülasyon ile İtalya’daki popülasyon birbirine yakın değerler almıştır. Almanya ve Fransa’daki popülasyonlar da kendi aralarında bir birine yakın değerler almıştır. Ancak Türkiye popülasyonu ile özellikle bazı allel frekanslarında ciddi farklılıklar görülmektedir. Bu durum ise organ naklinde büyük önemi olan PRA değerinin, topluma özgü olmayan frekans değerleri ile oluşturulmuş panellerden alınması yanlış PRA değerlerinin elde edilmesine neden olabilir. Çizelge 4.15’te laboratuvardan alınan hastaların anti-HLA antikorlarının Luminex yöntemi ile hesaplanan PRA değeri ile bu antikorların geliştirilen CPRA uygulamasındaki ve Amerikan Sağlık Servisi sitesindeki CPRA uygulamasındaki CPRA değerleri verilmiştir. 85 Çizelge 4.15. Hasta antikorlarının Luminex PRA ve CPRA değerlerinin karşılaştırılması PRA Hasta ID Sınıf I Antikorları 1 Sınıf II Antikorları CPRA OPTN CPRA Sınıf Sınıf I II Sınıf I Sınıf II Sınıf I Sınıf II A*02:01 A*02:02 A*02:03 A*02:05 A*11:01 A*29:02 A*30:01 A*31:01 A*33:03 A*34:02 A*66:01 A*66:02 A*68:01 A*68:02 A*69:01 A*74:01 17 0 70,81 0 80 0 2 A*11:01 A*03:01 A*11:02 B*08:01 B*18:01 C*07:01 C*07:02 C*08:01 C*12:02 10 0 71,51 0 78 0 3 A*23:01 A*24:02 A*24:03 B*48:01 DR*01:02 DR*04:01 DR*04:03 DR*12:01 DR*16:02 4 6 34,73 49,69 24 51 4 DQ*02:01 0 2,44 0 24,26 0 37 5 DR*12:01 0 5 0 3,99 0 4 1 0 5,38 0 12 0 17 3 80,94 5,18 67 12 3 0 27,78 0 56 0 15 11 64,83 82,04 72 78 8 3 81,7 71,73 82 60 21 6 82,7 31,16 93 32 6 B*15:16 B*14:01 B*15:03 B*18:01 B*35:01 B*35:08 B*37:01 B*40:01 B*40:02 7 B*41:01 B*42:01 B*51:01 B*53:01 DR*08:01 DR*09:01 B*54:01 B*55:01 B*78:01 B*82:02 8 B*08:01 B*78:01 C*07:01 A*25:01 A*34:02 A*33:03 A*66:02 A*66:01 A*73:01 B*08:01 B*35:01 9 B*35:08 B*53:01 B*78:01 B*82:02 C*07:01 C*07:02 A*02:01 A*25:01 A*31:01 A*32:01 A*33:01 A*33:03 A*43:01 B*14:01 10 B*14:02 B*49:01 B*54:01 B*73:01 C*03:04 C*04:03 C*14:02 DR*03:01 DR*03:02 DR*03:03 DR*11:04 DR*11:01 DR*13:01 DR*13:03 DR*14:01 DQ*06:02 DR*03:03 DR*11:01 DR*13:03 DR*13:01 DR*14:01 DR*14:04 A*02:03 A*02:05 A*11:01 A*11:02 11 A*25:01 A*26:01 A*29:02 A*31:01 DR*04:01 DR*04:02 A*33:01 A*33:03 A*34:02 A*43:01 DR*04:03 DR*04:05 A*66:01 A*66:02 A*68:01A*68:02 DR*09:01 B*73:01 C*05:01 C*07:02 C*08:02 Çizelge 4.15’te görüldüğü gibi Türkiye’de kullanılan panelden elde edilen PRA değerleri ile hesaplanan CPRA değerleri arasında büyük fark vardır. Bu da organ nakli bekleme listesine alınma ve organ bulunduğunda uygun hastanın seçimi sürecinde yanlışlıklara sebep olmaktadır. 86 PRA değerleri 4 karakter tiplendirme yöntemi ile belirlenmiştir. CPRA hesaplama ise 2 karakter tiplendirme baz alınarak yapılmıştır. Bu nedenle PRA ve CPRA arasında fark görülebilir. Fakat farkın çok büyük çıkması PRA panelini frekans dağılımı ile toplumun frekans dağılımları arasında fark olmasından kaynaklanmaktadır. 87 5. SONUÇ ve ÖNERİLER Eldeki veriler, yeterli sayıda ve dengedeki bir popülasyona aittir. Verilerin dağılımı toplumun genelini yansıttığı kabulüne dayanarak bu veriler kullanılarak CPRA hesaplaması yapılabileceği görülmektedir. Yapılan PRA ve CPRA karşılaştırmasında da CPRA değerinin PRA değerinden belirgin düzeyde farklı olduğu görülmüştür. Günümüzde kullanılan PRA paneli ülkemize özgü hazırlanmadığından Türkiye toplumu için tam olarak doğru sonuç vermemektedir. Geliştirilen uygulama sayesinde, hem klinisyenler hem de doku tiplendirme laboratuvarları organ nakillerinde hastanın PRA yüzdesi hakkında daha doğru ve daha kolay yorum yapabileceklerdir. Geliştirilen uygulama ile popülasyon genetiğinde kullanılan ancak veri girişi zor olan arlequin programında basit bir formata hazırlanmış veriler ile frekans hesabı yapılabilmektedir. Uygulama verilerin tüm lokus bilgilerinin girilmiş olmasına gerek duymadan, verilerin sadece dolu alanlarını dikkate alarak oluşabilecek bütün kombinasyonlarda frekans hesabı yapabilmektedir. Bu durum kullanıcıya büyük kolaylık sağlamaktadır. Geliştirilen CPRA uygulamasında, kullanıcı ara yüzünün, allel bilgilerinin bulunduğu dosyadan okunarak dinamik olarak oluşturulması ve hesaplama işlemlerinde kullanılan frekans değerlerini de dosyadan okutarak, programa dinamik bir yapı kazandırılmıştır. Bu dinamik yapı sayesinde, allel ve frekans dosyalarının güncellenmesi ile program hiçbir kodlama işlemine gerek duymadan güncellenmiş olacaktır. Frekans dosyasının güncellenebiliyor olması, kullanıcıya haplotip frekans değerleri bilinen bir toplum için CPRA hesabı yapabilme imkânı da sunmaktadır. Türkiye’de önceden hazırlanmış böyle bir uygulama bulunmadığından bu alandaki büyük bir açığı kapatacağı düşünülmektedir. ve sağlık sektöründeki çalışanlara kolaylık sağlayacağı 88 Bu çalışma kapsamında hazırlanan CPRA web uygulamasının Yıldırım Beyazıt Dışkapı Eğitim ve Araştırma Hastanesi Doku Tiplendirme Laboratuvarı’nın web sitesinde yayınlaması planlanmaktadır. Kullanılan veriler Ankara ilindeki doku tiplendirme ruhsatı olan bir sağlık merkezinden elde edilmiştir. Bu da hastaların genellikle Ankara ve çevresindeki illerden yoğunluklu olmasına neden olmuştur. Türkiye’nin farklı bölgelerindeki merkezlerden elde edilecek veriler ile tüm Türkiye için yapılacak genelleme daha doğru olacaktır. Doku tiplendirme verileri, kemik iliği bankaları gibi yüksek oranda doku tiplendirme yapan kuruluşların verileri ile birleştirildiğinde organ nakli yapılacak uygun hasta seçiminin sağlanmasında, araştırılan popülasyon hakkında daha doğru tahminler yapılabilecektir. Ayrıca Türk toplumu için hesaplanmış olan allel ve haplotip frekansları dikkate alınarak daha sonraki çalışmalarda Türk toplumu için daha uygun tarama ve tanımlama test panelleri geliştirilmesine imkân sağlayacaktır. Veri madenciliği teknikleri kullanılarak önceki çalışmalarda elde edilmiş verileri analiz ederek yeni bilgi ve bulgulara ulaşılabilmektedir. Veri analizi herhangi bir laboratuvar testi gerektirmediğinden, maliyetsiz bir şekilde yeni bilgiler elde edilebilir. Bu tez çalışmasında; haplotip dizilimini belirlenmek için gen dizilimine bakmak ya da çok sayıda gamet hücresi alıp tiplendirerek genelleme yapmak yerine daha önceden elde edilmiş verilerden veri madenciliği tekniği ile haplotip tahmini yapılmıştır. Veri madenciliği ile haplotip tahmini yöntemi; maliyetsiz ve ek bir laboratuvar çalışmasına gerek duyulmadan yapılabilmektedir. Veri madenciliği ile veri yığınları içinden çıkarılan bilgiler büyük öneme sahiptir. Sağlık verisinin kendisi büyük öneme sahip olduğu düşünülürse, bu verilerden çıkarılacak bilgiler çok daha önemli olacaktır. Tıp alanında veri madenciliği çalışmalarının artırılması, yeni çıkarımlarda bulunmaya yardımcı olacak, hızlı ve doğru karar vermeyi, maliyeti düşürmeyi sağlayacaktır. Ancak, tıpta veri madenciliği çalışmaları yapılırken, özellikle elde edilen bulguların değerlendirilmesi aşamasında, alanda bir uzman ile birlikte çalışılması gerektiği unutulmamalıdır. 89 KAYNAKLAR 1. İnternet: Güncel Organ Bağış ve Nakil Sayıları. URL:http://www.webcitation.org/query?url=https%3A%2F%2Forgan.saglik.gov.tr %2Fweb&date=2015-06-02. Son Erişim Tarihi: 07.01.2015 2. Eyerci, N. (2005). Anti-Hla Antikorlarının Tespitinde Multipar Gebelerden Alınan Serumların Kullanılması, Yayımlanmamış Yüksek Lisans Tezi, Atatürk Üniversitesi Sağlık Bilimleri Enstitüsü, Erzurum. 3. Can, M. B., Eren, Ç., Koru, M., Özkan, Ö., Rzayeva, Z. (2012). Veri Kümelerinden Bilgi Keşfi: Veri Madenciliği. Başkent Üniversitesi Tıp Fakültesi XIV. Öğrenci Sempozyumunda sunuldu, Ankara. 4. Han, J., Kamber, M. (2006). Data Mining Concepts and Techniques (Second Edition) USA: Morgan Kaufmann Publisher, s.2-7, 70-71, 398-401. 5. Akgöbek, Ö., Çakır, F. (2009, Şubat). Veri Madenciliğinde Bir Uzman Sistem Tasarımı. XI. Akademik Bilişim Konferansında sunuldu, Şanlıurfa. 6 Akpınar, H. (2000). Veri Tabanlarında Bilgi Keşfi ve Veri Madenciliği. İstanbul Üniversitesi İşletme Faültesi Dergisi. 29(1), 1-22. 7. Coşlu, E. (2013, Ocak). Veri Madenciliği. XV. Akademik Bilisim Konferansında sunuldu, Antalya. 8. Chakrabarti, S., diğerleri.(2009). Data Mining Know It All. Burlington: Morgan Kaufmann Publishers, s.60. 9. Argüden, Y., Erşahin, B. (2008). Veri Madenciliği Veriden Bilgiye, Masraftan Değere. İstanbul: ARGE Danışmanlık A.Ş, s.22-23. 10. Seven, M. F. (2009). Veritabanlarından Bilgi Keşfi: Veri Madenciliği ve Bir Sağlık Uygulaması, Yayımlanmamış Yüksek Lisans Tezi, İstanbul Üniversitesi Sosyal Bilimler Enstitüsü, İstanbul. 11. Tang Z, MacLennan, J. (2005) Data Mining with SQL Server 2005. Indianapolis: Wiley Publishing, Inc., s.2. 12. Aygören, H., Sarıtaş, H., Moralı, T. (2012). İMKB 100 Endeksinin Yapay Sinir Ağları ve Newton Nümerik Arama Modelleri ile Tahmini. Uluslararası Alanya İşletme Fakültesi Dergisi, 4(1), 73-88. 13. Taşkın, Ç., Gökay Emel, G. (2010). Veri Madenciliğinde Kümeleme Yaklaşımları ve Kohonen Ağları ile Perakendecilik Sektöründe Bir Uygulama. Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, 15(3), 395-409. 90 14. Dinçer, E. (2006). Veri Madenciliğinde K-Means Algoritması ve Tıp Alanında Uygulanması, Yayımlanmamış Yüksek Lisans Tezi, Kocaeli Üniversitesi Fen Bilimleri Enstitüsü, Kocaeli. 15. Birant, D., Ventura, M., Altınok, H., Altınok, B., Ihlamur, M. (2010). İş Zekası Çözümleri için Çok Boyutlu Birliktelik Kuralları Analizi. Akademik Bilişim 2010 Konferansında sunuldu, Muğla. 16. Maimon, O., Rokach, L. (Editörler). (2010). Data Mining and Knowledge Discovery Handbook (Second Edition) London: Springer, s.860-862. 17. Koyuncugil, A. S., Özgülbaş, N. (2009). Veri Madenciliği: Tıp ve Sağlık Hizmetlerinde Kullanımı ve Uygulamaları. Bilişim Teknolojileri Dergisi, 2(2), 2132. 18. Emel, G. G., Taşkın, Ç. (2002). Genetik Algoritmalar ve Uygulama Alanları. Uludağ Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, XXI(1), 129-152. 19. Gündoğdu, Ö. E. (2007). Veri Madenciliğinde Genetik Algoritmalar, Yayımlanmamış Yüksek Lisans Tezi, Kocaeli Üniversitesi Fen Bilimleri Enstitüsü, Kocaeli. 20. Servi, T. (2009). Çok Değişkenli Karma Dağılım Modeline Dayalı Kümeleme Analizi, Yayımlanmamış Doktora Tezi, Çukurova Üniversitesi Fen Bilimleri Enstitüsü, Adana. 21. Sezgin, E., Çelik, Y. (2013). Veri Madenciliğinde Kayıp Veriler İçin Kullanılan Yöntemlerin Karşılaştırılması. XV. Akademik Bilişim Konferansında sunuldu, Antalya. 22. Tartar, A. (2013). Pulmoner Nodüller İçin Bilgisayar Destekli Teşhis Sistemi, Yayımlanmamış Doktora Tezi, İstanbul Üniversitesi Fen Bilimleri Enstitüsü, İstanbul. 23. Pala, T. (2013). Tıbbi Karar Destek Sisteminin Veri Madenciliği Yöntemleriyle Gerçekleştirilmesi, Yayımlanmamış Yüksek Lisans Tezi, Marmara Üniversitesi Fen Bilimleri Enstitüsü, İstanbul. 24. Şaylan, Ç. A. (2013). Böbrek Nakli Geçirmiş Hastalarda Akıllı Yöntem Tabanlı Yeni Öznitelik Seçme, Yayımlanmamış Yüksek Lisans Tezi, Kadir Has Üniversitesi Fen Bilimleri Enstitüsü, İstanbul. 25. Çataloluk, H. (2012). Gerçek Tıbbi Veriler Üzerinde Veri Madenciliği Yöntemi Kullanarak Hastalık Teşhisi, Yayımlanmamış Yüksek Lisans Tezi, Bilecik Üniversitesi Fen Bilimleri Enstitüsü, Bilecik. 26. Akyol, K. (2012). Biyokimya ve Hemogram Laboratuvar Test Sonuçlarının Lojistik Regresyon Yöntemiyle Analizi, Yayımlanmamış Yüksek Lisans Tezi, Karabük Üniversitesi Fen Bilimleri Enstitüsü, Karabük. 91 27. Turgut, H. (2012). Veri Madenciliği Süreci Kullanılarak Alzheimer Hastalığı Teşhisine Yönelik Bir Uygulama, Yayımlanmamış Yüksek Lisans Tezi, Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü, Isparta. 28. Eşiyok, T. (2011). Data Mining Supported Hospital Information Systems Solutions, Yayımlanmamış Yüksek Lisans Tezi, Dokuz Eylül Üniversitesi Fen Bilimleri Enstitüsü, İzmir. 29. Akman, M. (2010). Veri Madenciliği Yöntemlerine Genel Bakış ve Random Forests Yönteminin İncelenmesi: Sağlık Alanında bir Uygulama, Yayımlanmamış Yüksek Lisans Tezi, Ankara Üniversitesi Fen Bilimleri Enstitüsü, Ankara. 30. Karlı, A. B. (2010). Nicel Değerli Veri Kümelerinden Sıralı Örüntülerin Çıkarılması İçin FP-Growth Tabanlı Bir Yöntem, Yayımlanmamış Yüksek Lisans Tezi, Fırat Üniversitesi Fen Bilimleri Enstitüsü, Elazığ. 31. Altıntaş, Y. Y. (2010). Veri Madenciliğinin Tıpta Kullanımı Ve Bir Uygulama: Hemodiyaliz Hastaları İçin Risk Seviyelerine Göre Risk Faktörlerinin Etkileşimlerinin İncelemesi, Yayımlanmamış Yüksek Lisans Tezi, Gazi Üniversitesi Fen Bilimleri Enstitüsü, Ankara. 32. Çakırlı, B. (2010). Sağlık Sektöründe Apriori Algoritması ile Bir Veri Madenciliği Uygulaması, Yayımlanmamış Yüksek Lisans Tezi, Sakarya Üniversitesi Fen Bilimleri Enstitüsü, Sakarya. 33. Kaya, B. (2010). Tıbbi Veri Kümeleri Arasındaki Birliktelik Kurallarının Çok Amaçlı Genetik Algoritma İle Çıkarılması, Yayımlanmamış Yüksek Lisans Tezi, Fırat Üniversitesi Fen Bilimleri Enstitüsü, Elazığ. 34. Aksoy, İ. (2010). Türkiye'deki Yenidoğan Hastane Enfeksiyonlarının Gizli Örüntülerini Bulmak : Bir Veri Madenciliği Yaklaşımı, Yayımlanmamış Yüksek Lisans Tezi, Boğaziçi Üniversitesi Fen Bilimleri Enstitüsü, İstanbul. 35. İşler, Y. (2009). A Detailed Analysis Of The Effects Of Various Combinations Of Heart Rate Variability Indices In Congestive Heart Failure, Yayımlanmamış Doktora Tezi, Dokuz Eylül Ünivresitesi Fen Bilimleri Enstitüsü, İzmir. 36. Aksoy, B. (2009). Cluster Analysis Of Decompression Illness, Yayımlanmamış Yüksek Lisans Tezi, Galatasaray Üniversitesi Fen Bilimleri Enstitüsü, İstanbul. 37. Farboudi, S. (2009). Tıp Bilişiminde İstatistiksel Veri Madenciliği, Yayımlanmamış Yüksek Lisans Tezi, Hacette Üniversitesi Fen Bilimleri Enstitüsü, Ankara. 38. Oğuz, B. (2009). Metin Madenciliği Teknikleri Kullanılarak Kulak Burun Boğaz Hasta Bilgi Formlarının Analizi, Yayımlanmamış Yüksek Lisans Tezi, Akdeniz Üniversitesi Fen Bilimleri Enstitüsü, Antalya. 39. Demirel, B. (2008). Meme Kanseri Tedavi Yöntemlerinin Veri Madenciliği İle Belirlenmesi, Yayımlanmamış Yüksek Lisans Tezi, Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü, Isparta. 92 40. Kahramanlı, H. (2008). Hibrit Bulanık Sinir Ağını Kullanarak Bir Sınıflandırma Ve Kural Çıkarma Sisteminin Geliştirilmesi, Yayımlanmamış Doktora Tezi, Selçuk Üniversitesi Fen Bilimleri Enstitüsü, Konya. 41. Doğan, Ş. (2007). Veri madenciliği Kullanarak Biyokimya Verilerinden Hastalık Teşhisi, Yayımlanmamış Yüksek Lisans Tezi, Fırat Üniversitesi Fen Bilimleri Enstitüsü, Elazığ. 42. Danacı, M., Çelik, M., Akkaya, A. E. (2010). Veri Madenciliği Yöntemleri Kullanılarak Meme Kanseri Hücrelerinin Tahmin ve Teşhisi. Akıllı Sistemlerde Yenilikler ve Uygulama Sempozyumunda sunuldu. Kayseri. 9-12. 43. Güllekesen, K. H., Köksal, İ. T., Özdem, S., Saka, O. (2008). Karar Ağacı Analizi ile Prostat Kanserinin Öngörülmesi, V. Uluslararası Katılımlı Tıp Bilişimi Kongresinde sunuldu, Antalya. 44. Selver, M. A., Kocaoğlu, A., Doğan, H., Demir, G. K., Dicle, O., Güzeliş, C. (2007). Nakil Öncesi Verici Değerlendirmeleri için Otomatik Karaciğer Bölütleme Yordamı, IV. Ulusal Tıp Bilişimi Kongresinde sunuldu, Antalya. 45. Abbas, A. K., Lichtman, A. H. (2007). Temel İmmünoloji. (Çev: Camcıoğlu, Y. ve Deniz, G). İstanbul: İstanbul Medikal Yayıncılık, s.47-61, 177-192, 263-289. 46. Dalva, K. (2004). Her Yerde Karsımda; Nedir Bu HLA Tiplendirimi, XXXI. Ulusal Hematoloji Kongresi IV. Hematoloji İlk Basamak Kursunda sunuldu, Antalya. 47. Türk Hematoloji Derneği. Genetik Terimler Sözlüğü.; 2013, s.2-8. 48. Excoffier, L. S. M. (1995). Maximum-likelihood estimation of molecular haplotype frequencies in a diploid population. Molecular Biology and Evolution. (12), 921– 927. 49. Male, D., Brostoff, J., Roth, D. B., Roitt, I. (2008) İmmünoloji (çev: İmir, T.) Ankara: Palme Yayıncılık, s.383-399. 50. Aşkın, S. (2010). Böbrek Nakli Bekleme Listesindeki Hastalarda Lenfositotoksisite Yöntemi İle Anti-HLA Antikor Tanımlanması Böbrek Nakli Bekleme Listesindeki Hastalarda Lenfositotoksisite Yöntemi ile Anti-HLA Antikor Tanımlanması, Yayımlanmamış Yüksek Lisans Tezi, Atatürk Üniversitesi Sağlık Bilimleri Enstitüsü, Erzurum. 51. Kılıçaslan Ayna, T., Şentürk Çiftçi, H., Gürtekin, M. (2011). Tek Antijen Boncuk Çalışması ile Donöre Özgü Antikorların Saptanması. Türkiye Kinikleri Nefroloji Dergisi, 6(1), 17-21. 52. İnternet. Panel Reactive Antibody URL : http://www.webcitation.org/query?url=http%3A%2F%2Fimg.medscape.com%2Fful lsize%2Fmigrated%2F523%2F523%2Fajt523523.fig1a.gif&date=2015-06-02. Son Erişim Tarihi: 15.01.2015. 93 53. İnternet: Kemik İliği Transplantasyonu. URL:http://www.webcitation.org/query?url=http%3A%2F%2Fwww.kemikiligi.org %2Ficerik.php%3Fid%3D118%26alt_id%3D154%26tab%3D0%2C++&date=201506-02. Son Erişim Tarihi: 07.12.2014. 54. Hallibuton, R. (2004). Introduction to Population Genetics. USA: Pearson Education International, s.15-37 55. Ewens, W. (2000). Mathematical Population Genetics. Philadelphia: Springer, s.320. 56. Boncuk, A.N. (2011). Genetik. Ankara: Palme, s.247-255. 57. Zachary, A. A., Steinberg, A. G. (1197). Statistical Analysis and Applications of HLA Population Data. Manual of Clinical Laboratory Immunology. Washington, DC: ASM Press, s.1132-1140. 58. Bardi, M., Jarduli, L., Jorge, A., Camargo, R., Carneiro, F., Gelinski, J. (2012). HLA-A, B and DRB1 allele and haplotype frequencies in volunteer bone marrow donors from the north of Parana State. Rev Bras Hematol Hemoter, 34(1), 25-30. 59. Cecka, J. (2010). Calculated PRA (CPRA): The New Measure of Sensitization for Transplant Candidates. American Journal of Transplantation, 10, 26–29. 60. Steiner, D. (2013). Probabilistic Matching in Search for Unrelated Hematopoietic Stem Cell Donors. Unpublished Doctoral dissertation , Czech Technical University, Prague. 61. Sousa, L. C. D., Filho, H. L. A. S., Glehn, C. Q. C. V., Silva, A. S., Neto, P. S., Castro, J. A. F. (2011). EpHLA: An innovative and user-friendly software automating the HLAMatchmaker algorithm for antibody analysis. Transplant Immunology, 25, 210–216. 62. Sulcebe, G., Sanchez-Mazas, A., Tiercy, J.M., Shyti, E., Mone, I., Ylli, Z. (2009). HLA allele and haplotype frequencies in the Albanian population and their relationship with the other European populations. International Journal of Immunogenetics, 36, 337–343. 63. Shen, C., Zhu, B., Deng, Y., Ye, S., Yan, J., Yang, G. (2010). Allele Polymorphism and Haplotype Diversity of HLA-A, -B and - DRB1 Lo ci in Sequence-Based Typing for Chinese Uyghur Ethnic Group. PLoS ONE, 5(11), e13458. 64. Cecka, J. M., Kucheryavaya, A.Y., Reinsmoen, N. L., Leffell, M. S. (2011). Calculated PRA: Initial Results Show Benefits for Sensitized Patients and a Reduction in Positive Crossmatches. American Journal of Transplantation, 11, 719– 724. 94 65. İnternet: Arlequin Manual URL:http://www.webcitation.org/query?url=http%3A%2F%2Fcmpg.unibe.ch%2Fs oftware%2Farlequin35%2Fman%2FArlequin35.pdf&date=2015-06-02. Son Erişim Tarihi: 15.01.2015. 66. İnternet: CPRA Calculator. URL:http://www.webcitation.org/query?url=http%3A%2F%2Ftransplantpro.org%2 Fwp-content%2Fuploads%2FCurrent-CPRA-Calculation-2.ppt%2C+&date=201506-02. Son Erişim Tarihi:15.03.2015. 67. İnternet: The Allele Frequency Net Database. URL:http://www.webcitation.org/query?url=http%3A%2F%2Fwww.allelefrequenci es.net%2Fhla6006a.asp%3Fhla_locus_type%3DClassical%26hla_locus%3D%26hla _allele1%3D%26hla_allele2%3D%26hla_selection%3D%26hla_pop_selection%3D %26hla_population%3D3026%26hla_country%3D%26hla_dataset%3D%26hla_reg ion%3D%26hla_ethnic%3D%26hla_study%3D%26hla_order%3Dorder_1%26hla_s ample_siz&date=2015-06-02. Son Erişim Tarihi:15.03.2015. 68. İnternet: The Allele Frequency Net Database. URL:http://www.webcitation.org/query?url=http%3A%2F%2Fwww.allelefrequenci es.net%2Fhla6006a.asp%3Fhla_locus_type%3DClassical%26hla_locus%3D%26hla _allele1%3D%26hla_allele2%3D%26hla_selection%3D%26hla_pop_selection%3D %26hla_population%3D3041%26hla_country%3D%26hla_dataset%3D%26hla_reg ion%3D%26hla_ethnic%3D%26hla_study%3D%26hla_order%3Dorder_1%26hla_s ample_siz&date=2015-06-02. Son Erişim Tarihi:15.03.2015. 69. İnternet: The Allele Frequency Net Database. URL:http://www.webcitation.org/query?url=http%3A%2F%2Fwww.allelefrequenci es.net%2Fhla6006a.asp%3Fhla_locus_type%3DClassical%26hla_locus%3D%26hla _allele1%3D%26hla_allele2%3D%26hla_selection%3D%26hla_pop_selection%3D %26hla_population%3D3082%26hla_country%3D%26hla_dataset%3D%26hla_reg ion%3D%26hla_ethnic%3D%26hla_study%3D%26hla_order%3Dorder_1%26hla_s ample_siz&date=2015-06-02. Son Erişim Tarihi:15.03.2015. 95 EKLER 96 EK-1. Etik Kurul İzni 97 EK-2. X2 Tablosu 98 EK-3. Haplotip frekans hesaplama uygulamasının performans testi 99 ÖZGEÇMİŞ Kişisel Bilgiler Soyadı, Adı : ERTEN, Hüsnü Uyruğu : T.C. Medeni Hali : Evli Doğum Yılı : 1984 Email Adresi : [email protected] Eğitim Bilgileri Eğitim Derecesi Okul Mezuniyet Yılı Yüksek lisans Gazi Üniversitesi Fen Bilimleri Enstitüsü Teknoloji Fakültesi Bilgisayar Mühendisliği Devam ediyor Lisans Dokuz Eylül Üniversitesi Bilgisayar Mühendisliği 2010 Lise Mustafa Kaya Anadolu Lisesi / Kastamonu 2004 Çalışma Bilgileri İş Deneyimi, Yıl Çalıştığı Yer Görev 2011-devam ediyor İçişleri Bakanlığı Programcı Yabancı Dili İngilizce Yayınlar 1. ERTEN,H., ARICI, N., EYERCİ, N., YEŞİLYURT, A. (2015). Tıpta Bir Veri Madenciliği Uygulaması: Türk Popülasyonunda Organ Nakilleri için CPRA Hesaplama, XVII Akademik Bilişim Konferansı, Eskişehir, Türkiye. 2. ERTEN,H., EYERCİ, N., ARICI, N., YEŞİLYURT, A. (2015). CPRA Calculation for Solid Organ Transplantations in Turkish Population, 29. Europan Immunogenetics and Histocompability Conferance, Geneva, Switzerland. GAZİ GELECEKTİR...