Untitled

advertisement
VERİ MADENCİLİĞİ TEKNİKLERİ İLE ORGAN NAKLİ İÇİN UYGUN
DONÖR ORANININ HESAPLANMASI
Hüsnü ERTEN
YÜKSEK LİSANS TEZİ
BİLGİSAYAR MÜHENDİSLİĞİ ANABİLİM DALI
GAZİ ÜNİVERSİTESİ
FEN BİLİMLERİ ENSTİTÜSÜ
MAYIS 2015
Hüsnü ERTEN tarafından hazırlanan “VERİ MADENCİLİĞİ TEKNİKLERİ İLE ORGAN NAKLİ
İÇİN UYGUN DONÖR ORANININ HESAPLANMASI” adlı tez çalışması aşağıdaki jüri
tarafından OY BİRLİĞİ ile Gazi Üniversitesi BİLGİSAYAR MÜHENDİSLİĞİ Anabilim Dalında
YÜKSEK LİSANS TEZİ olarak kabul edilmiştir.
Danışman: Doç. Dr. Nursal ARICI
Bilgisayar Mühendisliği Anabilim Dalı, Gazi Üniversitesi
Bu tezin, kapsam ve kalite olarak Yüksek Lisans Tezi olduğunu onaylıyorum
...…………………
Başkan : Prof. Dr. Ahmet COŞAR
Bilgisayar Mühendisliği Anabilim Dalı, Orta Doğu Teknik Üniversitesi
Bu tezin, kapsam ve kalite olarak Yüksek Lisans Tezi olduğunu onaylıyorum
…………………...
Üye : Doç. Dr. Necaattin BARIŞÇI
Bilgisayar Mühendisliği Anabilim Dalı, Gazi Üniversitesi
Bu tezin, kapsam ve kalite olarak Yüksek Lisans Tezi olduğunu onaylıyorum
Tez Savunma Tarihi:
…………………...
27/05/2015
Jüri tarafından kabul edilen bu tezin Yüksek Lisans Tezi olması için gerekli şartları yerine
getirdiğini onaylıyorum.
…………………….…….
Prof. Dr. Şeref SAĞIROĞLU
Fen Bilimleri Enstitüsü Müdürü
ETİK BEYAN
Gazi Üniversitesi Fen Bilimleri Enstitüsü Tez Yazım Kurallarına uygun olarak
hazırladığım bu tez çalışmasında;

Tez içinde sunduğum verileri, bilgileri ve dokümanları akademik ve etik kurallar
çerçevesinde elde ettiğimi,

Tüm bilgi, belge, değerlendirme ve sonuçları bilimsel etik ve ahlak kurallarına uygun
olarak sunduğumu,

Tez çalışmasında yararlandığım eserlerin tümüne uygun atıfta bulunarak kaynak
gösterdiğimi,

Kullanılan verilerde herhangi bir değişiklik yapmadığımı,

Bu tezde sunduğum çalışmanın özgün olduğunu,
bildirir, aksi bir durumda aleyhime doğabilecek tüm hak kayıplarını kabullendiğimi beyan
ederim.
Hüsnü ERTEN
27/05/2015
iv
VERİ MADENCİLİĞİ TEKNİKLERİ İLE ORGAN NAKLİ İÇİN UYGUN DONÖR
ORANININ HESAPLANMASI
(Yüksek Lisans Tezi)
Hüsnü ERTEN
GAZİ ÜNİVERSİTESİ
FEN BİLİMLERİ ENSTİTÜSÜ
Mayıs 2015
ÖZET
Tezin amacı Human Leukocyte Antigen (HLA) antikor pozitifliği olan bir organ nakli
hastası için Türk toplumundaki muhtemel uygun donör oranının hesaplanmasını sağlayan
uygulama geliştirmektir. Bu uygulamada, birbiriyle akrabalık bağı bulunmayan 1192
sağlıklı bireyin 5 lokusa ait HLA doku tipi verileri ile HLA antikoru pozitif hastalar için
Calculated PRA (CPRA) değeri hesaplanmıştır. Kullanılan veriler Yıldırım Beyazıt
Üniversitesi Dışkapı Eğitim Araştırma Hastanesi Doku Tiplendirme Laboratuvarından elde
edilmiştir. Organ nakli ihtiyacı olan bir hastanın, insan lökosit antijenlerine (HLA) karşı
antikorunun olup olmadığı ve ne kadar pozitifliğinin olduğu Panel Reaktif Antikor (PRA)
yöntemi ile belirlenmektedir. PRA panelinde kullanılan antijen oranları toplumdan
topluma farklılık göstermektedir. Ülkemiz için özel olarak hazırlanmış PRA paneli
olmadığından, Türk toplumuna yakın olduğu düşünülen Avrupa toplumu için hazırlanan
paneller kullanılmaktadır. Bu durumda hasta organ bekleme listesine alındığında tam
anlamıyla doğru PRA pozitifliği yansıtmadığından hasta seçiminde yanlış yorumlara yol
açmaktadır. Çalışmada, Türk toplumundaki allel ve haplotip frekansları hesaplanmış ve bu
frekans değerleri kullanılarak CPRA değeri hesaplaması yapan uygulama geliştirilmiştir.
Elde edilen verilerden, Arlequin 3.5.1.3 uygulamasının script olarak çalıştırılabilen
arlecore versiyonunda EM algoritması ile allel ve haplotip frekansları hesaplaması
yapılmıştır. Elde edilen frekans değerleri kullanılarak da CPRA hesabı yapan bir masaüstü
ve bir de web uygulaması geliştirilmiştir. Uygulamalar Microsoft Visual Studio 2010
program geliştirme ortamında, C# programlama dili kullanılarak geliştirilmiştir. Veriler
analiz edildiğinde, toplumumuzda 19 HLA-A, 29 HLA-B, 13 HLA-C, 13 HLA-DRB1 ve 5
HLA-DQ allel türünün bulunduğu görülmüştür. 5 lokus haplotip için ise 270 farklı haplotip
görülmüştür. Hesaplama sonucunda elde edilen allel frekanslarının, 3 Avrupa ülkesinin
(Almanya, İtalya ve Fransa) frekans değerleri ile karşılaştırması yapılmıştır.
Bilim Kodu
: 902.1.019
Anahtar Kelimeler : Veri Madenciliği, Beklenti Maksimizasyonu, Organ Nakli, CPRA
Sayfa Adedi
Danışman
: 99
: Doç. Dr. Nursal ARICI
v
CALCULATION SUITABLE DONOR RATE FOR ORGAN TRANSPLANTATION
WITH DATA MINING TECHNIQUES
(M. Sc. Thesis)
Hüsnü ERTEN
GAZİ UNIVERSITY
GRADUATE SCHOOL OF NATURAL AND APPLIED SCIENCES
May 2015
ABSTRACT
The aim of the thesis is to develop an application which is providing the calculation of the
probable suitable donor rates in Turkish society for a transplant patient who has Human
Leukocyte Antigen (HLA) antibody positivity. In this application, Calculated PRA
(CPRA) values are data for patients who have positive HLA antibody, with HLA tissue
type of information belonging to 5 locus of 1192 healthy individuals without relationship
with each other. The data used are obtained from Yıldırım Beyazıt University Dışkapı
Training and Research Hospital Tissue Typing Laboratory. A patient waiting for organ
transplant has anti-HLA antibody or not and how much of its positivity is determined by
the method of Panel Reaktif Antikor (PRA). Ratio of antigen used in PRA panel varies
from society to society. As there is no PRA panel specifically designed for our country,
panels prepared for the European society, considered to be close to the Turkish
community, are used. In this case, when the patient is put in the waiting list for organ, as it
doesn’t reflect the correct PRA positivity literally, it leads to misinterpretations in patient
selection. In this study, allele and haplotype frequencies have been calculated for Turkish
society and an application that makes CPRA value has been developed by using these
frequency values. From the obtained data, allele and haplotype frequencies have been
calculated with EM algorithm in arlecore which can be operated as a script version of
Arlequin 3.5.1.3. Also using the obtained frequency values, a desktop and a web
application which make CPRA calculation have been developed. Applications have been
developed by using C# programming language in Microsoft Visual Studio 2010
programme. When this data has been analyzed, it has been realised that there are 19 HLAA, 29 HLA-B, 13 HLA-C, 13 HLA-DRB1 and 5 HLA-DQ allelle types in our society. It
has been also realised 270 different haplotypes for 5 locus haplotype. Allele frequencies
obtained from the calculation results, have been compared with the frequency of the 3
European countries (Germany, Italy and France).
Science Code
Key Words
Page Number
Supervisor
: 902.1.019
: Data mining, Expectation Maximization, Organ Transplantation,
CPRA
: 99
: Assoc. Prof. Dr. Nursal ARICI
vi
TEŞEKKÜR
Çalışmalarımın her aşamasında bilgi, destek ve önerilerini esirgemeyen, sabırlı,
cesaretlendirici ve yol gösterici bir şekilde yönlendirmelerde bulunarak gelişmeme katkı
sağlayan danışman hocam Doç. Dr. Nursal ARICI’ya, iş yoğunluğu içerisinde zaman
ayırıp yabancı olduğum tıp alanı ile ilgili karşılaştığım zorluklarda yardımcı olan ve alanla
ilgili uzman desteği sağlayan Yard. Doç. Dr. Nilnur EYERCİ’ye, verilerin temini
sürecinde anlayış ve yardımlarından dolayı Yıldırım Beyazıt Üniversitesi Dışkapı Eğitim
Araştırma Hastanesi Doku Tiplendirme Laboratuvarı çalışanlarına, çalışmalarım sırasında
sabırla beni destekleyen ve cesaretlendiren sevgili eşime en derin duygularla teşekkür
ederim.
vii
İÇİNDEKİLER
Sayfa
ÖZET ............................................................................................................
iv
ABSTRACT ...................................................................................................
v
TEŞEKKÜR ...................................................................................................
vi
İÇİNDEKİLER ...............................................................................................
vii
ÇİZELGELERİN LİSTESİ ...............................................................................
x
ŞEKİLLERİN LİSTESİ ....................................................................................
xi
SİMGELER VE KISALTMALAR ..................................................................... xiii
1. GİRİŞ .......................................................................................................
1
2. VERİ MADENCİLİĞİ ............................................................................
5
2.1. Veri Madenciliği Nedir? ......................................................................................
5
2.1.1. Veri tabanlarında bilgi keşfinin adımları ..................................................
6
2.2. Veri Madenciliği Yöntemleri ..............................................................................
12
2.2.1. Tahmin edici modeller ..............................................................................
13
2.2.2. Tanımlayıcı modeller ................................................................................
16
2.3. Veri Madenciliği Algoritmaları ...........................................................................
22
2.3.1. K-ortalamalar (K-Means) kümeleme algoritması .....................................
23
2.3.2. K-ortancalar (medoids) algoritması ..........................................................
24
2.3.3. DBSCAN(Density Based Spatial Clustering of Applications with Noise)
24
2.3.4. OPTICS (Ordering Pointsto Identify the Clustering Structure) ................
26
2.3.5. K-en yakın komşuluk ................................................................................
27
2.3.6. Destek vektör makineleri (Support vector machines) ...............................
28
2.3.7. Karar ağaçları (Decision trees)..................................................................
28
viii
Sayfa
2.3.8. Yapay sinir ağları (Neural networks) .......................................................
30
2.3.9. Genetik algoritmalar (Genetic algorithms) ...............................................
31
2.3.10. Apriori algoritması ..................................................................................
32
2.3.11. Beklenti maksimizasyonu (Expectation maximization EM) algoritması
33
2.4. Tıbbi Verilerde Veri Madenciliği Çalışmaları ....................................................
35
3. ARAŞTIRMANIN TIP ALANI İLE İLGİLİ GENEL BİLGİLER ........
45
3.1. Temel Kavramlar ve Tanımlar ............................................................................
45
3.2. Organ Transplantasyonu (Nakil) ve Atılım (Ret) ...............................................
46
3.3. HLA (Human Leukocyte Antigen) .....................................................................
48
3.3.1. Anti-HLA antikorları ................................................................................
49
3.3.2. Panel reaktif antikorlar (PRA) ..................................................................
50
3.3.3. Transplantasyon ve HLA uyumu ..............................................................
51
3.4. Popülasyon Genetiği ...........................................................................................
52
3.4.1. Hardy - Weinberg kuralı ...........................................................................
53
3.5. Haplotip Frekansı ................................................................................................
53
3.6. Literatürde HLA Çalışmaları ..............................................................................
54
4. MATERYAL VE YÖNTEM ..................................................................
57
4.1. Arlequin ...............................................................................................................
58
4.2. CPRA’nın Hesaplanması.....................................................................................
60
4.3. Uygulama ............................................................................................................
63
4.3.1. Arlecore ile frekans tahminleme uygulaması ............................................
66
4.3.2. CPRA hesaplama masaüstü uygulaması ...................................................
70
4.3.3. CPRA hesaplama web uygulaması ...........................................................
73
4.4. Bulgu ve Değerlendirmeler .................................................................................
75
ix
Sayfa
5. SONUÇ ve ÖNERİLER ..........................................................................
87
KAYNAKLAR ...............................................................................................................
89
EKLER ............................................................................................................................
95
ÖZGEÇMİŞ ....................................................................................................................
99
x
ÇİZELGELERİN LİSTESİ
Çizelge
Sayfa
Çizelge 3.1. Genotip sayıları ...........................................................................................
52
Çizelge 4.1. Fenotip frekansları ......................................................................................
60
Çizelge 4.2. Bir lokus haplotipler ve frekanslar .............................................................
61
Çizelge 4.3. İki lokus haplotipler ve frekanslar ..............................................................
62
Çizelge 4.4. Üç lokus haplotipler ve frekanslar ..............................................................
62
Çizelge 4.5. Dört lokus haplotipler ve frekanslar ...........................................................
63
Çizelge 4.6. Beş lokus haplotipler ve frekanslar.............................................................
63
Çizelge 4.7. Performans karşılaştırma sonuçları.............................................................
70
Çizelge 4.8. Vericilere ait adreslerin illere göre dağılımı ...............................................
76
Çizelge 4.9. Türkiye’de en sık görülen 5 lokus haplotipler ve frekans değerleri ...........
77
Çizelge 4.10. HLA-A allelerinin ülkelere göre frekans değerleri ...................................
78
Çizelge 4.11. HLA-B allelerinin ülkelere göre frekans değerleri ...................................
80
Çizelge 4.12. HLA-C allelerinin ülkelere göre frekans değerleri ...................................
81
Çizelge 4.13. HLA-DQB1 allelerinin ülkelere göre frekans değerleri ...........................
82
Çizelge 4.14. HLA-DRB1 allelerinin ülkelere göre frekans değerleri ...........................
83
Çizelge 4.15. Hasta antikorlarının Luminex PRA ve CPRA değerlerinin
karşılaştırılması .......................................................................................
85
xi
ŞEKİLLERİN LİSTESİ
Şekil
Sayfa
Şekil 2.1. Verilerden bilgi çıkarma .................................................................................
5
Şekil 2.2. Veri tabanlarında bilgi keşfi adımları .............................................................
8
Şekil 2.3. Verilerin temizlenmesi ...................................................................................
9
Şekil 2.4. Verilerin birleştirilmesi ..................................................................................
9
Şekil 2.5. Verilerin seçilmesi ..........................................................................................
10
Şekil 2.6. Verilerin dönüştürülmesi ...............................................................................
10
Şekil 2.7. Karışıklık matrisi, kesinlik, duyarlılık, doğruluk ve F-ölçütü ........................
11
Şekil 2.8. Bir karar ağacı modelinin görsel olarak sunulması ........................................
12
Şekil 2.9. Veri madenciliği yöntemleri ...........................................................................
13
Şekil 2.10. Karışıklık matrisi ..........................................................................................
14
Şekil 2.11. Kümeleme ....................................................................................................
17
Şekil 2.12. Kümeleme analizi yöntemleri .......................................................................
18
Şekil 2.13. Yığmacı ve bölücü yöntemler ......................................................................
19
Şekil 2.14. Sepet analizi .................................................................................................
22
Şekil 2.15. K ortalama adımları ......................................................................................
23
Şekil 2.16. Yoğunluk tabanlı kümelemede, doğrudan erişilebilir nokta, yoğunluk
erişilebilir nokta, yoğunluk bağlı nokta . .....................................................
25
Şekil 2.17. OPTICS algoritması .....................................................................................
26
Şekil 2.18. K en yakın komşuluk ....................................................................................
27
Şekil 2.19. Destek vektör makineleri ..............................................................................
28
Şekil 2.20. Yapay sinir ağları modeli..............................................................................
30
Şekil 2.21. Genetik algoritma .........................................................................................
31
Şekil 2.22. Apriori algoritması........................................................................................
32
Şekil 2.23. Gauss dağılımında iki küme örneği ..............................................................
33
xii
Şekil
Sayfa
Şekil 2.24. EM algoritması akış şeması ..........................................................................
34
Şekil 3.1. HLA kompleksinin insanın 6. kromozomunun kısa kolu üzerindeki yeri ve
kompleks içindeki genlerin pozisyonları . ......................................................
48
Şekil 3.2. PRA paneli .....................................................................................................
50
Şekil 3.3. HLA uyum örnekleri ......................................................................................
51
Şekil 4.1 Arlequin programı arayüzü ..............................................................................
58
Şekil 4.2 Arlequin proje dosya formatı ...........................................................................
59
Şekil 4.3. Tezde uygulanan veri madenciliği adımları ...................................................
64
Şekil 4.4. Uygulama akış şeması ....................................................................................
66
Şekil 4.5. Frekans hesabı için yüklenecek HLA datasının excel dosya formatı .............
67
Şekil 4.6. Frekans hesabı için yüklenecek HLA datasının csv dosya formatı ................
68
Şekil 4.7. Frekans hesaplama uygulaması ekran görüntüsü ...........................................
68
Şekil 4.8. Haplotip frekans hesaplama uygulaması akış şeması .....................................
69
Şekil 4.9. CPRA hesaplama masaüstü uygulaması ekran görüntüsü ..............................
71
Şekil 4.10. Masaüstü uygulamasında CPRA hesaplama ................................................
72
Şekil 4.11. CPRA menü içeriği .......................................................................................
72
Şekil 4.12. CPRA hesaplama web uygulaması ekran görüntüsü ....................................
73
Şekil 4.13. Web uygulamasında CPRA hesaplama ........................................................
74
Şekil 4.14. CPRA web uygulaması yönetim sayfası ekran görüntüsü ............................
75
Şekil 4.15. HLA-A allelerinin ülkelere göre frekans grafiği ..........................................
79
Şekil 4.16. HLA-B allelerinin ülkelere göre frekans grafiği ..........................................
81
Şekil 4.17. HLA-C allelerinin ülkelere göre frekans grafiği ..........................................
82
Şekil 4.18. HLA-DQB1 allelerinin ülkelere göre frekans grafiği ...................................
83
Şekil 4.19. HLA-DRB1 allelerinin ülkelere göre frekans grafiği ...................................
84
xiii
SİMGELER VE KISALTMALAR
Bu çalışmada kullanılmış simgeler ve kısaltmalar, açıklamaları ile birlikte aşağıda
sunulmuştur.
Kısaltmalar
Açıklamalar
CPRA
Calculated PRA
EM
Expectation Maximization
HLA
Human Leukocyte Antigen
MHC
Major Histocompability Complex
PRA
Panel Reaktif Antikor
1
1. GİRİŞ
Teknolojinin gelişmesine bağlı olarak, elektronik ortamda depolanan veri miktarı hızla
artmaktadır. Ancak depolanan verilerdeki hızlı artış, veriler arasındaki ilişkilerin analizini
zorlaştırmaktadır. Bu nedenle, eldeki büyük miktardaki verilerden değerli bilgiye
ulaşabilmeyi sağlayan “veri madenciliği” kavramı doğmuştur. Günümüzde ekonomiden
sağlığa pek çok alanda veri madenciliği yöntemleri kullanılmaktadır.
Tıp alanında hızlı ve doğru karar verme, insan yaşamını etkilediğinden dolayı, hayati önem
arz etmektedir. Bu nedenle tıp alanında veri madenciliği yöntemlerinin etkin bir şekilde
kullanılması sağlık personeline hızlı ve doğru karar vermelerinde kolaylık sağlamaktadır.
Organ nakli hayati önemi en yüksek tıp dallardan biridir. Sağlık Bakanlığı 7 Ocak 2015
tarihindeki organ nakli verilerine göre, Türkiye’de organ nakli bekleme listesine kayıtlı
28599 hasta bulunmaktadır. 2014 yılında 5605 donör organ bağışında bulunmuş ve 7785
organ nakli gerçekleştirilmiştir. Ancak 2014 yılında organ bekleme listesine eklenen ve
henüz organ nakli yapılmamış 13892 hasta bulunmaktadır [1].
Organ bekleyen hasta sayısının çok, buna karşılık donör sayısının az olması uygun organ
bulunduğunda, organ nakli için hangi hastaya öncelik verileceğini önemli kılmaktadır.
Önceliğin belirlenmesinde, nakil için uygun hastalar içerisinde Panel Reaktif Antikor
(PRA) yüzde değerinin büyüklüğüne bakılır.
Organ nakli ihtiyacı olan bir hastanın, insan lökosit antijenlerine (Human Leukocyte
Antigen-HLA) karşı antikor oluşturup oluşturmadığı ve ne kadar pozifliğinin olduğu PRA
yöntemi ile belirlenmektedir. PRA, paneldeki donör hücrelerinin pozitiflik yüzdesi olarak
ifade edilir [2]. Şu anda kullanılmakta olan yöntemler ile ancak panel içerisindeki
antijenlerin oranına göre bir PRA pozitiflik değeri tespit edilebilmektedir. Bu nedenle
panel içerisindeki antijen oranlarının toplumun antijen oranları ile uygun olmadığı
durumlarda gerçekçi bir PRA değeri elde edilememiş olur. Ülkemiz için özel olarak
hazırlanmış PRA paneli olmadığından, Türk toplumuna yakın olduğu düşünülen Avrupa
toplumu için hazırlanan paneller kullanılmaktadır. Bu durumda hasta organ bekleme
listesine alındığında tam anlamıyla doğru PRA pozitifliği yansıtmadığından hasta
2
seçiminde yanlış yorumlara yol açabilmektedir [2].
Bu tez çalışmasının amacı; Human Leukocyte Antigen (HLA) antikor pozitifliği olan bir
organ nakli hastası için Türk toplumundaki muhtemel uygun donör oranının
hesaplanmasını sağlayan uygulama geliştirmektir. Bu uygulama ile doku tiplendirme
laboratuvarından elde edilen HLA doku tipi verileri kullanılarak HLA antikoru pozitif
hastalarda CPRA değeri hesaplanmaktadır.
Araştırmada, Türk toplumundaki allel ve haplotip frekansları hesaplanmış ve bu frekans
değerleri kullanılarak Calculated PRA (CPRA) değeri hesaplaması yapan uygulama
geliştirilmiştir. Her geçen gün artan organ nakil sayıları göz önünde bulundurulduğunda,
bu uygulama sayesinde, organ nakli bekleme listesindeki pozitif HLA antikoru bulunan
hastalar için popülasyondaki uygun donör oranı belirlenebilecektir. Böylece hem
klinisyenler hem de doku tiplendirme laboratuvarları bu uygulamayı kullanarak organ
nakillerinde hastanın PRA yüzdesi hakkında daha doğru ve daha kolay yorum
yapabileceklerinden çalışma önemli görülmüştür.
Araştırmanın problem cümlesini “Veri madenciliği teknikleri ile organ nakli için uygun
donör oranının hesaplanması nasıl yapılır?” sorusu oluşturmaktadır.
HLA bilgileri kullanılan kişilerin adres bilgileri göz önünde bulundurulduğunda
Türkiye’nin her bölgesinden gelen veriler kullanıldığından hesaplanan frekans değerlerinin
tüm toplumu yansıtabileceği varsayılmıştır.
Araştırma, Ankara ilindeki doku tiplendirme ruhsatı olan bir sağlık merkezinden elde
edilen, 2012-2014 yılları arasında doku tiplendirmesi yapılan, birbiriyle akrabalık bağı
bulunmayan 1192 sağlıklı bireye ait HLA doku tipi verileri ile sınırlıdır.
Bu tez çalışması beş bölümden oluşmaktadır. İlk bölümde, tezin amacı, önemi,
varsayımları, sınırlılıkları ve kapsamından bahsedilmiştir.
İkinci bölümde, veri madenciliği ile ilgili temel kavram ve tanımlar belirtilmiştir. Veri
madenciliği süreçleri, yöntemleri ve kullanım alanları, veri madenciliğinde sıkça kullanılan
3
güncel algoritmalar açıklanmıştır. Son olarak Türkiye’de tıbbi verilerle yapılan veri
madenciliği çalışmalarından bahsedilmiştir.
Üçüncü bölümde, çalışmanın tıp alanı ile ilgili tanımlar, organ nakli ve organ naklinin
temel kavramı olan HLA hakkında genel bilgiler verilmiştir. Gen frekansı hesaplamanın
temelini oluşturan popülasyon genetiği ve haplotip frekansının hesaplanması konuları
açıklanmış ve literatürde HLA ile ilgili yapılan çalışma özetleri sunulmuştur.
Dördüncü bölümde, tez çalışması kapsamında frekans hesaplama için kullanılan arlequin
programı ve CPRA hesaplama yöntemi hakkında bilgiler verildikten sonra, “Uygulama”
başlığı altında; uygulanan veri madenciliği adımları ve geliştirilen uygulamalar
anlatılmıştır. Son olarak elde edilen bulgular değerlendirilmiştir.
Son bölümde ise tez çalışması sonucunda elde edilen kazanımlar ve öneriler belirtilmiş ve
çalışma hakkında genel bir değerlendirme yapılmıştır.
4
5
2. VERİ MADENCİLİĞİ
2.1. Veri Madenciliği Nedir?
Günümüz teknolojisinin gelişmesine bağlı olarak, elektronik ortamda depolanan veri
miktarı da hızla artmaktadır. Ancak depolanan verilerin hızla artması, veriler arasındaki
ilişkilerin pratik olarak analizini zorlaştırmaktadır. Bu zorluktan dolayı, büyük miktardaki
veriler arasından, gelecek ile ilgili tahmin yapabilmeyi sağlayabilecek bağıntıların
bulunması, analizlerin yapılması ve karar verme süreçlerinde bilgisayarların kullanılması
ihtiyacı ve fikri doğmuştur. Bunun sonucunda, çeşitli matematiksel ve istatistiksel
hesaplamalara dayanan algoritmalar geliştirilmiş ve “Veri Madenciliği” kavramı
doğmuştur [3].
Şekil 2.1. Verilerden bilgi çıkarma [4]
Veri madenciliği; veri tabanı ve veri ambarı teknolojileri, istatistik, makine öğrenmesi,
yüksek performanslı hesaplama, örüntü tanıma, sinir ağları, veri görselleştirme, bilgi
çıkarımı, görüntü ve sinyal işleme, mekânsal ve zamansal veri analizi gibi farklı
disiplinlerin birleşiminden oluşur [4].
Veri Madenciliği, verilerin içindeki gizli kalmış desenlerin, ilişkilerin, değişimlerin,
düzensizliklerin, kuralların ve istatistiksel olarak önemli olan yapıların yarı otomatik
6
olarak keşfedilmesi işlemidir. Başka bir deyişle, veri madenciliğinin amacı ham veriyi
anlamlı, etkin ve yararlı olan bilgiye dönüştürmektir [5].
Veri madenciliği, büyük miktardaki verilerin madenlenerek değerli olan bilgiye ulaşılması
olarak ta tanımlanabilmektedir. Veri madenciliği deyiminin literatürde farklı kullanımları
da bulunmaktadır. Bunlardan bazıları; Veri Tabanlarında Bilgi Keşfi (Knowledge
Discovery in Database, KDD), Bilgi çıkarımı (Knowledge Extraction), Veri ve Örüntü
Analizi (Data/Pattern Anaysis), Veri Arkeolojisi (Data Archeology), Veri Eşeleme (Data
Dredging) vb.
Bu tanımlardan en çok kullanılanı ise Veri Tabanlarında Bilgi Keşfi (KDD)’dir. Veri
madenciliği de aslında Veri Tabanlarında Bilgi Keşfi sürecini oluşturan aşamalar içindeki
en önemli adımı oluşturmaktadır [6].
2.1.1. Veri tabanlarında bilgi keşfinin adımları
Geleneksel sorgu veya raporlama araçlarının büyük veri yığınları karşısında yetersiz
kalması sonucu yeni arayışlara gidilmesiyle Veri Tabanlarında Bilgi Keşfi (VTBK)
kavramı ortaya çıkmıştır[4]. Toplanan veriler içerisinden gizli kalmış bilgilerin çıkarılması
süreci tek başına basit bir işlem değildir. VTBK, verilerin önişlemden geçirilmesinden,
modelin oluşturulup değerlendirilmesine kadar birçok adımdan oluşan bir süreçtir.
Veri Tabanlarında Bilgi Keşfi Süreci birbirini takip eden aşağıdaki adımlardan oluşur:
1. Verilerin Temizlenmesi (Tutarsız verilerin çıkarılması)
2. Verilerin Bütünleştirilmesi (Farklı kaynaklardan elde edilen verilerin bir araya
getirilmesi)
3. Verilerin Seçilmesi (Veri tabanından analiz yapılacak verilerin seçilmesi)
4. Verilerin Dönüştürülmesi (Verilerin madencilik tekniklerinin gerektirdiği uygun yapıya
getirilmesi)
5. Veri Madenciliği (Veri desenleri elde etmek için akıllı tekniklerin kullanıldığı temel
işlem)
6. Model Değerlendirme (İlginçlik ölçütlerine göre gerçek ilginç desenlerin tanımlanması)
7. Bilgi Sunumu (Uygulama sonuçlarının görselleştirme ve betimleme teknikleri
yardımıyla kullanıcıya sunumu) [4]
7
Veriden bilgiye ulaşma aşamalarına başlamadan önce, uygulama alanının doğru
belirlemesi gerekir. Daha sonra bu uygulama alanının amacına uygun veriler toplanarak
veri kümesi oluşturmalıdır. Veri kümesi oluşturulduktan sonra sırasıyla verinin hatalı
verilerden ayıklanması ve verinin bir takım önişlemlerden geçirilmesi gerekir. Veri
kümesinin hatalı verilerden temizlenmesi, veri madenciliği sonucunda elde edilecek
bilginin doğruluğunu artıracaktır. Çünkü hatalı verilerden doğru sonuçlar çıkarılamaz.
Temizleme ve ayıklama işleminden sonra farklı kaynaklardan elde edilen veriler tek yerde
birleştirilmelidir. Uygulamanın amacına göre verilerin ilgili alanları seçilir ve gereksiz
alanlar atılır. Veriler üzerinde gerekli alanlarda veri dönüşümü gerçekleştirilir. Bu
işlemlerden sonra elimizdeki veri üzerinde yapılacak veri madenciliği için yine uygulama
amacımıza uygun veri madenciliği yöntemi ve bu yöntemin uygulanmasında kullanılacak
algoritma belirlenir. Ön işlemlerden geçen veriler, seçilen veri madenciliği algoritmasına
girdi olarak verilir ve model oluşturulur. Son olarak ta elde edilen modelin değerlendirmesi
yapılarak, çeşitli yöntemlerle modelin kullanıcıya sunumu yapılır.
8
Şekil 2.2. Veri tabanlarında bilgi keşfi adımları [4]
9
Verilerin temizlenmesi
Veri tabanında yer alan tutarsız ve hatalı verilere gürültü denir. Gürültülü verileri
temizlemek için; eksik değer içeren kayıtlar silinebilir, kayıp değerlerin yerine sabit bir
değer veya diğer verilerin ortalaması hesaplanarak kayıp veriler yerine bu değer yazılabilir
ya da verilere uygun bir tahmin (karar ağacı, regresyon) yapılarak eksik veri yerine
kullanılabilir [7]. Ayrıca bu aşamada kullanıcı kaynaklı giriş hataları da düzeltilir.
Şekil 2.3. Verilerin temizlenmesi [8]
Verilerin bütünleştirilmesi
Veri madenciliğinde toplanan veriler genellikle farklı kaynaklarda bulunmaktadır. Bu
verilerin tek bir çatı altında toplanması gerekir. Ancak veri madenciliğinde kullanılacak
verilerin farklı kaynaklardan toplanması, doğal olarak veri uyumsuzluklarına neden
olmaktadır [9]. Farklı kaynaklardaki verilerde, verilerin farklı zamanlara ait olmaları,
güncelleme hataları, ölçü birimi, format, kodlama ve varsayım farklılıkları olabileceğinden
veriler birleştirilirken bu durumlara dikkat edilmelidir.
Şekil 2.4. Verilerin birleştirilmesi [8]
10
Örneğin bir tabloda hasta için “hastanın_adı_soyadı” bilgisi tutulurken diğer bir tabloda
“hasta_kayıt_numarası” bilgisi tutulabilir ya da cinsiyet bilgisi bir tabloda E/K ile ifade
edilirken diğer tabloda 1/0 şeklinde ifade edilebilmektedir.
Bu nedenle burada çok dikkatli ve titiz davranmak gerekir. Bu aşamada yapılacak bir hata,
ileriki aşamalarda daha büyük sorunlara neden olacaktır. Doğru sonuç alınacak veri
madenciliği çalışmaları ancak doğru verilerin üzerine kurulabileceği için, toplanan
verilerin ne ölçüde uyumlu olduğu çok iyi değerlendirilmelidir [9].
Verilerin seçilmesi
Toplanan veriler içinde, yapılacak çalışma için gereksiz olan veriler bulunabilmektedir.
Yapılacak uygulamanın amacına göre anlamsız olan gereksiz veriler, hem diğer verilerin
modeldeki ağırlığını azaltacak, hem de model oluşturma zamanının artmasına sebep
olacaktır. Bu yüzden uygulama için anlamlı olan alanlar seçilmelidir.
Şekil 2.5. Verilerin seçilmesi [8]
Verilerin dönüştürülmesi
Modelin gücünü ve etkinliğini artırmak için verilerin uygun formata dönüştürülmesi olan
bu adımda, veriler üzerinde düzeltme, birleştirme, genelleştirme ve normalleştirme gibi
işlemler yapılır [4]. Sürekli bir verinin sayısal bir aralığa veya kategorik bir verinin sayısal
bir değere dönüştürülmesi örnek olarak verilebilir.
Şekil 2.6. Verilerin dönüştürülmesi [8]
11
Veri madenciliği
Veriden bilgi keşfinin en önemli adımı, veri madenciliği işlemidir. Çünkü hangi yöntem ve
algoritmanın bize daha iyi performans vereceğinin önceden kestirilmesi zordur. Bu nedenle
uygulama amacının çok iyi kavranması ve ona uygun veri madenciliği yönteminin
uygulanması gerekmektedir. Sınıflandırma, kümeleme, birliktelik ilişkisi ve regresyon
analizi olarak gruplandırabileceğimiz veri madenciliğinin çeşitli model oluşturma
yöntemleri vardır. Eğer bir sınıflama işlemi yapılacaksa, sınıflama yöntemlerinden biri ya
da birkaçı seçilmelidir.
Probleme en uygun modelin bulunabilmesi için, çok sayıda modelin denenmesi
gerekebilir. Bu nedenle, veri madenciliği, en iyi olduğu düşünülen modele varıncaya kadar
yinelenen bir süreçtir [6].
Model değerlendirme
Önişlemden geçirilmiş veriler üzerinde uygun algoritmaların çalıştırılmasıyla elde edilen
sonuçlar ile modelin kalitesi ve geçerliliği değerlendirilir. Eğer bir sınıflandırma modeli
oluşturulmuşsa, modelin değerlendirilmesinde doğruluk (accuracy) değeri, duyarlılık
(recall) ve kesinlik (presicion) değerleri ya da bu iki değerin birleşiminden oluşan F-ölçütü
(F-skore) değeri kullanılır. Bu terimler bölüm 2.2.1 tahmin edici modeller başlığı altında
açıklanacaktır.
Şekil 2.7. Karışıklık matrisi, kesinlik, duyarlılık, doğruluk ve F-ölçütü
Veriler hazırlandıktan sonra, model oluşturmaya geçmeden önce, verinin bir kısmı modelin
öğrenilmesi, diğer kısmı ise modelin geçerliliğinin test edilmesi için ayrılır. Bu nedenle
12
sınıflandırma yönteminde, verilerin bir kısmı test verisi olarak ayrılır ve bu veriler modelin
doğruluğunu hesaplama için kullanılır.
Eğer kabul edilebilir bir hata değerine ulaşılamamışsa, kabul edilebilir hata değeri elde
edilene kadar algoritma tekrar tekrar çalıştırılır.
Bilgi sunumu
Elde edilen modelin, uygulamanın amacına uygunluğu ve geçerliliği kontrol eldir.
Geçerliliği kabul edilen bilgi veya model başlangıçta belirtilen amaca uygun olarak
kullanılır.
Şekil 2.8. Bir karar ağacı modelinin görsel olarak sunulması
2.2. Veri Madenciliği Yöntemleri
Ham verinin bilgiye dönüşümünü sağlayan veri madenciliği modelleri, tahmin edici
(predictive) ve tanımlayıcı (descriptive) modeller olarak iki ana başlık altında toplanır.
13
Şekil 2.9. Veri madenciliği yöntemleri
2.2.1. Tahmin edici modeller
Tahmin edici modeller sonuçları bilinen verilerden hareket ederek bir model geliştirilmesi
ve bu modelden yararlanılarak, sonucu bilinmeyen veriler için sonuç tahminini
amaçlamaktadır [10]. Tahmin edici modellerde elde edilebilecek sınıflar bellidir.
Örneğin bir bankaya kredi başvurusunda bulunan kişilerin mali özelliklerinin yanında
demografik özelliklerine ait bir takım kişisel bilgileri de tutulur. Müşterilere ait demografik
özellikler bağımsız değişkenler grubunu oluştururken, mali özellikleri ise bağımlı değişken
değerleridir. Önceden toplanan bu verilerden yola çıkarak, gelecek dönemlerde
müşterilerin özelliklerine göre kredi risk tahmin değerleri analiz edilebilir.
Tahmin edilen sonuçların kalitesi (ne kadar iyi tahmin edildiği) tahmin kadar önemlidir.
Çoğunlukla tahmin edilen sonuç ile birlikte, bu sonucun kalitesine yönelik; güvenlik
aralığı, olasılığı, vb. değerleri belirlenir [9]. Modellerin değerlendirilmesinde doğruluk
oranı, hata oranı, duyarlılık, kesinlik ve F-ölçütü gibi değerler kullanılır. Bu değerlerin
14
hangisinin ne zaman kullanılacağı uygulamanın kullanım amacına göre değişmektedir. Bu
değerlerin tanımları ve formülleri aşağıda verilmiştir.
Şekil 2.10. Karışıklık matrisi
Doğruluk Oranı: Model başarımının ölçülmesinde kullanılan en popüler ve basit yöntem,
modele ait doğruluk oranıdır. Doğru sınıflandırılmış örnek sayısının (TP+TN), toplam
örnek sayısına (TP+TN+FP+FN) oranıdır.
TP+TN
𝐷𝑜ğ𝑟𝑢𝑙𝑢𝑘 𝑂𝑟𝑎𝑛𝚤 = 𝑇𝑃+𝐹𝑃+𝑇𝑁+𝐹𝑁
(2.1)
Hata Oranı: Yanlış sınıflandırılmış örnek sayısının (FP+FN), toplam örnek sayısına
(TP+TN+FP+FN) oranıdır. Diğer bir ifadeyle doğruluk oranı değerini 1’e tamlayanıdır (1Doğruluk Oranı).
FP+FN
𝐻𝑎𝑡𝑎 𝑂𝑟𝑎𝑛𝚤 = 𝑇𝑃+𝐹𝑃+𝑇𝑁+𝐹𝑁
(2.2)
Kesinlik: Doğru olarak tahminlenmiş pozitif örnek sayısının, pozitif olarak tahminlenmiş
tüm örnek sayısına oranıdır. Yani pozitif olarak tahmin edilmiş örneklerden yüzde kaçı
gerçekten pozitiftir.
Kesinlik =
TP
𝑇𝑃+𝐹𝑃
(2.3)
Duyarlılık: Doğru tahminlenmiş pozitif örnek sayısının toplam pozitif örnek sayısına
oranıdır. Pozitif örneklerin yüzde kaçı doğru olarak tahmin edilebilmiştir.
15
TP
Duyarlılık = 𝑇𝑃+𝐹𝑁
(2.4)
F-ölçütü: Kesinlik ve duyarlılık ölçütlerinin beraber değerlendirerek daha doğru sonuç
elde etmek için F-ölçütü tanımlanmıştır. F-ölçütü, kesinlik ve duyarlılığın harmonik
ortalamasıdır.
F − ölçütü =
2∗Kesinlik∗Duyarlılık
𝐾𝑒𝑠𝑖𝑛𝑙𝑖𝑘+𝐷𝑢𝑦𝑎𝑟𝑙𝚤𝑙𝚤𝑘
=
2∗TP
2∗𝑇𝑃+𝐹𝑁+𝐹𝑃
(2.5)
Tahmin edici modeller kategorik bir değer (yüksek, orta, düşük gibi) veren sınıflandırma
ve sürekli bir değer veren regresyon yöntemleri olarak iki alt gruba ayrılır.
Sınıflandırma
Sınıflandırma yöntemi, veri madenciliğinde en sık kullanılan yöntemlerden biridir.
Sınıflandırma, verilerin öngörülebilir bir özniteliğe göre herhangi bir kategoriye atanması
anlamına gelir [11]. Kategorisi belli olan eğitim verileri ile sınıflandırma modeli
oluşturulur. Daha sonra oluşturulan bu model ile kategorisi belli olmayan verilerin kategori
değeri tahmin edilir. Sınıflandırmada, sınıflar evet/hayır gibi iki kategori olabileceği gibi
birden çok kategori de olabilir.
Örneğin hastalık teşhis karar destek sisteminde, sonuçları (hastalık tanısı) belli olan hasta
verileri kullanılarak bir hastalık sınıflandırma modeli oluşturulur. Yeni gelen her hasta için,
kişinin şikâyetleri ve klinik bilgileri kullanılarak bu model yardımı ile kişi hakkında, ne
hastası olduğuna dair bir sınıflandırma yapılır.
Sınıflandırmada, tahmin edilen sonucun yanında modelin başarım değerinin de
belirlenmesi gerekir. Bu nedenle genellikle veri kümesi, model oluşturmaya geçmeden
önce, eğitim ve test kümesi olarak iki gruba ayrılır. Eğitim kümesi modeli
oluşturulmasında, test kümesi modelin doğrulanmasında kullanılır.
Sınıflandırmada kullanılan başlıca teknikler, Karar Ağaçları (Decision Trees), Yapay Sinir
Ağları (Neural Networks), Bayes Sınıflandırması (Bayesian Classification), Destek Vektör
16
Makinaları(Support Vector Machines), K-En Yakın Komşu(Nearest Neighbour),Bulanık
Mantık (Fuzzy Logic) ve Genetik Algoritmalardır [9].
Regresyon ve zaman serileri analizi
Regresyon analizi, bir bağımlı değişkenin bir veya birden fazla bağımsız değişkenle
arasındaki ilişkinin matematiksel bir fonksiyon şeklinde yazılması ve bu fonksiyon
yardımıyla bağımlı değişkenin değerinin tahmin edilmesidir [8].
İki ya da daha çok değişken arasındaki doğrusal ilişkinin fonksiyonel şeklini, biri bağımlı
diğeri bağımsız değişken olarak bir doğru denklemi olarak gösteren regresyon analizi
değişkenlerden birinin değeri bilindiğinde diğeri hakkında kestirim yapılmasını
sağlamaktadır [10].
Zaman serisi, bir değişkene ait zamanın belli düzenli periyotlarında ortaya çıkan nümerik
verilerin kronolojik dizilimi ile oluşan veri setleridir [12]. Zaman serileri analizi ise,
tahmini yapılacak değişkenin geçmişteki durumunun çeşitli yöntemlerle incelenmesi ve
elde edilen bilgilerden yararlanılarak gelecekteki değerlerinin tahmin edilmesi esasına
dayanır. Değişkenlerin bir zaman aralığı üzerindeki değerlerinin incelenmesi ve söz
konusu değerlerin farklı değişkenler için birbirleriyle karşılaştırılması şeklinde de
tanımlanabilir [10].
Örnek olarak ülkemizde 2000-2010 yılları arasındaki ekonomik büyüme ve istihdam
arasındaki ilişkinin incelenmesi verilebilir.
2.2.2. Tanımlayıcı modeller
Tanımlayıcı modellerin amacı, karar vermeye rehberlik etmede kullanılabilecek mevcut
verinin tanınması, keşfedilmesi ve içerdiği örüntülerin tanımlanmasıdır. Genelde sepet
analizi olarak geçen, bir alışveriş sepetindeki ürünlerin arasındaki ilişkiyi ortaya çıkaran ve
bir elektronik alışveriş sitesinde bir ürün seçildiğinde, müşteriye başka ürünleri de
önermesi tanımlayıcı modeller ile yapılan veri madenciliğine örnek olarak verilebilir.
17
Tanımlayıcı modeller, nesneleri benzer özelliklerine göre gruplandırma temeline dayanan
kümeleme ve nesnelerin birbirileri ile olan ilişkilerini ortaya çıkaran birliktelik analizi
olarak iki alt bölüme ayrılır.
Kümeleme analizi
Veriyi benzer özellikliler aynı gruba girecek şekilde, sınıflara veya kümelere ayırma
işlemidir. Ancak kümeleme yönteminde sınıflandırma yapılmamaktadır. Çünkü kümeleme
fonksiyonunda önceden tanımlanmış girdiler ve örnekler yoktur. Veriler kendi içlerindeki
benzerliklere göre gruplandırılırlar [9]. Kümeleme analizindeki temel amaç, nesnelerin
grup içi benzerliklerinin fazla, gruplar arası benzerlikleri ise az (gruplar arası farkları fazla)
olan gruplara (kümelere) ayrılmasıdır. Başka bir ifadeyle veriyi birbirine benzeyen
elemanlardan oluşan sınıflara (kümelere) ayırarak, heterojen bir veri grubundan, homojen
alt veri grupları elde edilmesi işlemidir [13].
Şekil 2.11. Kümeleme [11]
Geniş veri yığınları için tanımlayıcı veriler belirleyerek, işlenecek veri hacmini daraltmak,
veri yığınlarındaki doğal kümeleri ortaya çıkararak aynı kümede olması gereken verileri
belirlemek, belirlenmiş kümelerin dışında kalan istisna durumları tespit etmek,
kümelemenin temel hedefleri arasında sayılabilir [9].
Biyoenformatik başta olmak üzere, tıbbi görüntüleme teknikleri, ürün konumlandırma,
yeni ürün geliştirme, bilgi çıkarım gibi geniş bir alanda kümeleme yöntemi
kullanılmaktadır.
18
Kümeleme
Yöntemleri
Hiyerarşik
Kümeleme
Yöntemleri
Yığmacı
ROCK
Bölümleme
Yöntemleri
Bölücü
BIRCH
Yoğunluk
Tabanlı
Yöntemler
Izgara (Grid)
Tabanlı
Yöntemler
Model Tabanlı
Yöntemler
K ortalama
Algoritması
DBSCAN
STING
COBWEB
Bulanık C
Ortalama
DENCLUE
STING+
EM
OPTICS
WaveCluster
SOMs
CLIQUE
GDILC
Şekil 2.12. Kümeleme analizi yöntemleri
Kümeleme analiz yöntemleri; Hiyerarşik Yöntemler (Hierarchical Methods), Bölümleme
Yöntemleri (Partitioning Methods), Yoğunluk Tabanlı Yöntemler (Density-Based
Methods), Izgara Tabanlı Yöntemler (Grid-Based Methods) ve Model Tabanlı Yöntemler
(Model-Based Methods) olarak alt gruplara ayrılır [4].
Hiyerarşik kümeleme yöntemleri
Hiyerarşik yöntemde veriler hiyerarşik olarak gruplara ayrılırlar. Hiyerarşik yöntem
verilerin nasıl ayrıştırıldığına göre, yığmacı (agglomerative) ve bölücü (divisive)
yöntemler olarak ikiye ayrılır.
19
Şekil 2.13. Yığmacı ve bölücü yöntemler [4]
Yığmacı yöntem aşağıdan yukarı hiyerarşik yöntem olarak ta bilinir. Yığmacı yöntemde
veri setinin her bir elemanı ayrı bir grup olarak belirlenir ve grup sayısı istenilin değere
düşünceye kadar en yakın gruplar birleştirilerek grup sayısı azaltılır.
Bölücü yöntem yukarıdan aşağı hiyerarşik yöntem olarak ta bilinir. Bölücü yöntemde ise
başlangıçta veri seti tek grup olarak belirlenir. Grup sayısı istenilen değere ulaşıncaya
kadar, grubun merkezine en uzak eleman gruptan çıkarılıp yeni gruba dâhil edilir.
Bölümleme yöntemleri
k <= n olması şartıyla n adet nesnesi olan veri seti k adet bölüme (gruba) ayrılır. Veriler
bölümlenirken uyulması gereken temel iki kural vardır. Birincisi grubun en az bir adet
elemanı olmalı, ikincisi ise her eleman sadece bir gruba dâhil olmalıdır. İkinci kural
bulanık mantık için daha esnektir (Bulanık mantıkta bir eleman birden fazla kümeye belli
oranlarda dâhil olabilir) [4].
Başlangıçta belirlenen k değeri kadar grup başlangıç noktası belirlenir ve grupların daha
iyi şekilde gruplana bilmesi için yinelemeli olarak çalışır. Grupların iyi yapılmasındaki
kural grup içi elemanların birbirine yakın, gruplar arası mesafenin de uzak olmasıdır.
20
Gruplar arası mesafenin belirlenmesinde kullanılan çeşitli yaklaşımlar vardır. En popüler
sezgisel (heuristic) yöntemler olan K ortalama ve K ortanca algoritmaları bölümlemeli
yöntemlere örnek olarak verilebilir. Bu iki yöntem küçük veri setleri için iyi çalışırken
büyük veri setleri için yöntemlerin geliştirilmeleri gerekir.
Yoğunluk tabanlı yöntemler
Bölümleme tabanlı kümeleme yöntemleri, nesneler arasındaki mesafeye göre bölümleme
yaparlar. Bu nedenle küresel şekilli kümeleri bulmada iyi olmalarına karşın karmaşık
şekilli grupları bulamazlar.
Bu problemi çözmek için yoğunluk tabanlı kümeleme yöntemleri geliştirilmiştir. Yoğunluk
tabanlı yöntemde bir nesnenin bir kümeye dâhil edilebilmesi için eşik değer olarak
belirlenen mesafe içinde minimum komşuluk değerini sağlaması gerekir [4].
DBSCAN, OPTICS ve DENCLUE algoritmaları yoğunluk tabanlı yöntemlere örnek olarak
verilebilir.
Izgara tabanlı yöntemler
Bu yöntem, veri uzayını incelemek için sonlu sayıda kare şeklinde hücrelerden oluşan
ızgara yapıları kullanır. Kullandıkları ızgara yapısından dolayı veri tabanındaki nesne
sayısından bağımsızdır. Izgara tabanlı yöntemlerde performans, ızgarada kullandıkları kare
sayısı ile ters orantılıdır, kare sayısı arttıkça hesaplama zamanı artacağından performans
düşer. Izgara tabanlı yöntemlerin en önemli avantajları, işlem süresi nesne sayısından
bağımsız olduğu için hızlı ve çabuk sonuca ulaşabilmeleridir [4].
STING, CLIQUE ve Wave Cluster algoritmaları ızgara tabanlı yöntemlere örnek olarak
verilebilir.
Model tabanlı yöntemler
Model tabanlı yöntemler eldeki verileri bir matematiksel model ile ifade etmeye çalışırlar.
Bu yöntemler verilerin belirli bazı olasılık teorilerinin karışımından oluşan bir mantık ile
21
veri uzayına yerleştiklerini farz ederler. Model tabanlı metotlar iki temel yaklaşımı
kullanırlar. Bunlar İstatistik yaklaşım ve yapay zekâ yaklaşımıdır [14].
İstatistik yaklaşım diğer tüm kümeleme modellerinde olduğu gibi sadece kümelenmeleri
ortaya çıkarmakla kalmaz, bunun yanında kümelerin genel karakterleri ile ilgili bilgiler de
verir. Bu işleme kavramsal kümeleme denir.
Yapay zekâ yaklaşımında her bir küme bir örnek gibi temsil edilir. Veri tabanına yeni
eklenen nesneler belirli bir uzaklık ölçümü sonucunda hangi örneğe benziyorlarsa o
kümeye dâhil edilirler [4].
Birliktelik kuralları
Birliktelik kuralları, geçmiş veriler içerisindeki birlikteliklerin tespit edilerek veriler
içerisinde birlikte gerçekleşmesi muhtemel olayların ortaya konulması ve geleceğe yönelik
tahminde bulunulmasını destekleyen bir yaklaşımdır. Birliktelik analizinin iki temel amacı
vardır; ilki veri seti içerisindeki sık geçen öğe kümelerini tespit etmek, ikincisi ise
birliktelik kurallarını ortaya çıkarmaktır [11]. Literatürde “sepet analizi” olarak da
adlandırılan söz konusu teknik, işlemler arasındaki korelasyonları ortaya çıkarmada
kullanılır.
Örneğin müşterilerin yaptıkları alışverişlerdeki ürünler arasındaki birliktelikleri tespit
ederek müşterilerin satın alma davranışlarını konu edinen söz konusu kurallar, yöneticilere
daha etkili stratejiler geliştirme olanakları sağlar.
22
Şekil 2.14. Sepet analizi [4]
Market satış analizleri, müşteri alım alışkanlıkları, hangi ürünlerin indirime konacağı,
katalogların nasıl tasarlanacağı, raftaki ürünlerin nasıl dizileceği vb. problemlerde
kullanılan birliktelik kuralları önemli kararlar alınmasına destek sağlamaktadır.
Herhangi bir birliktelik kuralında destek (support) ve güven (confidence) değeri olmak
üzere iki önemli kavram vardır. Destek değeri, X ve Y nesnelerinin birlikte bulunduğu
kayıt sayısının, veri setindeki tüm kayıt sayısına oranı olarak hesaplanır. Güven değeri ise,
X ve Y nesnelerinin birlikte bulunduğu kayıt sayısının, X nesnesinin (veya nesnelerinin)
bulunduğu kayıt sayısına oranıdır. Destek ve güven değerleri 0 ile 1 arasında değişir ve
değerler ne kadar büyükse, nesneler arasında o kadar güçlü ilişki olduğunu gösterirler.
Dolayısıyla, ilişkinin önemli olması için her iki değerin de olabildiğince yüksek olması
gereklidir [15].
2.3. Veri Madenciliği Algoritmaları
Veri Madenciliği ile ilgili kullanılan pek çok yöntemin yanına hemen her geçen gün yeni
yöntem ve algoritmalar eklenmektedir. Bunlardan bir kısmı onlarca yıldır kullanılan klasik
teknikler diyebileceğimiz ağırlıklı olarak istatistiksel yöntemlerdir. Diğer yöntemler de
genellikle istatistiği temel alan ama daha çok makine öğrenimi ve yapay zekâ destekli yeni
23
nesil yöntemlerdir. Son zamanlarda, birden fazla tekniği içine alan hibrid (karma)
yöntemler ve zaman serilerine dayalı yöntemlerden de veri madenciliği yöntemi olarak
faydalanılmaktadır.
Kısaca
bilgi
keşfine
yarayan
her
yöntem
veri
madenciliği
yöntemi
olarak
kullanılabilmektedir. Aşağıda yaygın kullanıma sahip başlıca veri madenciliği yöntemleri
ve kısa tanımları verilmektedir.
2.3.1. K-ortalamalar (K-Means) kümeleme algoritması
Segmentasyon, gruplama ve sınıflandırma yöntemidir. N adet nesnenin, K gruba ayrılması
temeline dayanır. Sınıf aralıkları belli olmadığında; bir benzerlik veya farklılık ölçütüne
(metriğine) bağlı olarak, grup içinde homojen, gruplar arasında heterojen K adet küme
oluşturur.
Şekil 2.15. K ortalama adımları
Başlangıçta belirtilen k sayısı kadar rasgele grup merkezi belirlenir. Daha sonra veri
setindeki her eleman tek tek gezilerek, her eleman en yakın kümeye dâhil edilir. K
ortalamalar yönteminde grup içi elemanların ortalaması grup merkezi olarak güncellenir.
Küme merkezleri güncellendikten sonra, veri setindeki her eleman yeniden bir gruba dâhil
edilerek gezilir. Küme merkezleri değişmeden (sabit) kalıncaya kadar bu adımlar
24
tekrarlanır. Bu yineleme işlemleri çok uzun sürecekmiş gibi görünse de birkaç adımda
küme merkezleri sabitlenmektedir [4].
2.3.2. K-ortancalar (medoids) algoritması
K-ortancalar algoritması k-ortalamalar algoritmasının gürültü ve istisna verilere aşırı
duyarlılığını gidermek amacıyla geliştirilmiştir.
K-ortancalar algoritması kümeyi temsil edecek noktayı bulmak için küme elemanlarının
ortalamasını almak yerine kümenin en merkez noktasındaki elemanı yeni küme merkezi
olarak alır. Böylece istisna verilerin küme merkezini kenarlara doğru kaydırması problemi
engellenmiş olur.
K-medoids algoritmasının birçok farklı türevi bulunmaktadır. Bunlardan biri de, PAM
(Partitioning Around Medoids) algoritmasıdır. PAM, öncelikle k-means algoritmasında
olduğu gibi rastgele seçtiği k adet nesneyi küme merkezi olarak alır. Kümeye yeni eleman
eklendiğinde kümenin elemanlarını deneyerek kümenin gelişmesine en fazla katkıda
bulunabilecek noktayı tespit eder ve bulduğu elemanı yeni merkez, eski merkezi ise
sıradan küme elemanı olarak işaretler [4].
2.3.3. DBSCAN (Density Based Spatial Clustering of Applications with Noise)
Nesnelerin komşuları ile olan mesafelerini hesaplayarak belirli bir bölgede önceden
belirlenmiş eşik değerden daha fazla nesne bulunan alanları gruplandırarak kümeleme
işlemini gerçekleştirir. DBSCAN algoritması veri madenciliğine birçok yeni terim ve
yaklaşım getirmiştir. Bu terimler Şekil 2.16 üzerinden anlatılacaktır.
25
Şekil 2.16. Yoğunluk tabanlı kümelemede, doğrudan erişilebilir nokta, yoğunluk
erişilebilir nokta, yoğunluk bağlı nokta [4].
Çekirdek Nesne (core object): Bir veri nesnesi ε-komşuluğunda önceden belirlenen bir eşik
değerden (MinPts) daha çok nokta içeriyorsa bu nesne çekirdek nesnedir.
Eps: Bir veri nesnesinin komşularını belirlemek için gerekli olan yakınlık mesafesidir.
MinPts: Bir bölgenin yoğun olarak adlandırılabilmesi için Eps komşuluğunda bulunması
gereken en az komşu sayısıdır.
Doğrudan Erişilebilir Nokta (Direct Reachable point): Her hangi bir q noktası m’nin Eps
komşuluğunda ise ve m noktası q’ya göre çekirdek nesne ise q noktası m’ye göre doğrudan
erişilebilir noktadır.
Yoğunluk Erişilebilir Nokta (Density Reachable point): Herhangi p ve q noktalarının her
ikisi de bir m noktasına doğrudan erişilebilir durumda ise, p ve q noktaları Eps ve MinPts
değerine göre yoğunluk erişilebilir noktalardır.
Yoğunluk bağlı noktalar (Density connected): Herhangi s ve r noktalarının her ikisi de bir
o noktasına yoğunluk erişilebilir durumda ise, s ve r noktaları Eps ve MinPts değerine göre
yoğunluk bağlı noktalardır.
DBSCAN algoritması için ilk olarak MinPts ve Eps parametreleri belirlenmelidir.
Algoritma rastgele seçilen bir p noktasına MinPts ve Eps değerlerine göre yoğunluk
erişilebilir olan tüm noktaları bulur, eğer p çekirdek nokta koşulunu sağlıyor ise yeni bir
26
küme keşfedilmiş olur. Daha sonra p noktasına yoğunluk erişilebilir olan noktalar tespit
edilir. Yoğunluk erişilebilir her noktanın da yoğunluk erişilebilir noktaları bulunarak, p
noktasının yoğunluk bağlı noktaları bulunur ve kümeye dâhil edilir. Bütün erişilebilir
noktalar gezildikten sonra küme sınırı bulunmuş olur. Algoritma yeni bir rastgele nokta
seçerek aynı işlemleri tekrar eder. Eğer rastgele seçilen nokta çekirdek nokta koşulunu
sağlamıyorsa bu nokta gürültü ya da istisna olarak tanımlanır [4].
2.3.4. OPTICS (Ordering Pointsto Identify the Clustering Structure)
DBSCAN algoritması için kullanıcı tarafından belirtilmesi gereken Eps ve MinPts
değerlerine bağımlığı azaltmak için veri nesnelerini Eps değerine göre bir grafik üzerine
yerleştirip, grafik üzerinden kümeleri bulmayı sağlar. DBSCAN algoritmasının
geliştirilmiş hali olarak tanımlanabilir [14].
OPTICS sadece Eps değerini giriş parametresi olarak aldığı için DBSCAN algoritmasına
göre daha bağımsız sonuçlar üretebilmektedir. Bu avantajına rağmen OPTICS kendi başına
bir kümeleme algoritması değil, bir kümeleme görselleştirme aracı olarak nitelendirilebilir.
Veri kümesini değişken Eps değerlerinin dağılımına göre grafik üzerinde göstererek insan
gözünün analiz edebileceği anlamlı şekiller haline getirir.
Şekil 2.17. OPTICS algoritması [4]
OPTICS algoritmasında öncelikle rastgele bir nokta seçilir. Seçilen noktanın Eps
komşuluğunda bulunan en yakın komşusu ile seçilen nokta arasındaki uzaklığı bir çubuk
27
grafiğinde bir sütun olarak temsil eder. Aynı işlemi uzaklık sırasına göre Eps komşuluktaki
tüm nesneler için gerçekleştirir. Komşu kalmayınca yeni bir rastgele nokta seçip bu
noktanın komşuları için aynı işlemi uygular. Algoritma, veri kümesi içindeki nesnelerin
orijinal sırasına duyarsızdır [16].
Eps(ε’) değerinin olduğu noktadan yatay bir çizgi çizildiğinde altında kalan alandaki
vadiler istenilen Eps değeri için elde edilen kümelerdir.
2.3.5. K-en yakın komşuluk
Anlaşılması ve uygulaması basit olmasından dolayı, özellikle büyük veri tabanlarında
kullanılan bir sınıflandırma tekniğidir. Sınıflandırılmak istenen nesnenin ait olduğu
kümeyi, en yakınında yer alan K adet nesnenin sınıflarına bakarak belirler. Nesneyi en
yakın K komşusunda, en fazla elemanı bulunan sınıfla aynı kümede sınıflandırması
mantığına dayanmaktadır.
Şekil 2.18. K en yakın komşuluk
Sınıfları bilinen eğitim verilerinin niteliklerine göz önünde bulundurularak seçilen bir
uzaklık ölçütüne (Euclid, Manhattan ve Minkowski uzaklıkları gibi) göre en yakın k
elemanın ait olduğu en fazla sınıf, elemanın sınıfını belirler [4].
28
2.3.6. Destek vektör makineleri (Support vector machines)
Değişkenler arasındaki örüntülerin bilinmediği veri setlerindeki sınıflandırma problemi
için önerilmiş bir yöntemdir. Eğitim verisi ile öğrenme yaparak yeni veri üzerinde tahmin
yapmaya ve genelleştirmeye çalışır.
Şekil 2.19. Destek vektör makineleri
Destek vektör makinesi veriyi sınıflandırırken sınıfların birbirine en yakın örneklerini
bularak bu örneklerin ayırıcı yüzeye (iki sınıfı ayıracak olan) dik uzaklıklarını maksimize
etmeyi amaçlar. Destek vektör makinesi kullanılarak ayırıcı yüzeyin her iki sınıfa da aynı
mesafede ve maksimum uzaklıkta olması sağlanır [4].
2.3.7. Karar ağaçları (Decision trees)
Karar ağaçları, uygulanmasının, yorumlanmasının ve entegrasyonunun kolay olması
nedeniyle en yaygın kullanılan sınıflandırma tekniklerinden biridir. Güvenilirliklerinin iyi
olması da bir başka tercih edilme nedenidir. Karar ağaçlarının hedefi bağımlı değişkendeki
29
farklılıkları maksimize edecek şekilde veriyi sıralı bir biçimde farklı gruplara ayırmaktır.
Karar ağaçları, ağaç oluşturulduktan sonra, kökten yaprağa doğru inilerek kolayca kurallar
yazılabilir [9].
Karar ağaçları, nitel, nicel, sürekli ve kesikli tüm değişkenlere uygulanabilen algoritmaları,
ağaç diyagramı şeklindeki görsel yapısıyla en popüler sınıflama yöntemlerinden birisidir
[17]. Karar ağacının yapısı, karar düğümleri, dallar ve yapraklardan oluşur.
Karar düğümü: Veriye uygulanacak test tanımlanır. Her düğüm bir özellikteki testi
gösterir. Test sonucunda ağacın dalları oluşur. Dalları oluştururken veri kaybı
yaşanmaması için verilerin tümünü kapsayacak sayıda farklı dal oluşturulur.
Dal: Düğümlerdeki testin sonucunu gösterir. Elde edilen her dal ile tanımlanacak sınıfın
belirlenmesi amaçlanır. Ancak dalın sonucunda sınıflandırma tamamlanamıyorsa tekrar bir
karar düğümü oluşur. Karar düğümünden elde edilen dalların sonucunda sınıflandırmanın
tamamlanıp tamamlanmadığı tekrar kontrol edilerek devam edilir.
Yaprak: Dalın sonucunda bir sınıflandırma elde edilebiliyorsa yaprak elde edilmiş olur.
Yaprak, verileri kullanarak elde edilmek istenen sınıflandırmanın sınıflarından birini
tanımlar.
Karar ağaçlarında temel hedef en kısa adımda verinin muhtemel sınıfını bulmaktır. Bu
nedenle ağaç oluşturulurken köke hangi niteliğin gelmesi gerektiğinin belirlenmesi gerekir.
Çeşitli istatistik hesaplamalar ile niteliklerin öncelikleri hesaplanarak en yüksek fayda
sağlayan nitelik köke konulur. Daha sonra diğer niteliklere de aynı işlemler uygulanarak
yapraklara(sınıflara) ulaşılmaya çalışılır. Bu dallanma işlemleri hatalı veriler nedeniyle
bazen hatalara yol açabilir. Ağaç tamamlandıktan sonra, ağacı temizlemek için (Tree
pruning) gürültü ve istisna kararları içeren dallar belirlenir ve kaldırılır.
Karar ağacı oluşturulduktan sonra test verileri ile oluşturulan modelin doğruluk değeri
hesaplanır. Doğruluk değeri, kabul edilebilir bir aralıkta ise oluşturulan model, sınıfı belli
olmayan yeni verilerin sınıflandırılmamasında kullanılabilir.
Karar ağaçlarını kullandıkları yöntemlere göre çeşitli versiyonları vardır. C4.5, C5.0,
C&RT ve CHAID en popüler karar ağacı yöntemleridir.
30
2.3.8. Yapay sinir ağları (Neural networks)
İnsan beyninin hesaplama mantığı baz alınarak oluşturulmuş (yapay) sinir ağları, karar
ağaçları gibi yeni jenerasyon veri madenciliği yöntemlerindendir. Yapay sinir ağları
(YSA) insan beynindeki sinir hücrelerinin işlevini modelleyen bir yapıdır ve birbiri ile
bağlantılı katmanlardan oluşur [9]. Girdi ve çıktı katmanları arasındaki iletim, aradaki
bağların ağırlığına ve her hücrenin değerine bağlı olarak değişebilir. Yapay sinir ağları,
girdi ve çıktı arasında, küçük hesaplama birimlerinden elde edilen bu sonuçları
birleştirerek sonuçlandıran bir modelleme yöntemidir [17].
Şekil 2.20. Yapay sinir ağları modeli
Basit bir yapay sinir ağı şu şekilde çalışır. Öncelikle, öğrenme kümesi verilerinin nitelik
sayısı, yapay sinir ağına giriş nöronu sayısı, verilerin sınıf sayısı da çıkış nöronu sayısı
olarak verilir. Daha sonra YSA’ya verilen eğitim verisi ile model oluşturulur. Gizli katman
sayısı ve gizli katmanlardaki nöron sayısı, kullanıcı tarafından verilebileceği gibi model
oluşturma esnasında otomatik olarak ta belirlenebilir. Daha sonra model, test verileri ile
değerlendirilir ve gerekirse ağda küçültme yapılır.
Karar ağaçları uygulama, anlama ve yorumlama açısından ne kadar kolaysa, sinir ağları da
o derece zordur. Yalnızca model oluşturma, sonuçları yorumlama aşamasının ötesinde;
doğru bir model kurabilmek için ağın eğitimindeki dengenin önemi oldukça büyüktür.
31
Fazla eğitilmiş bir ağ, önceden gözlenmemiş bir gözleme yönelik tahmin kabiliyetini
yitirirken; az eğitilmiş bir ağ ise yanlış tahmin verebilmektedir [17].
2.3.9. Genetik algoritmalar (Genetic algorithms)
Genetik algoritmalar problemlerin çözümü için evrim sürecinin bilgisayar ortamına
uyarlanmış biçimidir. Diğer eniyileme yöntemlerindeki gibi çözüm için tek bir yapı
geliştirmek yerine, bu yapılardan meydana gelen bir küme oluşturur. Problem için olası
pek çok çözümü temsil eden bu küme genetik algoritma terminolojisinde popülasyon adını
alır. Popülasyon vektör, kromozom veya birey adı verilen sayı dizilerinden oluşur. Birey
içindeki her bir elemana gen adı verilir. Her kuşakta, genetik algoritma, çaprazlama ve
mutasyon
gibi
genetik operatörleri kullanarak
yeni
bir
popülasyon oluşturur.
Popülasyondaki bireyler evrimsel süreç içinde genetik algoritma işlemcileri tarafından
belirlenirler [18].
Şekil 2.21. Genetik algoritma
Popülasyon içindeki her bireyin problem için çözüm olup olmayacağına karar veren bir
uygunluk fonksiyonu vardır. Uygunluk fonksiyonundan dönen değere göre yüksek değere
sahip olan bireylere, popülasyondaki diğer bireyler ile çoğalmaları için fırsat verilir. Bu
bireyler çaprazlama işlemi sonunda çocuk adı verilen yeni bireyler üretirler. Çocuk
kendisini meydana getiren ebeveynlerin (anne, baba) özelliklerini taşır. Yeni bireyler
üretilirken düşük uygunluk değerine sahip bireyler daha az seçildiğinden bu bireyler bir
süre sonra popülasyon dışında kalır. Yeni popülasyon, bir önceki popülasyonda yer alan
32
uygunluğu yüksek bireylerin bir araya gelip çoğalmalarıyla oluşur. Aynı zamanda bu
popülasyon önceki popülasyonun uygunluğu yüksek bireylerinin sahip olduğu özelliklerin
büyük bir kısmını içerir. Böylelikle, pek çok nesil aracılığıyla iyi özellikler popülasyon
içerisinde yayılır ve genetik işlemler aracılığıyla da diğer iyi özelliklerle birleşirler.
Uygunluk değeri yüksek olan ne kadar çok birey bir araya gelip, yeni bireyler oluşturursa
arama uzayı içerisinde o kadar iyi bir çalışma alanı elde edilir [19].
2.3.10. Apriori algoritması
Bir veri kümesi içinde sık tekrarlanan öğeleri bulmak için kullanılan en temel yöntemdir.
Apriori algoritması, sık geçen öğe kümelerini bulmak için veri tabanını birçok kez tarar.
Şekil 2.22. Apriori algoritması
İlk taramada bir elemanlı minimum destek eşik değerini sağlayan sık geçen veriler
bulunur. Bulunan tek elemanlı öğeler, sonraki taramalarda aday veriler adı verilen yeni
potansiyel sık geçen verileri üretmek için kullanılır. Aday verilerin destek değerleri tarama
sırasında hesaplanır ve aday kümelerinden minimum destek eşik değerini sağlayan veriler
o geçişte üretilen sık geçen veriler olur. Sık geçen veriler bir sonraki geçiş için aday veriler
olurlar. Bu süreç yeni bir sık geçen veri bulunmayana kadar tekrarlanır [9].
33
2.3.11. Beklenti maksimizasyonu (Expectation maximization EM) algoritması
EM (Expectation Maximization) Algoritması bir objenin hangi kümeye ait olduğunu
belirlemede kesin mesafe ölçütlerini kullanmak yerine tahminsel ölçütleri kullanmayı
tercih eder. Karma olabilirlik yaklaşımı ile yapılan kümelemede karma dağılım
modelindeki parametreleri tahmin etmek için genellikle EM algoritması kullanılır. EM
algoritması verinin tamamlanmamış veri olması durumunda en çok olabilirlik kestirimi
için genel bir istatistiksel yöntemdir [20]. Bu nedenle EM algoritması son yıllarda birçok
araştırmada kullanılan popüler bir yaklaşım olmuştur.
Maksimum benzerlik prensibine dayanan bu algoritma ilk olarak Dempster, Laird ve
Rubin tarafından 1977 yılında ortaya konulmuştur. Beklenti Maksimizasyonu (BM)
algoritması, tam olmayan veri problemlerini çözmek için maksimum olasılık tahminlerini
yapan tekrarlı bir algoritmadır [21]. EM Algoritmasının her tekrarı iki adımda gerçekleşir.
Bu adımlar, bekleneni bulma (E-Adımı) ve maksimizasyon (M Adımı) olarak adlandırılır.

E-adımında gözlenen verilerin parametrelerine ait kestirimler kullanılarak,
bilinmeyen (kayıp) veri ile ilgili en iyi olasılıklar tahmin edilir.

M-Adımında ise tahmin edilen kayıp veri yerine konulup bütün veri üzerinden
maksimum olabilirlik hesaplanarak parametrelerin yeni kestirimleri elde edilir [4].
Bu adımlar belirli bir epsilon kriteri sağlanana ya da maksimum iterasyon sayısına
ulaşılana kadar ardışık olarak gerçekleştirilir.
Şekil 2.23. Gauss dağılımında iki küme örneği
EM algoritması, küme ortalamasına dayalı olarak en benzer bulduğu bir nesneyi bu
kümeye atamasından dolayı, k-means algoritmasının bir uzantısı olarak görülebilir. Ancak
34
EM algoritması her bir nesnenin her bir kümeye olan üyeliğini bir olasılık değerine göre
belirler. Diğer bir değişle kümeler arası kesin bir sınır yoktur. Bu nedenle, ağırlık
ölçümüne dayalı hesaplamalar yapılır.
EM algoritması karışım modeli parametrelerinin başlangıç değerlerine tahmini değerler
vererek başlar (topluca parametre vektörü olarak da anılır).
Şekil 2.24. EM algoritması akış şeması
Nesneler, parametre vektörü tarafından üretilen karışım yoğunluğuna karşı yeniden
skorlanır. Yeni skorlanan nesneler daha sonra parametre tahminlerini güncellemek için
kullanılır. Her nesneye, nitelik değerleri belli olan bir kümeye üye olarak verilecek bir
olasılık atanır [4].
35
2.4. Tıbbi Verilerde Veri Madenciliği Çalışmaları
Ülkemizde de tıp alanında yapılan birçok veri madenciliği çalışması vardır. Bu bölümde
ülkemizdeki tıbbi veriler kullanılarak yapılan veri madenciliği çalışmaları incelenmiş ve
aşağıda özetleri sunulmuştur.
Tartar (2013) doktora çalışmasında, İstanbul Üniversitesi Cerrahpaşa Tıp Fakültesi
Radyoloji Anabilim Dalı’ndan 2010-2013 yılları arasında akciğer kanser hastası olan 103
adet hastaya ait akciğer BT görüntülerinden toplam 159 adet pulmoner nodül ve 141 adet
nodül olmayan örüntü elde etmiş ve bu verileri kullanarak literatüre alternatif olabilecek
BT (Bilgisayar Tomografi) görüntülerinden pulmoner nodüllerin tespitine yönelik yeni iki
farklı BDT (Bilgisayar Destekli Teşhis) sistemi önermiştir. Bunlar, BT görüntülerinden
pulmoner nodül örüntülerinin tespitine yönelik bir sistem ve BT görüntülerinden pulmoner
nodül örüntülerinin teşhis açısından malign ve benign olduğuna karar veren yeni bir
bilgisayar destekli teşhis sistemidir.
Bu çalışmada BT görüntülerinden pulmoner nodüllerin teşhisi için hibrid öznitelikler
kullanılarak yeni bir sınıflandırma yaklaşımı sunulmaktadır. Pulmoner nodüllerin
tespitinde dört farklı öznitelik çıkarma yöntemi kullanılmıştır. Nodül örüntülerinin malign
ve benign ayrımı, hastaların risk faktörleri ve morfolojik görüntü işleme yaklaşımları
kullanılarak gerçekleştirilmiştir. Destek vektör makineleri çekirdek fonksiyonları
kullanılarak her bir yöntemin sınıflandırma performans ölçümleri elde edilmiştir. Nodül
tespitine yönelik yapılan hibrit yöntem çalışmasında 0,904 doğruluk değeri ve malign ve
benign tespitine yönelik yapılan çalışmada 0,862 doğruluk başarımları elde ederek malign
ve benign ayrımının yapılmasında literatüre önemli bir katkı sağlamıştır [22].
Pala (2013) yüksek lisans çalışmasında, National Institute of Diabetesand Digestiveand
Kidney Diseases tarafından 1990 da oluşturulan diyabet veri seti kullanmıştır. 625 diyabet
hastasına ait 9 nitelikten oluşan diyabet veri setine de WEKA ve RapidMiner programları
ile sınıflandırma ve K Means algoritması ile kümeleme işlemleri uygulanmıştır.
RapidMiner programında karar ağaçları algoritması dışında yakın ancak daha iyi sonuçlar
elde edilmiştir Karar ağacında Weka programı ile daha iyi sonuçlar elde etmiştir.
36
Kayseri Erciyes Üniversitesi Tıp Fakültesi Onkoloji Bölümünden alınan Metastatik
Kolorektal Kanser verileri kullanılmıştır. 200 Metastatik Kolorektal Kanser hastasının 20
nitelikten oluşan verileri üzerinde işlemler gerçekleştirilmiştir. RapidMiner programı ile
veriler üzerinde ön-işleme, sınıflandırma ve kümeleme işlemleri uygulanmıştır. Veriler en
iyi sonuç veren 6 sınıflandırma algoritmasına göre sınıflandırma işlemine tabi tutulmuştur.
Yalnızca sınıflandırma algoritmalarının uygulandığı sınıflandırma tahmin modelinde en
başarılı algoritma Destek Vektör Makinesi iken Hibrid tahmin modelinde karar ağaçları ve
yapay sinir ağları %100 doğruluk yüzdesi ile en başarılı algoritmalar olmuştur. Çalışmada,
K means ile yanlış tespit edilen veriler her iki uygulamada da silindikten sonra yukarıdaki
sonuçlar elde edilmiştir [23].
Şaylan (2012), yüksek lisans çalışması için İstanbul Üniversitesi Cerrahpaşa Tıp
Fakültesi’nde ayakta tedavi gören hastalar arasından, Mart 2006 – Aralık 2007 tarihleri
arasında 21 aylık bir sürede tedavisi görmüş hastalara ait veriler bir araya getirilerek bir
veri kümesi oluşturmuştur. Bu veri kümesi üzerinde WEKA yazılımı kullanılarak
sınıflama, kümeleme ve karar ağacı algoritmaları çalıştırılmış, elde edilen karar kuralları
uzman desteğiyle incelenerek koroner arterlerde kalsifikasyon bulunmasında etkili olan
faktörlerin neler olduğu belirlenmiş ve öznitelik seçme algoritmalarıyla aynı faktörlere
ulaşılıp ulaşılamadığı belirlenmiştir.
Sınıf bilgisine erişmede mevcut 26 öznitelikten hangilerinin daha fazla katkı verdiğini
bulmaya yardımcı olan korelasyona dayalı öznitelik seçme algoritması (CFS), bilgi kazanç
(Info Gain) ve kazanç oranı (Gain Ratio) algoritmalarını kullanılmıştır.
Harmoni arama algoritması kullanılarak yazılan eniyileme yöntemiyle problem çözümleme
aşamasında Naive Bayes sınıflayıcısı kullanılmıştır ve çapraz geçerlilik ölçütü (cross
validation) amaç fonksiyonu olarak ele alınmıştır. Harmoni algoritmasından elde edilen
sonuçlar öznitelik belirleme algoritmalarının sonuçları ile karşılaştırılmış ve benzer
sonuçlara ulaştığını ifade etmiştir [24].
Çataloluk (2012), yüksek lisans tez çalışmasında veri madenciliği algoritmalarından KNN
ve k-means algoritmalarının medikal alanda nasıl kullanılabileceği konusunda örnek bir
çalışma yapmıştır. Bu çalışmada kullanılan dermatoloji veri seti California Irvine
Üniversitesi’nin makine öğrenmesi havuzundan elde edilmiştir (UCI Repository of
37
Machine Learning Databases, 1998). Bu veri seti Prof. Dr. Nilsel İlter tarafından gerçek
hastalardan alınan bilgilerle oluşturulmuştur.
Çataloluk (2012), özellikle tıp alanında bu tip uygulamaların, hastalara doğru teşhis
koymak için maliyetin yüksek, laboratuvar şartlarının kısıtlı, hasta açısından risk taşıyan
yöntemlerin söz konusu olduğu durumlarda ya da tecrübe bakımından yeterli düzeyde
olmayan hekimlerin doğru teşhis koymalarına fayda sağlamada önemli bir yardımcı karar
destek aracı olarak kullanılabileceğini ifade etmektedir [25].
Akyol (2012), yüksek lisans çalışmasında, Yıldırım Beyazıt Üniversitesi Atatürk Eğitim ve
Araştırma Hastanesinden temin edilen biyokimya ve hemogram laboratuvar test
değerlerini, hasta tanı ve özgeçmiş bilgilerinin, lojistik regresyon modeli yaklaşımıyla
Koroner Arter Hastalığına etkisi araştırmıştır. Lojistik regresyon analizinin seçilmesinin
amacı, en az değişkeni kullanarak en iyi uyuma sahip olacak şekilde bağımlı ve bağımsız
değişkenler arasındaki ilişkiyi tanımlayabilen ve biyolojik olarak kabul edilebilir bir model
kurmak olarak ifade etmiştir. Yapılan analiz sonucunda koroner arter hastalığının risk
faktörleri tespit edilmiştir.
Ayrıca, gerçekleştirilen tüm analizlerde elde edilen sonuçlardan Yüksek Yoğunluklu
Lipoprotein (HDL) test değişkeninin koroner arter hastalığı için çok etkili olduğu ve yaş ve
cinsiyet değerlerinin de koroner arter hastalığı olma durumunu etkilediği gözlemlenmiştir
[26].
Turgut (2012), yüksek lisans çalışmasında Süleyman Demirel Üniversitesi Tıp Fakültesi
Nöroloji Ana Bilim Dalı’na başvuran ve demans ayırıcı tanısı için ayrıntılı klinik
muayenesi ve nöropsikolojik değerlendirmesi yapılmış 123 hastaya ait verilerden
kullanılabilir durumdaki 101 kişiye ait verileri kullanmıştır. WEKA yazılımı ile veri
madenciliği yöntemlerinden sınıflama algoritmaları tek tek denenmiş ve elde edilen
sonuçlar karşılaştırmıştır.
Veri madenciliği yöntemlerinden 67 farklı algoritma denenebilmiş ve bu algoritmalar
kullanılarak bulunan ilişkilerin 13 tanesi %80’in altında, 45 tanesi %80’le %90 arasında,
9’u %95 ve üzerinde doğruluk değerine ulaşmaktadır. Ancak bu algoritmalardan
38
Logitboost %100 doğrulukta çalışmıştır ve hazırlanan uygulama içinde bu algoritma tercih
edilmiştir [27].
Eşiyok (2011), yüksek lisans çalışmasında, The Mammographic Image Analysis Society
Digital Mammogram Database’den alınan mamografi verilerini analiz etmiştir. Kümeleme
algoritması için DBSCAN ve hiçbir kümede yer almayan gürültülü verileri sınıflandırmak
için ise K-NN sınıflandırma algoritması kullanılmıştır.
Sonuç olarak, mamografi verilerini kümelere ayıran parametre (Eps, Minpts) değerleri
incelenerek en uygun sonucu veren parametre değeri Eps=40 ve MinPts=8 olarak
belirlenmiştir. Gürültülü veriler için ise k-en yakın komşu parametre değerleri incelenerek,
k=5 parametre değeri için K-NN algoritmasının en iyi sonuç ürettiği tespit edilmiştir [28].
Akman (2010)’ın yüksek lisans çalışmasında, Gazi Üniversitesi Diş Hekimliği Fakültesi
Periodontoloji bölümünden elde edilen veriler Random Forests metodu kullanılarak 3 ayrı
hastalık sınıfına ayrılmıştır. Random Forests (RF) metodu, bir topluluk yöntem olmasına
rağmen, topluluk yöntemlerden farklı olarak modele ayrı bir katman olan rastgelelik de
katmıştır. Bu rastgelelik sayesinde sınıflandırıcının daha az sapmasız olması sağlanmıştır.
Akman (2010)’a göre, RF yöntemi, veri setindeki değişken sayısı ve örnek sayısı ne kadar
çok olursa olsun sonuçları, makul sayılan bir sürede verebilmektedir. Kullanılan veri
setinde RF yöntemiyle % 95,4 oranında başarılı bir sınıflama yapılmıştır. Oluşturulan karar
ormanının genel hata oranı ise % 3,33 olarak bulunmuştur [29].
Karlı (2010) yüksek lisans tezinde, FP- Growth algoritması gibi düşünen fakat FP-ağacı
oluşturulurken özyineleme yerine öğe tabanlı aday küme üretimi kullanan yeni bir yöntem
önermiştir. Bu yöntem daha sonra nicel değerli veri tabanlarında sıralı örüntülerin
bulunması için uyarlanmıştır.
Çalışmada kullanılan veriler, Dicle Üniversitesi Tıp Fakültesi Merkez laboratuvarındaki
toplam 6580 farklı hastaya yapılmış olan 156099 adet tahlil sonuçlarından oluşmaktadır.
Bahadır (2010), bu verileri kullanarak, önerdiği yeni yöntemin uygulanabilirliğini
göstermiş ve klasik FP-Growth algoritmasından daha hızlı sonuçlar elde etmiştir. Önerilen
39
yeni yöntemin FP-Growth ile aynı sayıda yaygın öğe kümesi bulurken, FP-Growth a göre
daha az bellek ve zaman harcadığını belirtmektedir [30].
Altıntaş (2010)’ın yüksek lisans çalışmasında, Özel Can Diyaliz Merkezi’nde 12 ay ve
uzun süre Hemodiyaliz tedavisi gören/görmüş 170 hemodiyaliz hastasına ait demografik
ve klinik veriler ile aylık test verilerinden oluşan bir veri kümesi kayıtları kullanılmıştır.
Uzman hekimlerce her hasta için belirlenen risk skoru dikkate alınarak uygulanan veri
madenciliği teknikleri yardımıyla risk faktörlerinin etkileşimleri (risk deseni) incelenmiştir.
ESTARD Data Miner programı ile öznitelik seçimi yapılmıştır ve program 24 adet
öznitelik seçmiştir. Daha sonra bu özellikler kullanılarak veriler, Weka programı üzerinde
K-means kümeleme algoritması kullanılarak veriler kümelere ayrılmıştır. Weka
programının J4.8 ve PART algoritmalarının oluşturduğu karar kuralları ile özniteliklerin
hangi aralıklar için hangi risk sınıfta olduğunu belirlenmektedir.
Altıntaş (2010) elde ettiği karar kurallarını incelediğinde, temel özellik olarak seçilen ve
risk skorunu en çok etkileyen 10 özellik arasından hasta yaş, cinsiyet, C Reaktif Protein,
Potasyum ve Glisemi değerlerinin 5’inin karar kuralları içinde yer aldığı görülmüştür [31].
Çakırlı (2010) “Sağlık Sektöründe Apriori Algoritması İle Bir Veri Madenciliği
Uygulaması” adlı çalışmasında 24 sorudan oluşan ve Sakarya Üniversitesi’nde rastgele
olarak seçilmiş toplamda 170 akademik ve idari çalışana uygulanan olası migren teşhisine
yönelik anket sonuçlarında apriori algoritmasını kullanarak birliktelik kuralları çıkarmaya
çalışmıştır. Uygulanan ankette elde edilen verilerin tekli, ikili ve üçlü birliktelik
durumlarını incelemiştir. Destek eşik değeri örneklem grubu için 102 yani % 60 olarak
seçilmiştir. Dolayısıyla 102 üzerinde destek değerine ulaşan gruplandırmaların birliktelik
kuralları incelendiğinde migren ve migrene bağlı gelişen baş ağrısı rahatsızlığına ilişkin 9
adet birliktelik kuralına ulaşılmıştır.
Gerçekleştirilen anket uygulaması hastalık teşhisine yönelik değil, birliktelik kurallarının
bulunması amacıyla yapılmış bir çalışmadır. Çakırlı (2010) mühendislik ve bilgi işlem
mantığı kullanılarak geliştirilen yazılım ve ulaşılan sonuçların, uzman bir hekim
kontrolünde geliştirilirse hastalık teşhisine yönelik kullanılma ihtimalinin yüksek olacağını
ifade etmektedir [32].
40
Kaya (2010), Fırat Üniversitesi Tıp Fakültesi Adli Tıp Anabilim Dalından elde ettiği
şizofreni hastalarının sosyodemografik ve biyokimyasal verilerini inceleyerek suç işleme
durumu ile ilgili öncelikle sınıflandırma kuralları elde etmiştir. Bu kurallar elde edilirken
tasarlanan sınıflandırıcı sistem çok amaçlı genetik algoritma yöntemini kullanmaktadır.
Şizofreni hastalarının sosyodemografik ve biyokimya verilerine uygulanan yöntem, suç
işleme durumları dikkate alındığında sosyodemografik verilere daha bağımlı olduğu
gözlenmiştir [33].
İ. Aksoy (2010)’un yüksek lisans çalışmasında, Eskişehir Osmangazi Üniversitesi, Tıp
Fakültesi, Klinik Mikrobiyoloji ve Enfeksiyon Hastalıkları Bölümünden alınan verileri
kullanılarak, yeni doğan yoğun bakım ünitesindeki hastane enfeksiyonlarının tespit
edilmeyesi için veri madenciliği yöntemlerinin uygulaması yapmıştır. SAS Enterprise
Miner programında, karar ağaçları, yapay sinir ağları ve lojistik regresyon sınıflandırma
yöntemlerini kullanmıştır.
Hastane enfeksiyonları tespitinde, verilerin %70’ni eğitim, %30’unu test için kullanarak,
yapay sinir ağları, test setinde %83 doğruluk başarısı elde edilmiştir. Aksoy (2010), elde
ettiği sonuçlara göre, antibiyotik ve üriner kateter kullanımı, periferik kateter kullanım
süresi, enteral ve total parenteral beslenme süreleri ve doğum ağırlığının gestasyonel yaşa
oranının önemli risk faktörleri arasında bulunduğunu ifade etmiştir [34].
İşler (2009)’in doktora çalışmasında, KKY (Konjestif Kalp Yetmezliği) hastalarının
normal kişilerden ayırt edilmesinde MIT/BIH tarafından sağlanan veriler ve sistolik KKY
hastalarının diastolik KKY hastalarından ayırt edilmesinde ise Dokuz Eylül Üniversitesi
Tıp Fakültesi tarafından sağlanan EKG (Elektrokardiyogram) kayıtları kullanılmıştır.
Dalgacık entropisi sınıflandırıcı performansını iyileştirmek için yeni bir KHD değerini
öznitelik olarak eklemiştir. Ayrıca, farklı adımlardaki Poincare çizimi ölçümleri de
çalışmaya dâhil edilmiş fakat yüksek adımlı Poincare çizimi ölçümlerinin teşhiste faydası
görülmediğini ifade edilmiştir. En uygun öznitelik kombinasyonunu seçmek için Genetik
Algoritma, sınıflandırma için ise KNN algoritması kullanılmıştır.
Sonuç olarak, bu çalışmada KKY hastalarının normal kişilerden ayrılmasında sadece KNN
algoritması ile (k=1, k=3, k=5) değerleri için en yüksek %93,98 doğruluk ile sınıflandırma
41
yapılmıştır. Ayrıca sistolik KKY hastalarının diastolik KKY hastalarından ayrılmasında ise
Genetik Algoritma ve KNN algoritması birlikte kullanılarak k=1 değeri için %100 başarım
sonucuna ulaşılmıştır. İşler (2009), bu değerlerin literatürdeki en yüksek değerler olduğunu
ifade etmektedir [35].
B. Aksoy (2009), “Dekompresyon Analizinin Kümeleme Analizi” üzerine bir veri
madenciliği uygulaması gerçekleştirmiştir ve çalışmasında, Divers Alert Network
(Dalgıçların Acil Durum Ağı)'nın dalış yaralanmaları bildirim formlarından elde
edilen1929 adet veriyi kullanmıştır. Bu verileri farklı kümeleme algoritmaları (k-ortalama,
COBWEB, EM ) ile kullanılarak dekompresyon hastalığının sınıflandırmasını yapmıştır.
COBWEB algoritması için acuity=1 ve cutoff =0,2740947917738781 değerleri ile 58
küme elde etmiş. Kümeler içinde bulunan kayıt sayıları inceleyerek, 2. kümede 721 ve 3.
kümede 944 kayıt bulunan bu kümeleri aynen almış ve eleman sayısı az olan diğer kümleri
birleştirerek 264 kayıttan yeni bir küme oluşturarak küme sayısını 3’e düşürmüştür.
EM algoritması için standart sapma=1,0 ve iterasyon sayısı=100 değeri ile 10 sınıf elde
etmiş ve eleman sayısı en yüksek olan 4 kümeyi seçerek burada da küme sayısını 4’e
düşürmüştür.
Sonuç olarak, kümeleme yöntemleriyle elde edilen sınıfların yeni yapılan istatistiksel
sınıflandırmalarla ve klasik sınıflandırmalarla uyumlu olduğu gözlemlemiştir. Ayrıca
teşhiste yardımcı olabilecek birliktelik kuralları (association rules)’da elde etmiştir [36].
Farboudi (2009) yüksek lisans tez çalışmasında, Yıldırım Beyazıt Eğitim ve Araştırma
Hastanesi Üroloji Bölümünden aldığı veriler ile SPSS Clementine programını kullanarak
hastalık teşhisine yönelik karar ağacı uygulaması gerçekleştirmiş, ancak istediği şekilde ve
yeterli sayıda veri elde edemediğinden dolayı uygulamanın başarı yüzdesi % 65 gibi düşük
bir değerde kalmıştır [37].
Oğuz (2009)’un yüksek lisans tez çalışmasında, Akdeniz Üniversitesi Hastanesi KBB
(Kulak Burun Boğaz) Hastalıkları Anabilim Dalından alınan ve ameliyat geçiren hastalara
ait 600 adet hasta bilgi formu kullanılmıştır. Ayrıca bu bilgi formlarını yapılandırılmış
formata
dönüştüren,
hasta
bilgilerine
erişimi
kolaylaştıran
ve
metinlerdeki
42
varlıklar/kavramlar arasındaki ilişki örüntülerini ortaya çıkaran bir metin analiz aracı
geliştirilmiştir.
Veri madenciliği yöntemlerinden Birliktelik kuralı kullanılmış ve aralarındaki yüksek
sıklıkta görülen ilişki örüntüleri tespit edilmiş ve minimum destek değerini sağlayan 26
adet kural çıkartılmıştır. Elde edilen kurallar kullanılarak hastaların semptomlarına göre
kanserli olup olmadıklarını tahmin eden küçük ölçekli bir sistem geliştirilmiştir.
Çalışmanın diğer bir faydası formatsız şekilde word dosyalarında tutulan hasta bilgileri
veri tabanına atılarak sorgulama ile hasta bilgilerine erişim kolaylaştırılmıştır [38].
Demirel (2008) yüksek lisans çalışmasında, Ankara Onkoloji Hastanesi’nden aldığı 462
meme kanseri hastasının patoloji sonuçlarını ve demografik bilgiler içeren verilerini
kullanarak, doktorlara kanserin tedavi yöntemi belirlerken yardımcı olacak bir uygulama
geliştirmiştir. Bu çalışmada tedavi yöntemleri için Weka sınıflandırma algoritmalarıyla
tüm veriyi, hormonoterapi (ht), tamoxifen (tamox), radyoterapi (rt) ve kemoterapi (kt)
tedavileri için ayrı ayrı işlemiş, doğru tahmin etme performansı yüksek olan algoritmaları
uygulamada kullanmıştır.
Hormonoterapi (ht) alanı için IB1 algoritması %94.62, tamoxifen (tamox) alanı için
Multilayer Perceptron algoritması %92.0 ve yine radyoterapi (rt) alanı için Multilayer
Perceptron algoritması %95.24 kemoterapi (kt) alanı için ise Decision Table algoritmasının
%97.78 ile en yüksek doğrulukta tahminde bulunduğunu tespit etmiş ve bu algoritmaları
kullanarak meme kanseri tedavi destek uygulaması hazırlamıştır [39].
Kahramanlı (2008) doktora çalışmasında özellikle tıp alanında sınıflandırma başarısını
yükselten bir sistem geliştirmeyi amaçlanmıştır. Bunun için tıp verileri incelenmiş ve veri
tiplerinden yola çıkarak sınıflandırma yapmak için yeni bir sinir ağı türü önermiş ve onun
eğitim algoritması oluşturmuştur. Daha sonra kurallar tabanı oluşturulması için bu sinir
ağının ürettiği fonksiyonu optimize eden yeni bir algoritma geliştirilmiştir. Optimizasyon
için bir yapay bağışıklık algoritması olan Opt-aiNET kullanılmıştır. Sonuçların
doğruluğunu test etmek k-kat çapraz doğrulama yöntemi seçilmiştir. Yaptığı incelemede
Deneysel çalışmaların, k-kat çapraz doğrulama yönteminde k için optimum değerin 10
değerini gösterdiğini ifade etmektedir.
43
Çalışmada kullanılan veriler; UCI Machine Learning Repository’den alınan Cleveland
Kalp Hastalıkları ve Hepatit Hastalığı veri kümeleridir. Cleveland Kalp Hastalıkları veri
kümesinde yapılan sınıflandırma sonuçlarının doğruluk oranının %46,2 ile %90 arasında
değiştiğini, önerilen yöntemle bu değerin %92.08’e çıkarıldığını ifade etmektedir. Hepatit
veri kümesinde yapılan sınıflandırma çalışmalarının başarı oranlarının %77,4 ile %92,9
arasında değiştiğini, önerilen yöntemle bu değerin %94.19’a çıkarıldığını ifade etmektedir.
Cleveland Kalp Hastalıkları veri kümesinde kural çıkarma ile ilgili yapılan iki çalışma
sonucu başarı oranı %82,2 ve %82,5 iken önerilen yöntem ile %96,4 başarı oranı elde
edilmiştir. Hepatit veri kümesinde kural çıkarma ile ilgili yapılan üç çalışma sonucu başarı
oranları %82,7, %90 ve %96,1 iken önerilen yöntemle bu değerin %96,8’e çıkarıldığını
ifade etmektedir [40].
Doğan (2007) Veri madenciliği Kullanarak Biyokimya Verilerinden Hastalık Teşhisi adlı
çalışmasında biyokimya verilerini veri madenciliği yöntemlerini kullanarak 4 farklı
hastalık için Delphi ile hastalık teşhisi uygulaması geliştirmiş. Kardiyak Enzim
Parametrelerinden Kalp Krizi Teşhisi, Lipid Parametrelerinden Hiperlipidemi Teşhisi,
Hematolojik Parametrelerden Demir Eksikliği Anemisi Teşhisi ve Tiroid Hormon
Parametrelerinden
Hipotiroidi-Hipertioidi
Teşhisi
için
geliştirilen
uygulamalarda,
hastalıklar için uzman doktorların belirlediği kurallara göre karar ağaçları oluşturmuş ve
elde ettiği hasta verileri ile geliştirdiği uygulamayı test etmiştir.
Karar ağacını oluştururken elindeki verilerden karar ağacı oluşturmamış uzman doktorların
bilgilerine göre karar ağacı oluşturulmuştur [41].
Dinçer (2006) yüksek lisans çalışmasında, Kocaeli Üniversitesi Tıp Fakültesi Hastanesi,
Kulak, Burun ve Boğaz Bölümünden aldığı gırtlak kanseri ameliyat verileri üzerinde, kmeans algoritması kullanarak veri madenciliği çalışması yapmıştır. Veri madenciliği
çalışmalarında genellikle veriler SPSS ve MATLAB gibi paket programlar aracılığı ile
analiz edildiğine dikkati çeken Dinçer (2006), bu çalışmasında, paket programlardaki
kısıtları içermeyen ve kullanıcı açısından öğrenme süresi çok kısa ve kolay olan bir yazılım
geliştirmiştir.
Geliştirdiği uygulamada k küme sayısını 2 ile 9 arasında bir değer girilecek şekilde
sınırlanmıştır. Üst değeri belirlerken, yaptığı sınama sonuçlarına göre, 9 kümeden daha
44
fazlasının verimli olmadığını tespit etmiştir. Geliştirilen yazılım, tıp doktorlarının geçmiş
kayıtları analiz ederek, ileriye dönük tahminde bulunabilmelerini kolaylaştıran ve karar
almalarına yardımcı olabilecek bir araçtır. Uygulamadan elde edilen sonuçlardan yola
çıkılarak uygulamanın tıp fakültesi bünyesinde geliştirilerek kullanılması planlanmıştır
[14].
Danacı ve arkadaşları (2010), Irvine California Üniversitesi veri madenciliği havuzundan
aldıkları 569 hastaya ait meme altı doku örneklerini, tanı ve teşhis amacı ile
kullanmışlardır. Xcyt örüntü tanıma programı ile doku hakkında genel veriler elde edilmiş,
Weka programı kullanılarak meme kanseri hücrelerinin tahmin ve teşhisi yapılmıştır.
Verilerin 450’si eğitim verisi, 117’si test verisi olarak kullanılarak, C4.5 karar ağacı
algoritması ile karar ağacı oluşturulmuştur. C4.5 karar ağacının hastalık tanı ve teşhisinde
%97,4359 doğruluk başarısı elde edilmiştir [42].
Güllekesen, Köksal, Özdem ve Saka (2008), prostat kanseri tespiti için karar ağacı
çalışması geliştirmişlerdir. 750 hasta verisi QUEST (Qıick, Unbiased and Efficient
Statistical Tree) algoritması ile kullanılarak karar ağacı oluşturulmuştur. Geliştirilen karar
ağacı % 99 başarımıyla hastalık hakkında bilgi vermektedir. Ancak farklı etnik gruplarda
karar ağacının aynı başarımı vermeyebileceği de ifade edilmiştir [43].
Selver ve diğerleri (2007) çalışmalarında, çok katmanlı yapay sinir ağları kullanarak
otomatik ve uyarlamalı bir karaciğer bölütleme yöntemi geliştirmişlerdir. Yöntem, önişleme, sınıflama ve son işleme olmak üzere üç adımdan oluşmaktadır. 20 görüntü serisine
uygulanan yöntemin başarımı alan hata oranı ile değerlendirilmiş ve başarımın klinik
kullanım için uygun olduğu görülmüştür. Fakat karaciğer ve kalbin yakın olduğu
durumlarda daha ayrıntılı çalışmalar yapılması gerektiği belirtilmiştir [44].
45
3. ARAŞTIRMANIN TIP ALANI İLE İLGİLİ GENEL BİLGİLER
3.1. Temel Kavramlar ve Tanımlar
Allel: Bir kromozomun belli bir lokusundaki genin mevcut birkaç alternatif formundan
biridir. Bir lokusta heterozigot olan bir birey her biri ayrı kromozomda olmak üzere biri
anneden, diğeri de babadan gelen iki faklı allele sahiptir [45].
Allel frekansı: Bir allelin belirli bir toplumda görülme sıklığıdır [46].
Antijen: Bir antikora ve T hücre reseptörüne bağlanan moleküldür [45].
Antikor: B lenfositleri tarafından sentezlenen, sıklıkla antijene yüksek özgüllük ve afinite
ile bağlayan, immünoglobülin olarak da adlandırılan bir glikoprotein molekülüdür.
Antikorlar, antijen nötralizasyonu, kompleman aktivasyonu, fagositoz ve mikropların
yıkımı gibi pek çok efektör fonksiyonda rol almaktadır [45].
DNA(DeoksiriboNukleik Asit): Genellikle çift sarmal yapıda çok uzun bir molekül olup;
deoksişeker (riboz), fosfat grupları ve dört nitrojen bazından (A, T, C, G) oluşan ve
organizmadaki genetik bilgiyi taşıyan yapısal elemandır. RNA virüsleri hariç bilinen bütün
canlı organizmalarda genetik yapıyı idare eden nükleik asitlerdir [46].
Dominant gen: Baskın gen, gen ve alleller arasındaki ilişki sonucunda ortaya çıkan genetik
durumdur. Aynı lokusta bulunan allellerden biri diğerinin etkisini maskeleyerek fenotipte
etkili olmasını engeller [47].
Fenotip: Bir organizmanın genetik yapısına bağlı olarak, dış etkenlerin de etkisiyle ortaya
çıkan görünüşüdür [47].
Gen: Spesifik bir fonksiyonla ilgili kodu taşıdığı tanımlanmış olan DNA segmentidir [46].
Genotip: Bir canlının sahip olduğu baskın ve çekinik genlerin toplamına genotip denir
[47].
46
Haplotip: Bir kromozom üzerinde bulunan, birbirine yakın lokuslardaki allel
kompleksleridir. Anne ya da babadan kalıtılırlar [48].
Heterozigot: Homolog kromozomlar üzerinde, birbirine karşılık gelen allellerin farklı
olması durumudur [47].
Homozigot: Homolog kromozomlar üzerinde, birbirine karşılık gelen allellerin ikisinin de
aynı olması durumudur [47].
Kromozom: Ökaryotik hücre çekirdeğinde, prokaryotik hücre sitoplâzmasında bulunan
yoğun yapılar olup; içlerinde, organizmanın genlerini taşırlar [46].
Lokus: Bir genin veya DNA dizininin kromozom üzerinde bulunduğu yere verilen addır
[47].
Polimorfizm: Bir popülasyonda aynı gen için çok sayıda allelin bulunması durumudur [46].
Popülasyon: Belli bir zaman diliminde belli bir coğrafi bölgede yaşamış olan bireylerden
oluşan topluluktur [46].
Resesif gen: Çekinik gen, sadece homozigot halde iken (AA veya BB) etkisini gösterebilen
genlerdir. Allelin aynı lokusta bulunması (homozigot) durumda etkisini gösterebilen
gendir. Baskın allelin varlığında etkisini gösteremez [47].
3.2. Organ Transplantasyonu (Nakil) ve Atılım (Ret)
Son dönemdeki pek çok organ yetmezliğinin tek tedavi şekli, organ naklidir. Vücutta
görevini yapamayacak kadar hasta ve hatta bedene zararlı hale gelen bir organın yerine
canlı bir vericiden veya kadavradan alınan sağlam ve aynı görevi üstlenecek bir organın
nakledilmesi
işlemine
"Organ
Nakli"
veya
"Organ
Transplantasyonu"
Transplantasyon işlem zincirinin en önemli halkalarından biri,
denir.
transplantasyon
immünolojisidir. Bu aşama, organ alıcısı ile vericisi arasında doku uyumunun olup
olmadığının ortaya konduğu en kritik aşamadır [49].
47
Transplantasyon işleminde karşılaşılan ilk engel alıcı ve verici arasındaki yapısal (antijenik
özelliklerindeki) farklılıktır. Alıcı için yabancı olan vericinin yapısal antijenleri, alıcının
bağışıklık sistemini uyararak immün cevabı başlatır ve antijenlere karşı antikor üretilir.
Bunun sonucunda nakledilen organda veya nakil yapılan hastada istenmeyen hasarlar
ortaya çıkar. Bu tip reaksiyonların gelişmemesi ve azaltılması için transplantasyon öncesi
alıcı ve vericinin genetik benzerliği iyi belirlenmeli, yorumlanmalı ve bu kriterler
doğrultusunda en uygun vericinin seçimi yapılmalıdır.
Transplantasyonun reddedilmesinin temel sebebi bağışıklık sistemidir. Nakil yapılan organ
veya doku, bağışıklık sistemi tarafından ‘yabancı’ olarak görülüp, tanınır ve organının
reddine yol açar [49]. Reddin ana belirleyicileri Büyük Doku uyumu Kompleks (Major
Histocompability Complex MHC) molekülleridir. MHC, T lenfositleri tarafından tanınan
peptit bağlayıcı molekülleri kodlayan yüksek polimorfik genleri içeren büyük bir lokustur.
İnsan MHC’si insan lökosit antijen (Human Leukocyte Antigen HLA) kompleksi olarak
adlandırılır [45].
Alıcının bağışıklık sistemi, vericinin HLA antijenlerinden yabancı olarak gördüklerine
karşı saldırıya geçer. MHC moleküllerinin (insanda HLA) pek çok farklı allelleri
bulunmaktadır. Organ reddinin gücünü azaltmanın bir yolu verici ve alıcı arasında
karşılaştırma yapmak ve mümkün oldukça ortak allel taşımalarını sağlamaktır. Birbiriyle
ilişkisiz alıcı ve vericiler arasında HLA uyumu, MHC lokuslarındaki yüksek derecedeki
polimorfizm nedeniyle nadiren mükemmel olabilmektedir [49].
Transplantasyonda organın reddini önleyen iki önemli yöntem vardır:
- Antijenik farklılıkları en aza indirmek için, verici ve alıcı arasında karşılaştırma
(match). Verici ve alıcı uyumu ne kadar fazlaysa, ret o kadar az olacaktır.
- Organa karşı oluşan immün yanıtı engellemek için, immün baskılayıcı ajanların (immün
baskılayıcı ilaçlar) kullanılması gerekir [45].
Genel olarak alıcı ve verici arasında uyumsuz antijen (mismatch) sayısı arttıkça nakledilen
organın yaşam süresi azalmaktadır ve hasta daha yoğun immünsüpresif tedaviye ve
komplikasyonlarına maruz kalmaktadır. Bu nedenle donör ile alıcının HLA antijenlerinin
belirlenmesi büyük önem taşımaktadır [50].
48
3.3. HLA (Human Leukocyte Antigen)
Doku uyumu çalışmaları, Büyük Doku Uyumu Antijenleri (MHC) ile ilgili uygulanan tüm
testleri kapsamaktadır. HLA tiplendirimi, HLA antijenlerine karşı gelişmiş (anti-HLA)
antikorların tespiti, “cross-match” çalışmaları, hücresel testler bu çalışmalar arasında
sayılabilir [46].
HLA, İngilizce “ Human Leukocyte Antigen” kelimelerinin kısaltılmış halidir. Çok sayıda
ve çeşitte HLA antijen çifti bulunur (en çok bilinenleri A, B, C, DR, DQ ve DP'dir). Annebabadan bu antijenlerin her birinden birer tane alınır (ve çocuklara her çiftten birer tanesi
kalıtsal olarak aktarılır).
HLA’nın temel klinik uygulamaları; transplantasyon/transfüzyon ve hastalık çalışmaları
olarak özetlenebilir. Bu iki grubun yanı sıra antropolojik çalışmalarda ve babalık testi
amacıyla da kullanılmaktadır [46].
HLA’ları kodlayan gen bölgesi, insanda 6. kromozom üzerinde bulunur. İnsan
genomundaki en polimorfik gen bölgesidir. Moleküler testler doku tipi antijenlerini
kodlayan bu genlerin belirlenmesini sağlar.
Şekil 3.1. HLA kompleksinin insanın 6. kromozomunun kısa kolu üzerindeki yeri ve
kompleks içindeki genlerin pozisyonları [50].
HLA, kodlanan proteinlerin özelliklerine göre Sınıf I, II, III olarak alt bölgelere ayrılır.
Sınıf-I (HLA -A, -B, -C, -E, -F, -G), Sınıf-II (HLA-DR, -DP, -DQ, -DO,-DN) ve Sınıf-III
49
(C2, C4A, C4B, PF, TNF-α) lokusları yer almaktadır. Her lokusta 2 allel gen bulunur ve
bunlar numaralarla gösterilir: HLA-A2, HLA-B35, HLA-DR8, HLA-Bw16 gibi [2].
HLA -A, -B, -C; klasik Sınıf-I antijenleridir, hemen her dokuda bulunurlar, fonksiyonları
daha iyi bilinmektedir. HLA-E, -F,-G non-klasik Sınıf-I antijenleridir, daha az sayıda
dokuda bulunurlar [50].
Sınıf I moleküller, tüm çekirdekli hücrelerin yüzeyinde bulunabilirken Sınıf II moleküller
sadece B lenfositlerde, profesyonel olarak antijen sunan (APC) monosit, makrofaj,
dentritik hücrelerin yüzeyinde bulunmaktadır [2].
Her insan, 6 tane sınıf I MHC alleli (her ebeveynden birer HLA-A, B ve C alleli) ve en az
6 tane de sınıf II MHC alleli (her ebeveynden birer HLA-DR, DQ ve DP alleli) ve bunların
bazı kombinasyonlarını taşır. MHC genleri yüksek derecede polimorfiktir [49]. Bu
nedenle, tek yumurta ikizleri hariç, her birey diğer bireyin bağışıklık sistemine yabancı
olabilecek bazı MHC proteinlerini eksprese eder. MHC moleküllerinin tümü ret hedefi
olabilir. Ancak, HLA-C ve HLA-DP sınırlı polimorfizme sahiptir ve muhtemelen daha az
düzeyde önem taşır [45].
3.3.1. Anti-HLA antikorları
Anti-HLA antikorları kişinin, yabancı HLA antijenlerine immün yanıt olarak
gelişebilmektedir. Sınıf I anti-HLA antikorları HLA-A,-B,-C’ye karşı, Sınıf II antikorları
ise HLA-DR,-DP ve DQ’ya karşı gelişen antikorlardır. Anti-HLA antikorlarının oluşumu
kişiye göre değişebilir. Anti-HLA antikorlarını oluşturan 3 neden mevcuttur [50].

Kan transfüzyonları: Kan transfüzyonları anti-HLA antikor oluşumunun en büyük
risklerden biridir. Ortalama 5 ünite tam kan transfüzyonu sonrası antikor gelişme riski
vardır. Bazen 1 ünite kan transfüzyonu sonrasında antikor gelişiminin pozitif olduğu
durumlar da görülebilmektedir.

Gebelik: Özellikle birden fazla gebeliği (düşük, kürtaj hikayesi) olan bayanlarda
yaklaşık 1/8 oranında anti-HLA antikoru meydana gelebilmektedir. Her gebelikte HLA
antikoru oluşmaz. Normalde plesenta babadan gelen HLA antijenlerinin anneye
50
geçmesine izin vermez. Ancak plasentaya bağlı anomalilerde, kanama olduğunda baba
kaynaklı antijenler anne kanına karışır ve annede antikor meydana gelebilir.

Organ transplantasyonu: Antikorlar, organ nakilleri sonrası görülen organ reddinde
hemen artmaya başlar. Bu yüzden nakil sonrası dönemlerde organ reddi şüphesi olan
hastalarda düzenli aralıklarla anti-HLA antikorlarına bakılması gerekmektedir.
3.3.2. Panel reaktif antikorlar (PRA)
Panel reaktif antikorlar (PRA) olarak ifade edilen yaklaşım, hastada HLA antijenlerine
özgü antikorların olup olmadığını saptamak için yapılır [51]. Kan transfüzyonu yapılan,
daha önce organ nakli olmuş ve gebe kişiler HLA antikorları açısından kontrol
edilmelidirler. Antikor varsa antikorun tipi ve hangi HLA antijenine karşı olduğu
bilinmelidir. Organ nakline aday hastaların serumunda HLA antijenlerine karşı antikor
varlığının tespiti için tarama ve tanımlama testleri yapılır. PRA, hasta serumunda antijene
karşı ne kadar anti-HLA antikoru bulunduğunu % PRA olarak gösteren değerdir [50].
Şekil 3.2. PRA paneli [52]
PRA bir hastanın doku veya organ nakli olamayacağı HLA antijenlerini belirler. Bu
nedenle hasta seçiminde HLA doku tipleri uyumundan sonra ikinci sırada PRA gelir. PRA
51
oranı yüksek hasta cross-match negatif bir organ bulunduğunda, PRA düşük ve uyumlu bir
hastadan daha öncelikli bir hal alır. Bunun nedeni PRA pozitifliği olan hastanın tekrar
cross-match negatif bir organ bulma şansının düşük olmasıdır. PRA’nın bir diğer önemi de
hastayı muhtemel bir organ naklinde sanal cross-match imkânı tanıyarak nakil için hazır
tutmasıdır [2].
3.3.3. Transplantasyon ve HLA uyumu
Transplantasyonda immün toleransın sağlanabilmesi ve bu suretle, nakledilen organın
alıcıda reddedilmeden kalabilmesi için alıcı ve vericinin MHC antijenlerinin birbirine
uyması gerekir. Terminolojik olarak HLA tam uyumlu (full match) demek, 6 antijenin
tamamının (2A, 2B, 2DR) aynı olması anlamına gelir [50].
Şekil 3.3. HLA uyum örnekleri [53]
Şekil 3.3’deki HLA uyum örneklerinden X örneği, 6'da 6 uyum A, B, DRB1'de kusursuz
uyum olduğunu anlamına gelir. 10'da 10 uyum ise hastanın antijenlerinin (A, B, DRB1, C
ve DQ) tümünün donörün antijenleri ile uyumluluğunu gösterir. Y örneği ise hastanın A
antijenlerinden birinin donörün A antijenlerinden biriyle uyumsuzluğunu göstermektedir.
Dolayısıyla buradaki uyum, 6'da 5 veya 10'da 9’dur [53].
Kimi HLA tiplemeleri diğerlerinden daha yaygındır. Buna ek olarak, kimi HLA tiplerine
bazı ırksal ve etnik gruplarda diğerlerinden daha sık rastlanır. Bu, uygun bir donör
bulmadaki en yüksek şansın, hasta ile benzer ırksal ve etnik kökene sahip kişiler arasında
olabileceği anlamına gelmektedir.
52
3.4. Popülasyon Genetiği
Popülasyon genetiği, popülasyonun genetik özelliklerini ve bu özellikleri belirleyen
etmenleri inceleyen bilim dalıdır [54]. Popülasyon genetiğinin temelleri Sewall Wright,
J.B.S. Haldane ve Ronald Fisher tarafından atılmıştır [55].
Popülasyon genetiği, toplumlarda genlerin dağılımını ve bu gen frekanslarının nasıl
korunduğu ya da değiştiğini inceler. Örneğin, “A Rh(+) kan grubuna sahip bir kişiye kan
ihtiyacı olduğunda toplumun yüzde kaçının kan verebileceği” sorusu popülasyon
genetiğinin ilgi alanına girer.
Popülasyon genetiği araştırmalarını şu dört temel evrimsel mekanizmayı esas alarak yapar:
doğal seçilim, genetik sürüklenme, mutasyon ve gen akışı [54].
Gen frekanslarının hesaplanmasında gen havuzu kavramından yararlanılır. Gen havuzu,
her bireyin iki genle (gametle) katkıda bulunduğu genler topluluğunu ifade eder. Bu
durumda homozigot birey gen havuzunda aynı çeşit iki genle heterozigot birey ise farklı
çeşit iki genle katkıda bulunur.
Gen frekansının nasıl hesaplandığını bir örnek ile verelim: Eş baskın M ve N kan grubu
için bir popülasyonda
Çizelge 3.1. Genotip sayıları
Genotip
Sayı
MM
MN
NN
16
18
20
sayıları elde edilmiş olsun. M ve N geninin frekansları:
F(M)= (2*16+1*18) / (2*54) = 0,463
F(N)= (2*20+1*18) / (2*54) = 0,537
F(M) + F(N) = 0,463 + 0,537 = 1 olarak bulunur.
53
3.4.1. Hardy - Weinberg kuralı
Gen frekansı ilk defa 1908 yılında İngiliz matematikçi G. Hardy ve Alman doktor W.
Weinberg’in birbirinden bağımsız olarak yaptıkları çalışmalar sonucunda ortaya
konmuştur. Hardy-Weinberg analizleri sonucunda, Mendel’in 3:1 monohibrit oranın
aksine, kararlı bir popülasyonda baskın ve çekinik allellerin frekansının (bir önceki
nesillerdeki değerler nasıl olursa olsun) değişmeden kalacağını, şimdiki ve gelecek gen
frekanslarının geçmiş frekanslarla aynı olacağını buldular [56].
Hardy-Weinberg kuralına göre popülasyondaki baskın ve çekinik genlerin frekans
toplamları 1’e eşittir. Bir karakter geninin baskın A ve çekinik a allelleri olduğu
varsayılırsa ve A gen frekansı p, a gen frekansı da q ise p + q = 1 olmalıdır.
Hardy-Weinberg kuralına göre dengedeki bir popülasyonda genotip dağılımı da şu şekilde
olmalıdır.
AA homozigot baskın genotipi, aa homozigot çekinik genotipi ve Aa
hetorozigot genotipini göstermek üzere (p + q)2 = 12 binomiyal açılımından:
p2 + 2pq + q2 = 1 olduğu gibi F(AA) + F(Aa + Aa) + F(aa) = 1 olur.
Hardy-Weinberg denklemi kararlı (kapalı) bir popülasyonda geçerlidir. Böyle bir
popülasyon çok ideal ya da tümüyle teoriktir. Dengenin geçerli olması için bazı gerekli
koşullar vardır:
-
Eğer eşlemeler rastgele ise,
-
Allel frekansları erkek ve dişilerde aynı ise,
-
Yaşayabilirlik ve üretkenlik eşitse, yani seleksiyon yoksa,
-
Mutasyon yoksa,
-
Göç olmuyorsa,
-
Popülasyon yeteri kadar büyük, bu nedenle gen frekansı kuşaktan kuşağa şans eseri
değişmiyorsa, denklemdeki gen frekansı ve dolayısıyla denklem sabit kalır [56].
3.5. Haplotip Frekansı
HLA Haplotipi: 6. kromozom üzerinde bulunan, birbirine yakın lokuslardaki allel
kompleksleridir. Anne ya da babadan kalıtılırlar [48]. Tek bir ebeveynden geçtiği için tek
54
kromozom üzerinde bulunan majör doku uyumluluk kompleks (MHC) yani HLA
allellerinin tümüdür.
Haplotip frekansı birçok yöntemle hesaplanabilir. En doğru yöntem gen dizilimine
bakılarak yapılan hesaplama yöntemidir. Ancak bu yöntem ekstra ekipmanlar gerektirir ve
yüksek maliyetlidir. Haplotip frekansı, bütün genotiplerin eşit şekilde üretken olduğu aile
datalarından da hesaplanabilmektedir. Fakat bu yöntem de ihtiyaç duyulan data miktarını
en az % 50 oranında artırmaktadır. Haplotip frekansı popülasyon datasından da tahmin
edilebilir. Bunun için en sık kullanılan iki yöntem maksimum olasılık tahmini (maximum
likelihood estimation) ve karekök metodu (square root method)’dur [57].
Popülasyon datasından yapılan frekans hesabı sadece tahmindir, kesin olarak doğru
olduğu söylenemez. Ancak en iyi olabilirlik tahminidir. Çünkü HLA verilerinin dizilimi
bilinmemektedir. Eldeki verilerden yola çıkarak HLA dizilimi hakkında bir çıkarım
yapılır.
Çalışmada bu yöntemlerden maksimum olasılık tahmini (maximum likelihood estimation)
kullanılacaktır. Çünkü maksimum olasılık tahmini literatürde en doğru tahmin sağlayan
yöntem olarak kullanılmaktadır. Maksimum olasılık tahmini tercih edildiğinde analitik
çözüm, genetik algoritmalar ve EM algoritması mümkün metotlar olarak karşımıza
çıkmaktadır. Burada da EM algoritması tercih edilecektir.
3.6. Literatürde HLA Çalışmaları
Bardi ve diğerleri (2012), “HLA-A, B and DRB1 allele and haplotype frequencies in
volunteer bone marrow donors from the north of Parana State” adlı çalışmasında
Brezilya’da yaşayan üç farklı etnik grubun haplotip frekansları arasındaki benzerlikler ve
farklılıkları araştırmışlardır. Frekans hesabı için arlequin programını kullanmışlar ve en sık
görülen allel ve haplotip türlerinin karşılaştırmasını yapmışlardır [58].
Cecka (2010), “Calculated PRA (CPRA): The New Measure of Sensitization for
Transplant Candidates” adlı çalışmasında PRA ve CPRA değerlerinin karşılaştırmasını
yapmıştır. PRA değeri yükseldikçe CPRA ile uyumunun da arttığını tespit etmiştir. PRA
55
değeri % 80 üzeri olan hastaların % 90’ının CPRA değerinin % 80 ve üzerinde olduğu
görülmüştür [59].
Steiner (2013), doktora tezinde, hasta ve donör arasında en iyi eşleşmeyi bulan ve farklı
sistemlerle entegre çalışabilen bir arama algoritması geliştirmiştir. HLA verilerini
kullanarak haplotip tahmini yapmış ve hasta için en iyi eşleşme oranını hesaplamıştır. Çek
Cumhuriyeti için başlanmış olan çalışmaya Finlandiya, İsviçre, İsveç, Slovakya, Belçika,
İngiltere, İrlanda gibi elinde kullanılabilir ve yeterli HLA verisi bulunan ülkeler de dâhil
edilmiştir [60].
Sousa ve diğerleri (2011),
HLAMatchmaker algoritmasını kullanarak donör hasta
eşleştirmesi yapan bir uygulama geliştirmişlerdir. Program kabul edilebilir ve kabul
edilemez HLA epitoplarının analizini otomatik olarak yapmaktadır. Uygulamaya farklı
kaynaklardan veri girilebilmekte ve otomatik raporlama yapılabilmektedir. Böylece yüksek
hassasiyete
sahip
hastalar
için
hasta-donör
çiftinin
seçiminin
yönetimini
kolaylaştırmaktadır [61].
Sulcebe ve diğerleri (2009), Arnavut popülasyonu için, 160 sağlıklı bireyin HLA verileri
ile allel ve haplotip frekansı hesaplaması yapmışlardır. Bu alanda Arnavutluk için yapılan
ilk çalışmadır. 23 farklı ülke ile HLA benzerlik-farklılık karşılaştırması yapılmıştır.
Karşılaştırmalarda Arnavutluk popülasyonuna en yakın benzerlik Kuzey Yunan, Bulgar,
Makedon, Romen, Türk, Girit, Sırp, Hırvat ve İtalyan popülasyonları ile bulunmuştur [62].
Shen ve diğerleri (2010), Çin Uygur etnik grubuna ait sağlıklı ve birbiriyle ilişkisiz 104
kişinin 4 basamakta tiplendirilmiş HLA-A, -B ve –DRB1 allel bilgileri ile allel ve haplotip
dağılımlarını incelemişlerdir. EM algoritması ile haplotip frekansları bulunmuş ve en sık
görülen allel ve haplotipler verilmiştir. Daha önceki dört basamak tiplendirme çalışmaları
kullanılarak birçok ülke ile Çin Uygur etnik grubu karşılaştırılmış ve en yakın benzerlik
Xibe, daha sonra Kırgız, Hui ve Moğol popülasyonları ile bulunmuştur [63].
Cecka, Kucheryavaya, Reinsmoen ve Leffell (2011), çalışmalarında United Network for
Organ Sharing (UNOS) tarafından yayınlanan verileri analiz ederek CPRA ve PRA
arasındaki ilişkiyi incelemişlerdir. Veriler, CPRA yöntemi kullanılmaya başlanmasından
önce 2001-2002 yılları ile ve sonrasında 2009-2010 yılları arasında 6 aylık periyotlar
56
halinde gruplandırılmıştır. CPRA yöntemi kullanılmaya başlandıktan sonra nakil
verimliliğinin arttığı ve pozitif cross-match’in azaldığı görülmüştür [64].
57
4. MATERYAL VE YÖNTEM
Tez çalışmasında kullanılan veriler, Ankara ilindeki doku tiplendirme ruhsatı olan Yıldırım
Beyazıt Dışkapı Eğitim ve Araştırma Hastanesi Doku Tiplendirme Laboratuvarından elde
edilmiştir.
2012, 2013 ve 2014 yıllarına ait yaklaşık 4500 hasta ve vericinin HLA verilerinden, uzman
eşliğinde yapılan analiz sonucunda 1192 kaydın HLA verisinin bu tez çalışması için
kullanılabilir olduğu görülmüştür.
Frekans hesaplamada birbiriyle akrabalık bağı bulunmayan bu 1192 sağlıklı bireyin 5
lokusa ait HLA doku tipi verileri kullanılmıştır.
Laboratuvarda her bireyin yapılacak işleme göre HLA doku tiplendirimi yapılmaktadır. Bu
nedenle her bireyin beş lokus ait HLA verilerinin tamamı bulunmamaktadır.
Laboratuvardan alınan 1192 kaydın tamamında HLA-A, HLA-B ve HLA-DR, 1192 kaydın
sadece 185’inde beş lokus ait HLA verisi bulunmaktadır.
Elde edilen bu veriler ile allel ve haplotip frekansları hesaplaması yapılmıştır. Allel
frekansı hesaplanması ve haplotip frekans tahmininde literatürde de kullanılan Arlequin
3.5.1.3 uygulamasının script olarak çalıştırılabilen arlecore versiyonu kullanılmıştır.
Elde edilen frekans değerleri kullanılarak da CPRA hesabı yapan bir masaüstü ve bir de
web uygulaması geliştirilmiştir. Tüm bu uygulama geliştirme adımları, uygulama kısmında
detaylı olarak anlatılacaktır.
Uygulamalar Microsoft Visual Studio 2010 program geliştirme ortamında, C#
programlama dili kullanılarak geliştirilmiştir.
58
4.1. Arlequin
Arlequin programı, popülasyon genetiğinde veri analizi yapmak için kullanılan bir
uygulamadır. Arlequin, kullanımı basit ve içerisinde birçok popülasyon genetiği analiz
yöntemini barındıran bir programdır [65].
Şekil 4.1. Arlequin programı arayüzü
Kullanıcının programı öğrenme süresi ile zaman kaybetmeden analiz aşamasına
geçebilmesi amacıyla geliştirilmiştir. Ancak girdi dosya formatı biraz karmaşık bir yapıya
sahiptir. Arp uzantılı proje dosyası şeklinde hazırlanmış girdi dosyaları ile çalıştırılır. Şekil
4.2’de girdi dosyası örneği verilmiştir.
59
Şekil 4.2 Arlequin proje dosya formatı
Şekil 4.2’de de görüldüğü gibi proje dosyasının giriş kısmında verinin genel özelliklerinin
belirtildiği profil alanı, daha sonra ise dataların bulunduğu alan bulunmaktadır. Data alanı
içerisinde bir ya da daha fazla popülasyon datası tanımlanabilmektedir. Her bir popülasyon
için örneklem (Sample) adı ve boyutu bilgilerinden sonra datası gelecek şekilde veriler
tanımlanmalıdır. Örneklem datası tanımlanırken ilk satırın, ilk sütunda “kayıt_no” bilgisi
daha sonra bu kaydın sayısı ve son olarak muhtemel haplotiplerden biri, alt satıra sadece
diğer haplotip bilgisi olacak şekilde yazılır.
Arlequin ile arp proje dosyası seçilip yüklendikten sonra arayüzden yapılmak istenilen
analizin yöntemi ve ayarları belirtilir. İstenilirse daha önceden hazırlanmış bir ayar dosyası
yüklenilerek ayarlar otomatik olarak yapılabilmektedir. Arlequin aynı anda birden fazla
analiz yönteminin seçilebilmesine imkân vermektedir. Ayarlar yapıldıktan sonra “çalıştır”
düğmesine (buton) basılarak analiz çalışması başlatılır.
60
İşlemler tamamlandığında proje dosyasının bulunduğu dizine, “proje_dosyasının_adı.res”
şeklinde bir klasör oluşturup, içinde “proje_dosyasının_adı.xml” dosyasına sonuçları
kaydeder.
Arlequin programı; genotip bilgisi verilen kayıtlar için ELM ya da EM algoritması ile
haplotip frekans tahmini yapabilmektedir. Ancak programın bazı sınırlama ve
yetersizlikleri söz konusudur. Örneğin; haplotip frekans tahminini sadece verilen
kombinasyon ve istenilirse üç ve üzeri lokus genotip bilgisi girilen veriler için ikili
kombinasyonlarının da hesaplamasını yapabilmektedir. Fakat CPRA hesaplaması için
bütün haplotip kombinasyonlarında frekansların bilinmesi gerekmektedir.
Arlequin programındaki bu yetersizliği ortadan kaldırmak için, eldeki verileri 1’li, 2’li,
3’lü, 4’lü ve 5’li haplotip kombinasyonlarında arlequin proje dosya formatına dönüştüren
bir uygulama geliştirilmiştir. Uygulama, oluşturulan bu dosyaları, arlequin programında
EM algoritması ile çalıştırıp ve çıktı dosyalarını tek tek okuyup, haplotip frekanslarını tek
dosyada birleştirmektedir. Tek dosyada birleştirilen bu frekans değerleri kullanılarak da
CPRA hesabı yapan bir masaüstü ve bir de web uygulaması geliştirilmiştir. Tüm bu
uygulama geliştirme adımları, uygulama kısmında detaylı olarak anlatılacaktır.
4.2. CPRA’nın Hesaplanması
CPRA hesabı popülasyon genetiğinde Hardy-Weinberg kuralı olarak bilinen formül
kullanılarak yapılmaktadır. Zachary, frekans tahmini yaparken tüm allelleri, ilgilendiği
alleller (A+) ve diğerleri (A-) olarak iki duruma indirgemiştir. İlgilendiği allellin frekansı p
ve diğerlerinin toplam frekansı (1-p) olmak üzere fenotip frekansı:
Çizelge 4.1. Fenotip frekansları
Fenotip
A+
A-
Frekans
p2+2p(1-p)
(1-p)2
olarak gösterilir. F(A+) = p2+2p(1-p) ya da F(A+) = 1- (1-p)2 şeklinde yazılabilir [57].
61
PRA yöntemi, antikorların paneldeki antijenlerle eşleşmesi prensibine dayandığından eğer
hastanın HLA antikor türleri bilinirse toplumun allel frekansları kullanılarak PRA değeri
teorik olarak hesaplanabilir. Hastanın antikorlarından dolayı organ kabul edemeyeceği
antijenler ilgi alanına alınarak kabul edilemeyecek allellerin frekansı 1- (1-p)2 ile
hesaplanabilir. Kişinin taşıyacağı birden çok antikor olacağından CPRA; 1- (1-∑pi)2
formülüyle hesaplanır [65]. ∑pi ilgilenilen kabul edilemeyecek allellerin frekans toplamını
ifade etmektedir.
S1: 1 lokus haplotip frekans toplamı (A, B, C, DQ, DR)
S2: 2 lokus haplotip frekans toplamı (AB, AC, ADQ, ADR, BC, BDQ, BDR, CDQ, CDR,
DQDR)
S3: 3 lokus haplotip frekans toplamı (ABC, ABDQ, ABDR, ACDQ, ACDR, ADQDR,
BCDQ, BCDR, BDQDR, CDQDR)
S4: 4 lokus haplotip frekans toplamı (ABCDQ, ABCDR, ABDQDR, ACDQDR,
BCDQDR)
S5: 5 lokus haplotip frekans toplamı (ABCDQDR)
olmak üzere CPRA = 1- (1 - S1 + S2 - S3 + S4 - S5)2 bulunur.
Konuyu bir örnek üzerinden açıklamak gerekirse; alıcının serumunda, HLA-A*02, B*08,
C*07, DQ*03, DR*05 anti HLA antikorlarının bulunduğu kabul edelim. Dolayısıyla
hastaya bu antikorların kabul etmeyeceği antijenleri taşıyan donörlerden nakil
yapılamayacaktır. Organ kabul edilemeyecek antijenlerin 1, 2, 3, 4 ve 5 lokus için haplotip
frekans değerleri
Çizelge 4.2. Bir lokus haplotipler ve frekanslar
1 lokus haplotip
Frekans
A*24
0,160686
B*35
0,216589
C*04
0,202632
DQ*03
0,455263
DR*11
0,217889
Toplam=S1
1,253059
62
Çizelge 4.3. İki lokus haplotipler ve frekanslar
2 lokus haplotip
Frekans
A*24 B*35
0,0598
A*24 C*04
0,051393
A*24 DQ*03
0,074735
A*24 DR*11
0,049866
B*35 C*04
0,189406
B*35 DQ*03
0,153575
B*35 DR*11
0,056147
C*04 DQ*03
0,133515
C*04 DR*11
0,064083
DQ*03 DR*11
0,221053
Toplam=S2
1,053573
Çizelge 4.4. Üç lokus haplotipler ve frekanslar
3 lokus haplotip
Frekans
A*24 B*35 C*04
0,052118
A*24 B*35 DQ*03
0,036105
A*24 B*35 DR*11
0,018931
A*24 C*04 DQ*03
0,02712
A*24 C*04 DR*11
0,026614
A*24 DQ*03 DR*11
0,061468
B*35 C*04 DQ*03
0,129834
B*35 C*04 DR*11
0,055645
B*35 DQ*03 DR*11
0,059906
C*04 DQ*03 DR*11
0,057611
Toplam=S3
0,525352
63
Çizelge 4.5. Dört lokus haplotipler ve frekanslar
4 lokus haplotip
Frekans
A*24 B*35 C*04 DQ*03
0,028939
A*24 B*35 C*04 DR*11
0,026207
A*24 B*35 DQ*03 DR*11
0,02891
A*24 C*04 DQ*03 DR*11
0,027419
B*35 C*04 DQ*03 DR*11
0,067032
Toplam=S4
0,178507
Çizelge 4.6. Beş lokus haplotipler ve frekanslar
5 lokus haplotip
Frekans
A*24 B*35 C*04 DQ*03 DR*11
0,029468
Toplam=S5
0,029468
olduğu varsayılırsa
CPRA = 1- (1 - S1 + S2 - S3 + S4 - S5)2
CPRA = 1- (1 - 1,053573 + 1,053573 - 0,525352 + 0,178507 - 0,029468)2
CPRA = 1- (1 - 0,575799)2 =1- (0,424201)2= 1- 0,179946488
CPRA = 0,820053512 olarak bulunur. Yani toplumun % 82’si bu hastaya organ vermek
için uygun değildir.
4.3. Uygulama
Tez çalışmasında uygulanan veri madenciliği basamaklarının, çalışmada gerçekleştirilen
adımlar hakkında genel bir fikir oluşturması amacıyla, özet gösterimi Şekil 4.3’te
verilmiştir. Devamında, özet olarak verilen adımlar ayrıntılı olarak açıklanmaktadır.
64
Şekil 4.3. Tezde uygulanan veri madenciliği adımları
65
Tez çalışmasında kullanılan HLA verileri, Ankara Yıldırım Beyazıt Dışkapı Eğitim ve
Araştırma Hastanesi doku tiplendirme laboratuvarından elde edilmiştir. 2012, 2013 ve
2014 yıllarına ait sağlıklı organ bağışçılarının HLA verileri kullanılmıştır.
Yıllara göre ayrı ayrı düzenlenmiş excel dosyalarında tutulan HLA bilgileri, ilgili alanlar
aynı sütunlara gelecek şekilde tek dosyada birleştirilmiştir. Hastalar her yıl 1’den
başlanarak numaralanmıştır. Birleştirme işleminden sonra mükerrer kayıt numaraları
olduğundan, yeni bir sütunda tüm kayıtlara “yıl-sıra_no” şeklinde 1’den başlayarak sıra
numarası verilmiştir.
Laboratuvardan alınan HLA-A, B, C, DQ, DR doku tipi bilgileri 4 basamak olarak
alınmıştır. Ancak eldeki veriler incelendiğinde, verilerin % 50’den fazlasının 3. ve 4.
basamak bilgilerinin eksik olması nedeniyle, her bir lokusun 3. ve 4. basamak bilgileri
veriden çıkarılmış ve 2 basamak tiplendirme değerleri kullanılmıştır.
Tez çalışmasının kapsamı Türk toplumu ile sınırlı olduğundan, Türkiye dışından gelen
donör bilgileri araştırma dışı bırakılmıştır. Bir biri ile yakın akraba olan donörler de
frekans hesabında sapmalara yol açacağından, yakın akrabalardan biri rasgele seçilerek
diğerleri listeden çıkarılmıştır.
Elde kalan verilerin HLA bilgileri uzman eşliğinde incelenmiş ve HLA bilgisi hatalı
girildiği tespit edilen kayıtlar listeden çıkarılmıştır. Tüm bu işlemlerden sonra elimizde
1192 kayıt kalmıştır.
1192 adet donörün HLA verisi kullanılarak, maksimum olabilirlik yöntemleri ile muhtemel
haplotipler belirlenmiş ve haplotip frekans tahmini yapılmıştır. Haplotip frekans tahmini
için EM algoritması kullanılmıştır. EM algoritmasının tercih edilmesinin nedenlerinden
biri, EM algoritmasının her bir nesnenin her bir kümeye olan üyeliğini kesin bir ölçüt
yerine, bir olasılık değerine göre belirlemesidir. Yani her eleman belli bir oranda bir
kümenin üyesidir.
EM algoritmasının tercih edilmesinin diğer nedeni de, EM
algoritmasının veri datası içinde kayıp veriler olsa bile en iyi olabilirlik kestirimi yapan
istatistiksel bir yöntem olmasıdır. Araştırmada kullanılan verilerde kayıp veri
bulunmamakla beraber geliştirilen uygulama ile ileride farklı merkezlerden toplanacak
66
verilerle yeni frekans tahmini yapılmak istenirse uygulamanın eksik verilerden
etkilenmeden frekans tahmini yapabilmesi amaçlanmıştır.
Hesaplanan
frekans
değerleri
kullanılarak
CPRA
hesabı
yapan
bir
uygulama
geliştirilmiştir. Geliştirilen uygulamaların akış şeması Şekil 4.4’te verilmiştir.
Şekil 4.4. Uygulama akış şeması
4.3.1. Arlecore ile frekans tahminleme uygulaması
Frekans tahmininde, literatürde haplotip frekans tahmini için kullanılan Arlequin
programının bir türü olan arlecore programı kullanılmıştır. Ancak arlecore programı ile tek
dosyadaki
verilerden
yapılamamaktadır.
bütün
CPRA
kombinasyonlar
hesaplaması
için
için
bütün
haplotip
haplotip
frekans
tahmini
kombinasyonlarında
frekansların bilinmesi gerekmektedir.
Bu nedenle beş lokus için CPRA hesabı yapılmak istenirse (26’sı iki ve üzeri lokus
haplotip kombinasyon frekansları, 5’i her bir lokusun allel frekansı için) 31 adet haplotip
kombinasyonunun frekans hesaplaması yapılmalıdır. Arlequin programı ile bu işlem
yapılmak istendiğinde ise 31 farklı kombinasyonda girdi dosyası oluşturulması
67
gerekmektedir. Eğer grafik ara yüzü olan Arlequin programı kullanılırsa her bir girdi
dosyasının tek tek çalıştırılması ve oluşan sonuç dosyalarının içinden frekans bilgileri
toplanarak CPRA hesabı için kullanılmalıdır. Bu durum da kullanıcıya büyük zorluk
oluşturmaktadır.
Bu problemi ortadan kaldırmak için bu işlemleri otomatik olarak yapan bir uygulama
geliştirilmiştir. Uygulamaya öncelikle excel ya da csv formatında hazırlanmış bir dosyanın
yüklenmesi gerekmektedir. Yüklenecek dosyanın formatı, ilk sütunda kayıtno, diğer
sütunlarda ise alfabetik sırada HLA bilgileri (her lokus çifti yan yana olacak şekilde)
yazılmış şekilde olmalıdır.
Şekil 4.5. Frekans hesabı için yüklenecek HLA datasının excel dosya formatı
Eğer csv formatında bir dosya yüklenecek ise her sütun ayraç karakteri (noktalı virgül) ile
ayrılarak yazılmalıdır.
68
Şekil 4.6. Frekans hesabı için yüklenecek HLA datasının csv dosya formatı
Uygun formatta düzenlenmiş dosya yüklenip, “Frekans Hesapla” düğmesine basıldığında,
seçilen dosyadaki veriler ile 1’li, 2’li, 3’lü, 4’lü ve 5’li kombinasyonlarda arlequin proje
dosyası (arp) formatında proje dosyaları oluşturulur. Proje dosyaları oluşturulurken, eğer
verilerde, bilgisi girilmemiş alanlar varsa bu alanlar dikkate alınarak haplotip
kombinasyonları oluşturulur. 4 lokus bilgisi tam olan ancak HLA-DQ bilgisi girilmemiş
bir kayıt için en fazla 4 lokus haplotip kombinasyonu oluşturulabilmektedir.
Şekil 4.7. Frekans hesaplama uygulaması ekran görüntüsü
Arlecore programının hangi yöntemi, hangi parametrelerle kullanacağı ayar dosyasında
(ars) belirtilmiştir. Ayar dosyasında haplotip frekans hesaplaması için kullanılacak yöntem
69
olarak EM algoritması belirtilmiş ve EM algoritmasının başlangıç durumu 500, epsilon
1*10-5 ve maksimum iterasyon 1000 değeri ile konfigüre edilmiştir.
Oluşturulan 31 adet haplotip proje dosyası sırayla ve ayar dosyası ile birlikte, arlecore
programına
parametre
olarak
gönderilerek
çalıştırılır.
Oluşturulan
haplotip
kombinasyonlarının frekans tahminleri bulunur.
Şekil 4.8. Haplotip frekans hesaplama uygulaması akış şeması
Arlecore programı, her hesaplamanın sonucunu proje dosyasının bulunduğu dizinde,
“proje_ dosya_ adı .res” adında bir klasör oluşturup içinde xml dosyasına kaydeder.
Tüm proje dosyaları çalıştırıldıktan sonra, sonuç klasörlerindeki haplotip frekans değerleri
tek dosyada birleştirilir. Tek dosyada toplanan frekans değerleri CPRA hesaplamasında
kullanılmaktadır.
İstenilirse ara yüzde bulunan “Frekans Dosyasını Kopyala” düğmesine basarak frekans
dosyasının kopyası alınabilir. CPRA web uygulamasına yüklenerek program güncellenmiş
frekans değerleri ile çalıştırılabilmektedir.
70
Geliştirilen uygulama 600, 1200 ve 2400 kayıt HLA verisi içeren dosyalar için ayrı ayrı
çalıştırılarak performans testi yapılmıştır. Performans testi, Windows 7 Professional işletim
sistemi, 4 GB RAM ve İ5 (3.3GHz) işlemci donanıma sahip bilgisayarda yapılmıştır.
Sisteme yüklenen verilerin arlequin proje dosyasına dönüştürülmesi, arlecore programı ile
bu dosyalardan frekans hesaplatılması ve sonuç dosyalarının tek dosyada birleştirilmesi
için geçen süreler karşılaştırılmıştır.
Yukarıda belirtilen işlemler, 600 kayıt için 42
saniyede, 1200 kayıt için 3 dakika 29 saniyede, 2400 kayıt için ise 4 dakika 34 saniyede
tamamlanmıştır. Yapılan performans testinin ekran görüntüleri EK 3’te verilmiştir.
Çizelge 4.7. Performans karşılaştırma sonuçları
Kayıt Sayısı
Geçen Süre
600
42 Sn
1200
3 Dk 29 Sn
2400
4 Dk 34 sn
4.3.2. CPRA hesaplama masaüstü uygulaması
CPRA hesaplama uygulaması, kolay kullanım için basit bir ara yüze sahip olacak şekilde
tasarlanmıştır. Uygulama açıldığında kullanıcının seçebileceği antijen listeleri, Allel.csv
dosyasından okunarak ekranda listelenir (Şekil 4.9).
71
Şekil 4.9. CPRA hesaplama masaüstü uygulaması ekran görüntüsü
Kullanıcı; hasta için “kabul edilemez antijenleri” seçip “Hesapla” düğmesine bastığında,
seçilen allellerden oluşabilecek tüm haplotip kombinasyonları oluşturulur ve frekans
dosyasından bu haplotiplerin frekans değerleri bulunur. Bu frekans değerleri ile S1, S2, S3,
S4, S5 toplamları bulunur ve CPRA formülünde (1- (1-∑pi)2 = 1- (1 - S1 + S2 - S3 + S4 S5)2) yerine konularak CPRA değeri hesaplanır.
72
Şekil 4.10. Masaüstü uygulamasında CPRA hesaplama
CPRA değeri toplumun % kaçının hasta için uygun donör olmadığını ifade eder. O hasta
için, CPRA değerini 1’den çıkartarak, toplumdaki uygun donör oranı bulunmuş olur.
Eğer elimizde farklı bir topluma ait sadece haplotip frekans bilgileri varsa bu bilgileri
frekans dosyası formatında txt olarak düzenledikten sonra “Menü” başlığı altındaki
“Frekans Dosyasını Güncelle” sekmesine tıklayarak, programa yüklenebilir (Şekil 4.11).
Bu frekans değerleri kullanılarak, o topluma ait CPRA değeri de hesaplanabilir.
Şekil 4.11. CPRA menü içeriği
73
Ayrıca yeni bir allel türünün listeye eklenmesi veya değiştirilmesi gerekirse, Allel.csv
dosya formatında düzenlenmiş bir dosyayı “Menü” başlığı altındaki “Allel Dosyasını
Güncelle” sekmesine tıklayarak, allel listeleri güncellenebilmektedir. Böylece herhangi bir
programlama
gerekmeden
program
güncellenebilecektir.
Bu
programın,
sağlık
hizmetlerinde çalışanlar tarafından kullanılacağı düşünülürse bu, onlar için büyük kolaylık
oluşturacaktır.
4.3.3. CPRA hesaplama web uygulaması
CPRA hesaplama web uygulaması da masaüstü uygulamasında olduğu gibi dosyalardan
okuyarak dinamik olarak oluşturulan allel listeleri ile açılmaktadır. Masaüstü
uygulamasındaki gibi basit bir ara yüzden seçilen “kabul edilemez antijenler” için CPRA
hesabı yapılmaktadır.
Şekil 4.12. CPRA hesaplama web uygulaması ekran görüntüsü
74
Şekil 4.13. Web uygulamasında CPRA hesaplama
Web
uygulamasında
da
allel
ve
frekans
bilgilerinin
bulunduğu
dosyaların
güncellenebileceği bir arayüz sayfası bulunmaktadır. Kullanıcılar, kullanıcı adı ve şifre
bilgilerini girerek bu sayfaya erişebilmektedirler. Kullanıcı bu ekrandan ilgili dosyayı seçip
“Yükle” düğmesine bastığında seçilen dosya sisteme yüklenir (Şekil 4.14). Program
işlemleri bu dosyadaki veriler ile yapar.
Dosyaların güncellenmesi ile CPRA web
uygulaması, hiçbir programlama gerektirmeden güncellenmiş olacaktır.
75
Şekil 4.14. CPRA web uygulaması yönetim sayfası ekran görüntüsü
Uygulamanın web tabanlı hazırlanması, elinde yeterince HLA verisi olmayan merkezler
için kolayca erişerek kullanabilecekleri bir CPRA hesaplama uygulamasına imkân
sağlayacaktır.
4.4. Bulgu ve Değerlendirmeler
Ön işlemlerdeki elemelerden sonra kalan 1192 kaydın tamamında HLA-A, -B ve -DR
bilgisi vardır. Ancak 1192 kaydın sadece 185’inin HLA-C ve –DQ bilgisi vardır. Bu
nedenle HLA-C ve –DQ içeren haplotiplerin frekansları 185 kayıt üzerinden, diğer
haplotiplerin frekansları ise 1192 kayıt üzerinden hesaplanmıştır.
Hardy-Weinberg kuralının geçerli olabilmesi için popülasyonun yeterli büyüklükte ve
dengede olması gerekmektedir. Popülasyonun sahip olduğu allellerin genotip frekans
değerleri ile popülasyonun dengede olup olmadığı, X2 (Ki-Kare) testi uygulayarak tespit
edilmiştir. X2 değeri 1,776 olarak hesaplanmıştır. Bu değer 0,05 anlamlılık düzeyinde X2
tablosunda (Ek 3. X2 Tablosu) tek parametre değerinden daha düşük bir değerdir. 657
parametre için X2 değerinin bu kadar düşük olması; popülasyonun gözlenen allel genotip
frekans dağılımı beklenene çok yakın olduğunu gösterdiğinden popülasyon dengededir.
76
Laboratuvardan
alınan
verilerden,
2014
yılına
ait
vericilerin
adres
bilgileri
bulunmamaktadır. 2012 ve 2013 yıllarına ait 734 vericinin adreslerinin illere göre dağılımı
Çizelge 4.8’de verilmiştir.
Çizelge 4.8. Vericilere ait adreslerin illere göre dağılımı
Adres
Oran
Adres
Oran
Adres
Oran
Adres
Oran
ADIYAMAN
0,008
ÇANAKKALE
0,004
İSTANBUL
0,076
MUŞ
0,014
AFYON
0,003
ÇANKIRI
0,026
İZMİR
0,001
NİĞDE
0,003
AKSARAY
0,001
ÇORUM
0,004
KARAMAN
0,011
SAMSUN
0,031
AMASYA
0,003
DİYARBAKIR
0,003
KASTAMONU
0,007
SİİRT
0,003
ANKARA
0,458
DÜZCE
0,049
KAYSERİ
0,012
SİVAS
0,008
ANTALYA
0,005
ELAZIĞ
0,011
KIRIKKALE
0,015
ŞANLIURFA
0,008
ARTVİN
0,001
ERZİNCAN
0,008
KIRŞEHİR
0,004
ŞIRNAK
0,015
BARTIN
0,001
ERZURUM
0,001
KOCAELİ
0,001
TOKAT
0,003
BİLİNMEYEN
0,044
ESKİŞEHİR
0,001
KONYA
0,016
TRABZON
0,007
BİNGÖL
0,003
GAZİANTEP
0,001
MALATYA
0,001
VAN
0,018
BİTLİS
0,004
GİRESUN
0,010
MARDİN
0,008
YOZGAT
0,012
BOLU
0,010
HAKKARİ
0,012
MERSİN
0,010
ZONGULDAK
0,023
BURSA
0,004
HATAY
0,015
MUĞLA
0,001
Donörlerin adres bilgileri dikkate alındığında, Türkiye’nin her bölgesinden donörlere ait
veriler olduğu görülmektedir. Ancak verilerin elde edildiği laboratuvarın Ankara’da olması
donörlerin Ankara yoğunluklu olmasına neden olmuştur. Genel olarak bakıldığında,
çalışmadaki veri grubunun Türk toplumunu temsil edebileceği düşünülmektedir.
Veriler analiz edildiğinde, toplumumuzda 19 HLA-A, 29 HLA-B, 13 HLA-C, 13 HLADRB1 ve 5 HLA-DQ allel türünün bulunduğu görülmüştür. Haplotiplere baktığımızda ise
5 lokus haplotip için 270 farklı haplotip görülmüştür. 5 lokus haplotiplerde en sık görülen
ilk 10 haplotip ve frekans değerleri Çizelge 4.9’da verilmiştir.
77
Çizelge 4.9. Türkiye’de en sık görülen 5 lokus haplotipler ve frekans değerleri
Haplotip
Frekans
HLA-A*24 HLA-B*35 HLA-C*04 HLA-DQ*03 HLA-DR*11
0,0286
HLA-A*02 HLA-B*51 HLA-C*15 HLA-DQ*03 HLA-DR*04
0,0208
HLA-A*11 HLA-B*35 HLA-C*04 HLA-DQ*03 HLA-DR*04
0,0179
HLA-A*23 HLA-B*49 HLA-C*07 HLA-DQ*03 HLA-DR*11
0,0167
HLA-A*24 HLA-B*18 HLA-C*12 HLA-DQ*03 HLA-DR*11
0,0167
HLA-A*32 HLA-B*35 HLA-C*04 HLA-DQ*03 HLA-DR*11
0,0167
HLA-A*01 HLA-B*52 HLA-C*12 HLA-DQ*06 HLA-DR*15
0,0139
HLA-A*03 HLA-B*44 HLA-C*16 HLA-DQ*03 HLA-DR*04
0,0139
HLA-A*01 HLA-B*51 HLA-C*07 HLA-DQ*03 HLA-DR*11
0,0111
HLA-A*02 HLA-B*51 HLA-C*15 HLA-DQ*03 HLA-DR*11
0,0111
Yapılan
hesaplama
sonucunda
elde
edilen
allel
frekans
değerleri,
“www.allelefrequincies.net” internet adresinden alınan 3 Avrupa ülkesinin (Almanya [67],
İtalya [68] ve Fransa [69]) frekans değerleri ile karşılaştırmalı olarak çizelge ve grafikler
şeklinde aşağıda verilmiştir. Çizelgelerde alleler, Türkiye frekans değerleri dikkate
alınarak en yüksek frekans değerinden en düşüğüne doğru sıralanarak verilmiştir.
Grafiklerdeki sıralama ise allellerin alfabetik sırasına göre yapılmıştır.
Bazı alleller çok düşük frekans değerlerine sahip olduğundan virgülden sonra 3 basamağa
yuvarlandığında 0 (sıfır) olarak görülmektedir. Frekans değerinin 0,000 olması allelin
toplumda var olduğunu fakat frekansının çok küçük olduğunu ifade eder. Frekans
değerinin *** olması ise bu allellin toplumda hiç görülmediği anlamına gelmektedir.
78
Çizelge 4.10. HLA-A allelerinin ülkelere göre frekans değerleri
Allel
A*02
A*24
A*03
A*01
A*11
A*26
A*32
A*68
A*30
A*23
A*33
A*29
A*31
A*66
A*69
A*25
A*74
A*34
A*36
A*80
Türkiye↓
0,209
0,159
0,116
0,105
0,084
0,068
0,055
0,047
0,039
0,031
0,029
0,018
0,017
0,009
0,006
0,005
0,001
0,000
0,000
***
Frekans
Almanya
İtalya
0,285
0,284
0,087
0,136
0,138
0,120
0,181
0,105
0,065
0,048
0,029
0,045
0,036
0,038
0,037
0,040
0,019
0,061
0,016
0,022
0,009
0,027
0,036
0,026
0,026
0,027
0,005
0,008
0,001
0,004
0,022
0,017
0,000
0,001
0,001
0,001
0,000
0,001
0,001
***
Fransa
0,258
0,100
0,122
0,126
0,061
0,038
0,047
0,043
0,035
0,030
0,018
0,064
0,033
0,005
0,001
0,015
0,001
0,002
0,000
0,000
Çizelge 4.10’a göre, HLA-A lokusu için Türkiye’de en sık görülen ilk 3 allel; A*02 (%
20,9), A*24 (% 15,9), A*03 (% 11,1) olurken, Almanya için A*02 (% 28,5), A*01 (%
18,1), A*03 (% 13,8), İtalya için A*02 (% 28,4), A*24 (% 13,6), A*03 (% 12,0), Fransa
için A*02 (% 25,8), A*01 (% 12,6), A*03 (% 12,2) olduğu görülmüştür.
Almanya ve Fransa toplumlarında görülen A*80 alleli, Türkiye ve İtalya toplumuna ait
popülasyonlarda görülmemiştir.
79
0,30
0,28
0,26
Türkiye
0,24
Almanya
0,22
0,20
0,18
İtalya
Fransa
0,16
0,14
0,12
0,10
0,08
0,06
0,04
0,02
0,00
Şekil 4.15. HLA-A allelerinin ülkelere göre frekans grafiği
Şekil 4.15’te görüldüğü üzere A*02 alleli bütün popülasyonlarda en sık görülen HLA-A
alleldir.
Çizelge 4.11’e göre, HLA-B lokusu için Türkiye’de en sık görülen ilk 3 allel; B*35 (%
20,8), B*51 (% 12,3), B*44 (% 7,1) olurken, Almanya için B*44 (% 15,2), B*07 (% 14,0),
B*08 (% 13,4), İtalya için B*35 (% 18,1), B*15 (% 9,6), B*51 (% 8,5), Fransa için B*44
(% 14,9), B*35 (% 10), B*07 (% 9,1) olduğu görülmüştür.
80
Çizelge 4.11. HLA-B allelerinin ülkelere göre frekans değerleri
Allel
B*35
B*51
B*44
B*38
B*18
B*07
B*49
B*40
B*55
B*13
B*50
B*27
B*52
B*08
B*15
B*14
B*41
B*58
B*39
B*37
B*57
B*53
B*48
B*45
B*54
B*47
B*56
B*46
B*73
B*81
B*67
B*78
B*42
Türkiye↓
0,208
0,123
0,071
0,061
0,052
0,046
0,043
0,038
0,038
0,037
0,034
0,034
0,032
0,030
0,027
0,025
0,021
0,018
0,018
0,013
0,010
0,006
0,004
0,004
0,003
0,003
0,001
0,001
0,000
***
***
***
***
Frekans
Almanya
İtalya
0,074
0,181
0,042
0,085
0,152
0,068
0,017
0,029
0,036
0,061
0,140
0,046
0,013
0,043
0,071
0,038
0,016
0,013
0,029
0,021
0,011
0,023
0,040
0,026
0,004
0,012
0,134
0,041
0,074
0,096
0,031
0,069
0,010
0,015
0,005
0,016
0,020
0,024
0,014
0,012
0,042
0,025
0,003
0,007
***
0,000
0,006
0,003
***
***
0,003
0,003
0,002
0,004
***
***
***
0,003
***
0,001
***
***
***
0,031
0,002
0,001
Fransa
0,100
0,084
0,149
0,026
0,060
0,091
0,026
0,056
0,017
0,020
0,017
0,036
0,010
0,082
0,064
0,044
0,011
0,013
0,022
0,013
0,028
0,009
0,000
0,007
***
0,004
0,008
0,001
0,000
***
0,000
0,000
0,001
B*54 alleli sadece Türkiye popülasyonunda görülmüştür. B*42 alleli ise diğer
popülasyonlarda görülmüş olmasına rağmen Türkiye popülasyonunda görülmemiştir.
81
0,22
Türkiye
Almanya
İtalya
Fransa
0,20
0,18
0,16
0,14
0,12
0,10
0,08
0,06
0,04
0,02
B*07
B*08
B*13
B*14
B*15
B*18
B*27
B*35
B*37
B*38
B*39
B*40
B*41
B*42
B*44
B*45
B*46
B*47
B*48
B*49
B*50
B*51
B*52
B*53
B*54
B*55
B*56
B*57
B*58
B*67
B*73
B*78
B*81
0,00
Şekil 4.16. HLA-B allelerinin ülkelere göre frekans grafiği
Çizelge 4.12’ye göre, HLA-C lokusu için Türkiye’de en sık görülen ilk 3 allel; C*04 (%
20,5), C*12 (% 17,0), C*07 (% 15,9) olurken, Almanya için C*07 (% 33,2), C*03 (%
14,3), C*06 (% 10,3), İtalya için C*07 (% 22,1), C*04 (% 16,5), C*12 (% 12,9), Fransa
için C*07 (% 25,7), C*04 (% 12,6), C*03 (% 9,9) olduğu görülmüştür.
Çizelge 4.12. HLA-C allelerinin ülkelere göre frekans değerleri
Allel
C*04
C*12
C*07
C*15
C*06
C*16
C*03
C*02
C*14
C*08
C*17
C*01
C*05
C*18
Türkiye↓
0,205
0,170
0,159
0,095
0,092
0,059
0,057
0,043
0,041
0,022
0,022
0,019
0,016
***
Frekans
Almanya
İtalya
0,092
0,165
0,047
0,129
0,332
0,221
0,017
0,060
0,103
0,083
0,034
0,060
0,143
0,055
0,044
0,042
0,009
0,041
0,030
0,038
0,011
0,011
0,032
0,033
0,098
0,057
0,000
0,000
Fransa
0,126
0,071
0,257
0,037
0,083
0,067
0,099
0,061
0,025
0,043
0,011
0,038
0,082
0,000
82
C*18 alleli diğer popülasyonlarda da çok düşük bir frekansta görülmesine rağmen, Türkiye
popülasyonunda hiç görülmemiştir.
0,36
0,34
0,32
0,30
0,28
0,26
0,24
0,22
0,20
0,18
0,16
0,14
0,12
0,10
0,08
0,06
0,04
0,02
0,00
Türkiye
Almanya
İtalya
Fransa
C*01 C*02 C*03 C*04 C*05 C*06 C*07 C*08 C*12 C*14 C*15 C*16 C*17 C*18
Şekil 4.17. HLA-C allelerinin ülkelere göre frekans grafiği
Çizelge 4.13’e göre, HLA-DQB1 lokusu için Türkiye’de en sık görülen ilk 3 allel;
DQB1*03 (% 45,7), DQB1*06 (% 19,7), DQB1*05 (% 18,9) olurken, İtalya için
DQB1*03 (% 41,2), DQB1*05 (% 25,7), DQB1*02 (% 15,6) görülmüştür. Fransa ve
Almanya popülasyonu için DQB1 tiplendirmesi
yapılmadığından değerlendirme
yapılamamıştır.
Çizelge 4.13. HLA-DQB1 allelerinin ülkelere göre frekans değerleri
Allel
DQB1*03
DQB1*06
DQB1*05
DQB1*02
DQB1*04
Türkiye↓
0,457
0,197
0,189
0,130
0,027
Frekans
İtalya
Almanya
Fransa
0,412
0,145
Bu popülasyonlar için
HLA-DQ
tiplendirmesi
0,257
yapılmamış
0,156
0,032
83
0,50
Türkiye
İtalya
0,45
0,40
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0,00
DQB1*02
DQB1*03
DQB1*04
DQB1*05
DQB1*06
Şekil 4.18. HLA-DQB1 allelerinin ülkelere göre frekans grafiği
Çizelge 4.14’e göre, HLA-DRB1 lokusu için Türkiye’de en sık görülen ilk 3 allel;
DRB1*11 (% 21,3), DRB1*04 (% 16,8), DRB1*13 (% 11,1) olurken, Almanya için
DRB1*04 (% 17,2), DRB1*15 (% 14,7), DRB1*03 (% 14,1), İtalya için DRB1*11 (%
24,1), DRB1*07 (% 12,5), DRB1*13 (% 11,8), Fransa için DRB1*07 (% 14,6), DRB1*11
(% 14,3), DRB1*13 (% 13,1) olduğu görülmüştür.
Çizelge 4.14. HLA-DRB1 allelerinin ülkelere göre frekans değerleri
Allel
DRB1*11
DRB1*04
DRB1*13
DRB1*15
DRB1*07
DRB1*03
DRB1*14
DRB1*01
DRB1*16
DRB1*10
DRB1*08
DRB1*12
DRB1*09
Türkiye↓
0,213
0,168
0,111
0,095
0,089
0,074
0,070
0,065
0,038
0,029
0,023
0,020
0,006
Frekans
Almanya
İtalya
0,078
0,241
0,172
0,079
0,119
0,118
0,147
0,071
0,138
0,125
0,141
0,094
0,022
0,055
0,103
0,092
0,012
0,054
0,009
0,019
0,022
0,030
0,022
0,012
0,010
0,004
Fransa
0,143
0,125
0,131
0,103
0,146
0,109
0,039
0,105
0,029
0,010
0,038
0,012
0,009
HLA-DRB1 lokusu için tüm alleller bütün toplumlarda görülmüştür.
84
Türkiye
0,26
Almanya
0,24
İtalya
0,22
Fransa
0,20
0,18
0,16
0,14
0,12
0,10
0,08
0,06
0,04
0,02
0,00
Şekil 4.19. HLA-DRB1 allelerinin ülkelere göre frekans grafiği
Yukarıdaki grafiklerde de görüldüğü üzere Türkiye’deki popülasyon ile İtalya’daki
popülasyon birbirine yakın değerler almıştır. Almanya ve Fransa’daki popülasyonlar da
kendi aralarında bir birine yakın değerler almıştır.
Ancak Türkiye popülasyonu ile
özellikle bazı allel frekanslarında ciddi farklılıklar görülmektedir.
Bu durum ise organ naklinde büyük önemi olan PRA değerinin, topluma özgü olmayan
frekans değerleri ile oluşturulmuş panellerden alınması yanlış PRA değerlerinin elde
edilmesine neden olabilir.
Çizelge 4.15’te laboratuvardan alınan hastaların anti-HLA antikorlarının Luminex yöntemi
ile hesaplanan PRA değeri ile bu antikorların geliştirilen CPRA uygulamasındaki ve
Amerikan Sağlık Servisi sitesindeki CPRA uygulamasındaki CPRA değerleri verilmiştir.
85
Çizelge 4.15. Hasta antikorlarının Luminex PRA ve CPRA değerlerinin karşılaştırılması
PRA
Hasta
ID
Sınıf I Antikorları
1
Sınıf II Antikorları
CPRA
OPTN
CPRA
Sınıf Sınıf
I
II
Sınıf I
Sınıf
II
Sınıf
I
Sınıf
II
A*02:01 A*02:02 A*02:03 A*02:05
A*11:01 A*29:02 A*30:01 A*31:01
A*33:03 A*34:02 A*66:01 A*66:02
A*68:01 A*68:02 A*69:01 A*74:01
17
0
70,81
0
80
0
2
A*11:01 A*03:01 A*11:02 B*08:01
B*18:01 C*07:01 C*07:02 C*08:01
C*12:02
10
0
71,51
0
78
0
3
A*23:01 A*24:02 A*24:03 B*48:01
DR*01:02 DR*04:01
DR*04:03 DR*12:01
DR*16:02
4
6
34,73 49,69
24
51
4
DQ*02:01
0
2,44
0
24,26
0
37
5
DR*12:01
0
5
0
3,99
0
4
1
0
5,38
0
12
0
17
3
80,94
5,18
67
12
3
0
27,78
0
56
0
15
11
64,83 82,04
72
78
8
3
81,7
71,73
82
60
21
6
82,7
31,16
93
32
6
B*15:16
B*14:01 B*15:03 B*18:01 B*35:01
B*35:08 B*37:01 B*40:01 B*40:02
7
B*41:01 B*42:01 B*51:01 B*53:01
DR*08:01 DR*09:01
B*54:01 B*55:01 B*78:01 B*82:02
8
B*08:01 B*78:01 C*07:01
A*25:01 A*34:02 A*33:03 A*66:02
A*66:01 A*73:01 B*08:01 B*35:01
9
B*35:08 B*53:01 B*78:01 B*82:02
C*07:01 C*07:02
A*02:01 A*25:01 A*31:01 A*32:01
A*33:01 A*33:03 A*43:01 B*14:01
10
B*14:02 B*49:01 B*54:01 B*73:01
C*03:04 C*04:03 C*14:02
DR*03:01 DR*03:02
DR*03:03 DR*11:04
DR*11:01 DR*13:01
DR*13:03 DR*14:01
DQ*06:02
DR*03:03 DR*11:01
DR*13:03 DR*13:01
DR*14:01 DR*14:04
A*02:03 A*02:05 A*11:01 A*11:02
11
A*25:01 A*26:01 A*29:02 A*31:01
DR*04:01 DR*04:02
A*33:01 A*33:03 A*34:02 A*43:01
DR*04:03 DR*04:05
A*66:01 A*66:02 A*68:01A*68:02
DR*09:01
B*73:01 C*05:01 C*07:02 C*08:02
Çizelge 4.15’te görüldüğü gibi Türkiye’de kullanılan panelden elde edilen PRA değerleri
ile hesaplanan CPRA değerleri arasında büyük fark vardır. Bu da organ nakli bekleme
listesine alınma ve organ bulunduğunda uygun hastanın seçimi sürecinde yanlışlıklara
sebep olmaktadır.
86
PRA değerleri 4 karakter tiplendirme yöntemi ile belirlenmiştir. CPRA hesaplama ise 2
karakter tiplendirme baz alınarak yapılmıştır. Bu nedenle PRA ve CPRA arasında fark
görülebilir. Fakat farkın çok büyük çıkması PRA panelini frekans dağılımı ile toplumun
frekans dağılımları arasında fark olmasından kaynaklanmaktadır.
87
5. SONUÇ ve ÖNERİLER
Eldeki veriler, yeterli sayıda ve dengedeki bir popülasyona aittir. Verilerin dağılımı
toplumun genelini yansıttığı kabulüne dayanarak bu veriler kullanılarak CPRA
hesaplaması yapılabileceği görülmektedir.
Yapılan PRA ve CPRA karşılaştırmasında da CPRA değerinin PRA değerinden belirgin
düzeyde farklı olduğu görülmüştür. Günümüzde kullanılan PRA paneli ülkemize özgü
hazırlanmadığından Türkiye toplumu için tam olarak doğru sonuç vermemektedir.
Geliştirilen uygulama sayesinde, hem klinisyenler hem de doku tiplendirme laboratuvarları
organ nakillerinde hastanın PRA yüzdesi hakkında daha doğru ve daha kolay yorum
yapabileceklerdir.
Geliştirilen uygulama ile popülasyon genetiğinde kullanılan ancak veri girişi zor olan
arlequin programında basit bir formata hazırlanmış veriler ile frekans hesabı
yapılabilmektedir. Uygulama verilerin tüm lokus bilgilerinin girilmiş olmasına gerek
duymadan, verilerin sadece dolu alanlarını dikkate alarak oluşabilecek bütün
kombinasyonlarda frekans hesabı yapabilmektedir. Bu durum kullanıcıya büyük kolaylık
sağlamaktadır.
Geliştirilen CPRA uygulamasında, kullanıcı ara yüzünün, allel bilgilerinin bulunduğu
dosyadan okunarak dinamik olarak oluşturulması ve hesaplama işlemlerinde kullanılan
frekans değerlerini de dosyadan okutarak, programa dinamik bir yapı kazandırılmıştır. Bu
dinamik yapı sayesinde, allel ve frekans dosyalarının güncellenmesi ile program hiçbir
kodlama işlemine gerek duymadan güncellenmiş olacaktır.
Frekans dosyasının güncellenebiliyor olması, kullanıcıya haplotip frekans değerleri bilinen
bir toplum için CPRA hesabı yapabilme imkânı da sunmaktadır.
Türkiye’de önceden hazırlanmış böyle bir uygulama bulunmadığından bu alandaki büyük
bir
açığı
kapatacağı
düşünülmektedir.
ve
sağlık
sektöründeki
çalışanlara
kolaylık
sağlayacağı
88
Bu çalışma kapsamında hazırlanan CPRA web uygulamasının Yıldırım Beyazıt Dışkapı
Eğitim ve Araştırma Hastanesi Doku Tiplendirme Laboratuvarı’nın web sitesinde
yayınlaması planlanmaktadır.
Kullanılan veriler Ankara ilindeki doku tiplendirme ruhsatı olan bir sağlık merkezinden
elde edilmiştir. Bu da hastaların genellikle Ankara ve çevresindeki illerden yoğunluklu
olmasına neden olmuştur. Türkiye’nin farklı bölgelerindeki merkezlerden elde edilecek
veriler ile tüm Türkiye için yapılacak genelleme daha doğru olacaktır.
Doku tiplendirme verileri, kemik iliği bankaları gibi yüksek oranda doku tiplendirme
yapan kuruluşların verileri ile birleştirildiğinde organ nakli yapılacak uygun hasta
seçiminin sağlanmasında, araştırılan popülasyon hakkında daha doğru tahminler
yapılabilecektir.
Ayrıca Türk toplumu için hesaplanmış olan allel ve haplotip frekansları dikkate alınarak
daha sonraki çalışmalarda Türk toplumu için daha uygun tarama ve tanımlama test
panelleri geliştirilmesine imkân sağlayacaktır.
Veri madenciliği teknikleri kullanılarak önceki çalışmalarda elde edilmiş verileri analiz
ederek yeni bilgi ve bulgulara ulaşılabilmektedir. Veri analizi herhangi bir laboratuvar testi
gerektirmediğinden, maliyetsiz bir şekilde yeni bilgiler elde edilebilir.
Bu tez
çalışmasında; haplotip dizilimini belirlenmek için gen dizilimine bakmak ya da çok sayıda
gamet hücresi alıp tiplendirerek genelleme yapmak yerine daha önceden elde edilmiş
verilerden veri madenciliği tekniği ile haplotip tahmini yapılmıştır. Veri madenciliği ile
haplotip tahmini yöntemi; maliyetsiz ve ek bir laboratuvar çalışmasına gerek duyulmadan
yapılabilmektedir.
Veri madenciliği ile veri yığınları içinden çıkarılan bilgiler büyük öneme sahiptir. Sağlık
verisinin kendisi büyük öneme sahip olduğu düşünülürse, bu verilerden çıkarılacak bilgiler
çok daha önemli olacaktır. Tıp alanında veri madenciliği çalışmalarının artırılması, yeni
çıkarımlarda bulunmaya yardımcı olacak, hızlı ve doğru karar vermeyi, maliyeti düşürmeyi
sağlayacaktır. Ancak, tıpta veri madenciliği çalışmaları yapılırken, özellikle elde edilen
bulguların değerlendirilmesi aşamasında, alanda bir uzman ile birlikte çalışılması gerektiği
unutulmamalıdır.
89
KAYNAKLAR
1.
İnternet:
Güncel
Organ
Bağış
ve
Nakil
Sayıları.
URL:http://www.webcitation.org/query?url=https%3A%2F%2Forgan.saglik.gov.tr
%2Fweb&date=2015-06-02. Son Erişim Tarihi: 07.01.2015
2.
Eyerci, N. (2005). Anti-Hla Antikorlarının Tespitinde Multipar Gebelerden Alınan
Serumların Kullanılması, Yayımlanmamış Yüksek Lisans Tezi, Atatürk Üniversitesi
Sağlık Bilimleri Enstitüsü, Erzurum.
3.
Can, M. B., Eren, Ç., Koru, M., Özkan, Ö., Rzayeva, Z. (2012). Veri Kümelerinden
Bilgi Keşfi: Veri Madenciliği. Başkent Üniversitesi Tıp Fakültesi XIV. Öğrenci
Sempozyumunda sunuldu, Ankara.
4.
Han, J., Kamber, M. (2006). Data Mining Concepts and Techniques (Second
Edition) USA: Morgan Kaufmann Publisher, s.2-7, 70-71, 398-401.
5.
Akgöbek, Ö., Çakır, F. (2009, Şubat). Veri Madenciliğinde Bir Uzman Sistem
Tasarımı. XI. Akademik Bilişim Konferansında sunuldu, Şanlıurfa.
6
Akpınar, H. (2000). Veri Tabanlarında Bilgi Keşfi ve Veri Madenciliği. İstanbul
Üniversitesi İşletme Faültesi Dergisi. 29(1), 1-22.
7.
Coşlu, E. (2013, Ocak). Veri Madenciliği. XV. Akademik Bilisim Konferansında
sunuldu, Antalya.
8.
Chakrabarti, S., diğerleri.(2009). Data Mining Know It All. Burlington: Morgan
Kaufmann Publishers, s.60.
9.
Argüden, Y., Erşahin, B. (2008). Veri Madenciliği Veriden Bilgiye, Masraftan
Değere. İstanbul: ARGE Danışmanlık A.Ş, s.22-23.
10.
Seven, M. F. (2009). Veritabanlarından Bilgi Keşfi: Veri Madenciliği ve Bir Sağlık
Uygulaması, Yayımlanmamış Yüksek Lisans Tezi, İstanbul Üniversitesi Sosyal
Bilimler Enstitüsü, İstanbul.
11.
Tang Z, MacLennan, J. (2005) Data Mining with SQL Server 2005. Indianapolis:
Wiley Publishing, Inc., s.2.
12.
Aygören, H., Sarıtaş, H., Moralı, T. (2012). İMKB 100 Endeksinin Yapay Sinir
Ağları ve Newton Nümerik Arama Modelleri ile Tahmini. Uluslararası Alanya
İşletme Fakültesi Dergisi, 4(1), 73-88.
13.
Taşkın, Ç., Gökay Emel, G. (2010). Veri Madenciliğinde Kümeleme Yaklaşımları
ve Kohonen Ağları ile Perakendecilik Sektöründe Bir Uygulama. Süleyman Demirel
Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, 15(3), 395-409.
90
14.
Dinçer, E. (2006). Veri Madenciliğinde K-Means Algoritması ve Tıp Alanında
Uygulanması, Yayımlanmamış Yüksek Lisans Tezi, Kocaeli Üniversitesi Fen
Bilimleri Enstitüsü, Kocaeli.
15.
Birant, D., Ventura, M., Altınok, H., Altınok, B., Ihlamur, M. (2010). İş Zekası
Çözümleri için Çok Boyutlu Birliktelik Kuralları Analizi. Akademik Bilişim 2010
Konferansında sunuldu, Muğla.
16.
Maimon, O., Rokach, L. (Editörler). (2010). Data Mining and Knowledge Discovery
Handbook (Second Edition) London: Springer, s.860-862.
17.
Koyuncugil, A. S., Özgülbaş, N. (2009). Veri Madenciliği: Tıp ve Sağlık
Hizmetlerinde Kullanımı ve Uygulamaları. Bilişim Teknolojileri Dergisi, 2(2), 2132.
18.
Emel, G. G., Taşkın, Ç. (2002). Genetik Algoritmalar ve Uygulama Alanları.
Uludağ Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, XXI(1), 129-152.
19.
Gündoğdu, Ö. E. (2007). Veri Madenciliğinde Genetik Algoritmalar,
Yayımlanmamış Yüksek Lisans Tezi, Kocaeli Üniversitesi Fen Bilimleri Enstitüsü,
Kocaeli.
20.
Servi, T. (2009). Çok Değişkenli Karma Dağılım Modeline Dayalı Kümeleme
Analizi, Yayımlanmamış Doktora Tezi, Çukurova Üniversitesi Fen Bilimleri
Enstitüsü, Adana.
21.
Sezgin, E., Çelik, Y. (2013). Veri Madenciliğinde Kayıp Veriler İçin Kullanılan
Yöntemlerin Karşılaştırılması. XV. Akademik Bilişim Konferansında sunuldu,
Antalya.
22.
Tartar, A. (2013). Pulmoner Nodüller İçin Bilgisayar Destekli Teşhis Sistemi,
Yayımlanmamış Doktora Tezi, İstanbul Üniversitesi Fen Bilimleri Enstitüsü,
İstanbul.
23.
Pala, T. (2013). Tıbbi Karar Destek Sisteminin Veri Madenciliği Yöntemleriyle
Gerçekleştirilmesi, Yayımlanmamış Yüksek Lisans Tezi, Marmara Üniversitesi Fen
Bilimleri Enstitüsü, İstanbul.
24.
Şaylan, Ç. A. (2013). Böbrek Nakli Geçirmiş Hastalarda Akıllı Yöntem Tabanlı
Yeni Öznitelik Seçme, Yayımlanmamış Yüksek Lisans Tezi, Kadir Has Üniversitesi
Fen Bilimleri Enstitüsü, İstanbul.
25.
Çataloluk, H. (2012). Gerçek Tıbbi Veriler Üzerinde Veri Madenciliği Yöntemi
Kullanarak Hastalık Teşhisi, Yayımlanmamış Yüksek Lisans Tezi, Bilecik
Üniversitesi Fen Bilimleri Enstitüsü, Bilecik.
26.
Akyol, K. (2012). Biyokimya ve Hemogram Laboratuvar Test Sonuçlarının Lojistik
Regresyon Yöntemiyle Analizi, Yayımlanmamış Yüksek Lisans Tezi, Karabük
Üniversitesi Fen Bilimleri Enstitüsü, Karabük.
91
27.
Turgut, H. (2012). Veri Madenciliği Süreci Kullanılarak Alzheimer Hastalığı
Teşhisine Yönelik Bir Uygulama, Yayımlanmamış Yüksek Lisans Tezi, Süleyman
Demirel Üniversitesi Fen Bilimleri Enstitüsü, Isparta.
28.
Eşiyok, T. (2011). Data Mining Supported Hospital Information Systems Solutions,
Yayımlanmamış Yüksek Lisans Tezi, Dokuz Eylül Üniversitesi Fen Bilimleri
Enstitüsü, İzmir.
29.
Akman, M. (2010). Veri Madenciliği Yöntemlerine Genel Bakış ve Random Forests
Yönteminin İncelenmesi: Sağlık Alanında bir Uygulama, Yayımlanmamış Yüksek
Lisans Tezi, Ankara Üniversitesi Fen Bilimleri Enstitüsü, Ankara.
30.
Karlı, A. B. (2010). Nicel Değerli Veri Kümelerinden Sıralı Örüntülerin Çıkarılması
İçin FP-Growth Tabanlı Bir Yöntem, Yayımlanmamış Yüksek Lisans Tezi, Fırat
Üniversitesi Fen Bilimleri Enstitüsü, Elazığ.
31.
Altıntaş, Y. Y. (2010). Veri Madenciliğinin Tıpta Kullanımı Ve Bir Uygulama:
Hemodiyaliz Hastaları İçin Risk Seviyelerine Göre Risk Faktörlerinin
Etkileşimlerinin İncelemesi, Yayımlanmamış Yüksek Lisans Tezi, Gazi Üniversitesi
Fen Bilimleri Enstitüsü, Ankara.
32.
Çakırlı, B. (2010). Sağlık Sektöründe Apriori Algoritması ile Bir Veri Madenciliği
Uygulaması, Yayımlanmamış Yüksek Lisans Tezi, Sakarya Üniversitesi Fen
Bilimleri Enstitüsü, Sakarya.
33.
Kaya, B. (2010). Tıbbi Veri Kümeleri Arasındaki Birliktelik Kurallarının Çok
Amaçlı Genetik Algoritma İle Çıkarılması, Yayımlanmamış Yüksek Lisans Tezi,
Fırat Üniversitesi Fen Bilimleri Enstitüsü, Elazığ.
34.
Aksoy, İ. (2010). Türkiye'deki Yenidoğan Hastane Enfeksiyonlarının Gizli
Örüntülerini Bulmak : Bir Veri Madenciliği Yaklaşımı, Yayımlanmamış Yüksek
Lisans Tezi, Boğaziçi Üniversitesi Fen Bilimleri Enstitüsü, İstanbul.
35.
İşler, Y. (2009). A Detailed Analysis Of The Effects Of Various Combinations Of
Heart Rate Variability Indices In Congestive Heart Failure, Yayımlanmamış
Doktora Tezi, Dokuz Eylül Ünivresitesi Fen Bilimleri Enstitüsü, İzmir.
36.
Aksoy, B. (2009). Cluster Analysis Of Decompression Illness, Yayımlanmamış
Yüksek Lisans Tezi, Galatasaray Üniversitesi Fen Bilimleri Enstitüsü, İstanbul.
37.
Farboudi, S. (2009). Tıp Bilişiminde İstatistiksel Veri Madenciliği, Yayımlanmamış
Yüksek Lisans Tezi, Hacette Üniversitesi Fen Bilimleri Enstitüsü, Ankara.
38.
Oğuz, B. (2009). Metin Madenciliği Teknikleri Kullanılarak Kulak Burun Boğaz
Hasta Bilgi Formlarının Analizi, Yayımlanmamış Yüksek Lisans Tezi, Akdeniz
Üniversitesi Fen Bilimleri Enstitüsü, Antalya.
39.
Demirel, B. (2008). Meme Kanseri Tedavi Yöntemlerinin Veri Madenciliği İle
Belirlenmesi, Yayımlanmamış Yüksek Lisans Tezi, Süleyman Demirel Üniversitesi
Fen Bilimleri Enstitüsü, Isparta.
92
40.
Kahramanlı, H. (2008). Hibrit Bulanık Sinir Ağını Kullanarak Bir Sınıflandırma Ve
Kural Çıkarma Sisteminin Geliştirilmesi, Yayımlanmamış Doktora Tezi, Selçuk
Üniversitesi Fen Bilimleri Enstitüsü, Konya.
41.
Doğan, Ş. (2007). Veri madenciliği Kullanarak Biyokimya Verilerinden Hastalık
Teşhisi, Yayımlanmamış Yüksek Lisans Tezi, Fırat Üniversitesi Fen Bilimleri
Enstitüsü, Elazığ.
42.
Danacı, M., Çelik, M., Akkaya, A. E. (2010). Veri Madenciliği Yöntemleri
Kullanılarak Meme Kanseri Hücrelerinin Tahmin ve Teşhisi. Akıllı Sistemlerde
Yenilikler ve Uygulama Sempozyumunda sunuldu. Kayseri. 9-12.
43.
Güllekesen, K. H., Köksal, İ. T., Özdem, S., Saka, O. (2008). Karar Ağacı Analizi
ile Prostat Kanserinin Öngörülmesi, V. Uluslararası Katılımlı Tıp Bilişimi
Kongresinde sunuldu, Antalya.
44.
Selver, M. A., Kocaoğlu, A., Doğan, H., Demir, G. K., Dicle, O., Güzeliş, C. (2007).
Nakil Öncesi Verici Değerlendirmeleri için Otomatik Karaciğer Bölütleme Yordamı,
IV. Ulusal Tıp Bilişimi Kongresinde sunuldu, Antalya.
45.
Abbas, A. K., Lichtman, A. H. (2007). Temel İmmünoloji. (Çev: Camcıoğlu, Y. ve
Deniz, G). İstanbul: İstanbul Medikal Yayıncılık, s.47-61, 177-192, 263-289.
46.
Dalva, K. (2004). Her Yerde Karsımda; Nedir Bu HLA Tiplendirimi, XXXI. Ulusal
Hematoloji Kongresi IV. Hematoloji İlk Basamak Kursunda sunuldu, Antalya.
47.
Türk Hematoloji Derneği. Genetik Terimler Sözlüğü.; 2013, s.2-8.
48.
Excoffier, L. S. M. (1995). Maximum-likelihood estimation of molecular haplotype
frequencies in a diploid population. Molecular Biology and Evolution. (12), 921–
927.
49.
Male, D., Brostoff, J., Roth, D. B., Roitt, I. (2008) İmmünoloji (çev: İmir, T.)
Ankara: Palme Yayıncılık, s.383-399.
50.
Aşkın, S. (2010). Böbrek Nakli Bekleme Listesindeki Hastalarda Lenfositotoksisite
Yöntemi İle Anti-HLA Antikor Tanımlanması Böbrek Nakli Bekleme Listesindeki
Hastalarda Lenfositotoksisite Yöntemi ile Anti-HLA Antikor Tanımlanması,
Yayımlanmamış Yüksek Lisans Tezi, Atatürk Üniversitesi Sağlık Bilimleri
Enstitüsü, Erzurum.
51.
Kılıçaslan Ayna, T., Şentürk Çiftçi, H., Gürtekin, M. (2011). Tek Antijen Boncuk
Çalışması ile Donöre Özgü Antikorların Saptanması. Türkiye Kinikleri Nefroloji
Dergisi, 6(1), 17-21.
52.
İnternet.
Panel
Reactive
Antibody
URL
:
http://www.webcitation.org/query?url=http%3A%2F%2Fimg.medscape.com%2Fful
lsize%2Fmigrated%2F523%2F523%2Fajt523523.fig1a.gif&date=2015-06-02. Son
Erişim Tarihi: 15.01.2015.
93
53.
İnternet:
Kemik
İliği
Transplantasyonu.
URL:http://www.webcitation.org/query?url=http%3A%2F%2Fwww.kemikiligi.org
%2Ficerik.php%3Fid%3D118%26alt_id%3D154%26tab%3D0%2C++&date=201506-02. Son Erişim Tarihi: 07.12.2014.
54.
Hallibuton, R. (2004). Introduction to Population Genetics. USA: Pearson
Education International, s.15-37
55.
Ewens, W. (2000). Mathematical Population Genetics. Philadelphia: Springer, s.320.
56.
Boncuk, A.N. (2011). Genetik. Ankara: Palme, s.247-255.
57.
Zachary, A. A., Steinberg, A. G. (1197). Statistical Analysis and Applications of
HLA Population Data. Manual of Clinical Laboratory Immunology. Washington,
DC: ASM Press, s.1132-1140.
58.
Bardi, M., Jarduli, L., Jorge, A., Camargo, R., Carneiro, F., Gelinski, J. (2012).
HLA-A, B and DRB1 allele and haplotype frequencies in volunteer bone marrow
donors from the north of Parana State. Rev Bras Hematol Hemoter, 34(1), 25-30.
59.
Cecka, J. (2010). Calculated PRA (CPRA): The New Measure of Sensitization for
Transplant Candidates. American Journal of Transplantation, 10, 26–29.
60.
Steiner, D. (2013). Probabilistic Matching in Search for Unrelated Hematopoietic
Stem Cell Donors. Unpublished Doctoral dissertation , Czech Technical University,
Prague.
61.
Sousa, L. C. D., Filho, H. L. A. S., Glehn, C. Q. C. V., Silva, A. S., Neto, P. S.,
Castro, J. A. F. (2011). EpHLA: An innovative and user-friendly software
automating the HLAMatchmaker algorithm for antibody analysis. Transplant
Immunology, 25, 210–216.
62.
Sulcebe, G., Sanchez-Mazas, A., Tiercy, J.M., Shyti, E., Mone, I., Ylli, Z. (2009).
HLA allele and haplotype frequencies in the Albanian population and their
relationship with the other European populations. International Journal of
Immunogenetics, 36, 337–343.
63.
Shen, C., Zhu, B., Deng, Y., Ye, S., Yan, J., Yang, G. (2010). Allele Polymorphism
and Haplotype Diversity of HLA-A, -B and - DRB1 Lo ci in Sequence-Based
Typing for Chinese Uyghur Ethnic Group. PLoS ONE, 5(11), e13458.
64.
Cecka, J. M., Kucheryavaya, A.Y., Reinsmoen, N. L., Leffell, M. S. (2011).
Calculated PRA: Initial Results Show Benefits for Sensitized Patients and a
Reduction in Positive Crossmatches. American Journal of Transplantation, 11, 719–
724.
94
65.
İnternet:
Arlequin
Manual
URL:http://www.webcitation.org/query?url=http%3A%2F%2Fcmpg.unibe.ch%2Fs
oftware%2Farlequin35%2Fman%2FArlequin35.pdf&date=2015-06-02. Son Erişim
Tarihi: 15.01.2015.
66.
İnternet:
CPRA
Calculator.
URL:http://www.webcitation.org/query?url=http%3A%2F%2Ftransplantpro.org%2
Fwp-content%2Fuploads%2FCurrent-CPRA-Calculation-2.ppt%2C+&date=201506-02. Son Erişim Tarihi:15.03.2015.
67.
İnternet:
The
Allele
Frequency
Net
Database.
URL:http://www.webcitation.org/query?url=http%3A%2F%2Fwww.allelefrequenci
es.net%2Fhla6006a.asp%3Fhla_locus_type%3DClassical%26hla_locus%3D%26hla
_allele1%3D%26hla_allele2%3D%26hla_selection%3D%26hla_pop_selection%3D
%26hla_population%3D3026%26hla_country%3D%26hla_dataset%3D%26hla_reg
ion%3D%26hla_ethnic%3D%26hla_study%3D%26hla_order%3Dorder_1%26hla_s
ample_siz&date=2015-06-02. Son Erişim Tarihi:15.03.2015.
68.
İnternet:
The
Allele
Frequency
Net
Database.
URL:http://www.webcitation.org/query?url=http%3A%2F%2Fwww.allelefrequenci
es.net%2Fhla6006a.asp%3Fhla_locus_type%3DClassical%26hla_locus%3D%26hla
_allele1%3D%26hla_allele2%3D%26hla_selection%3D%26hla_pop_selection%3D
%26hla_population%3D3041%26hla_country%3D%26hla_dataset%3D%26hla_reg
ion%3D%26hla_ethnic%3D%26hla_study%3D%26hla_order%3Dorder_1%26hla_s
ample_siz&date=2015-06-02. Son Erişim Tarihi:15.03.2015.
69.
İnternet:
The
Allele
Frequency
Net
Database.
URL:http://www.webcitation.org/query?url=http%3A%2F%2Fwww.allelefrequenci
es.net%2Fhla6006a.asp%3Fhla_locus_type%3DClassical%26hla_locus%3D%26hla
_allele1%3D%26hla_allele2%3D%26hla_selection%3D%26hla_pop_selection%3D
%26hla_population%3D3082%26hla_country%3D%26hla_dataset%3D%26hla_reg
ion%3D%26hla_ethnic%3D%26hla_study%3D%26hla_order%3Dorder_1%26hla_s
ample_siz&date=2015-06-02. Son Erişim Tarihi:15.03.2015.
95
EKLER
96
EK-1. Etik Kurul İzni
97
EK-2. X2 Tablosu
98
EK-3. Haplotip frekans hesaplama uygulamasının performans testi
99
ÖZGEÇMİŞ
Kişisel Bilgiler
Soyadı, Adı
: ERTEN, Hüsnü
Uyruğu
: T.C.
Medeni Hali
: Evli
Doğum Yılı
: 1984
Email Adresi
: [email protected]
Eğitim Bilgileri
Eğitim Derecesi
Okul
Mezuniyet Yılı
Yüksek lisans
Gazi Üniversitesi Fen Bilimleri Enstitüsü
Teknoloji Fakültesi Bilgisayar Mühendisliği
Devam ediyor
Lisans
Dokuz Eylül Üniversitesi Bilgisayar
Mühendisliği
2010
Lise
Mustafa Kaya Anadolu Lisesi / Kastamonu
2004
Çalışma Bilgileri
İş Deneyimi, Yıl
Çalıştığı Yer
Görev
2011-devam ediyor
İçişleri Bakanlığı
Programcı
Yabancı Dili
İngilizce
Yayınlar
1. ERTEN,H., ARICI, N., EYERCİ, N., YEŞİLYURT, A. (2015). Tıpta Bir Veri
Madenciliği Uygulaması: Türk Popülasyonunda Organ Nakilleri için CPRA Hesaplama,
XVII Akademik Bilişim Konferansı, Eskişehir, Türkiye.
2. ERTEN,H., EYERCİ, N., ARICI, N., YEŞİLYURT, A. (2015). CPRA Calculation for
Solid Organ Transplantations in Turkish Population, 29. Europan Immunogenetics and
Histocompability Conferance, Geneva, Switzerland.
GAZİ GELECEKTİR...
Download