Genetik Algoritmalar Yönteminin Biyomedikal

advertisement
Doğu Anadolu Bölgesi Araştırmaları;
Arif GÜLTEN, Şengül DOĞAN
GENETİK ALGORİTMALAR YÖNTEMİNİN BİYOMEDİKAL
VERİLERİ ÜZERİNDEKİ UYGULAMALARI
*Arif GÜLTEN, *Şengül DOĞAN
*Fırat Üniversitesi Mühendislik Fakültesi Elektrik – Elektronik Mühendisliği Böl. – ELAZIĞ
[email protected]
__________________________________________________________________________________________________________________________________________________
ÖZET
Klinik tıpta bulguların okunması, sadeleştirilmesi, sınıflandırılması ve karara varılması işlemlerinde tıp uzmanlarının kılavuz hazırlaması işi, bu veriler arttıkça sıkıcı ve zor bir iş haline gelmektedir. Veri madenciliği,
hem metine bağlı bilgileri hem de belirli bir hastanın görüntü verilerinin çıkarılıp her bir hasta kaydını birleştirmek için rahatlıkla kullanılabilir. Bu anlamda veri madenciliği tıpta pek çok alanda başarı ile uygulanmıştır. Bu çalışmada, kan biyokimya parametreleri ile Hiperlipidemi teşhisinde, hekime yardımcı olacak ve
kolaylık sağlayabilecek bir karar destek sistemi oluşturulmuştur. Sistemin işleyişi veri madenciliği tekniklerinden genetik algoritmalar yöntemi ile sağlanmaktadır. Sisteme giriş olarak, biyokimya parametrelerinden
hiperlipidemi hastalığı için temel belirleyiciler olan Total kolesterol, LDL, Trigliserit, HDL ve vLDL enzimleri kullanılıp değerlendirmelerde bulunulmuştur. Karar destek sisteminin sonuçları, doktorun verdiği
kararlarla tamamen örtüşmüştür.
Anahtar Kelimeler: Veri Madenciliği, Genetik Algoritmalar, Hiperlipidemi
__________________________________________________________________________________________________________________________________________________
APPLICATIONS ON BIOMEDICAL DATAS OF
GENETICAL ALGORITHMS METHOD
ABSTRACT
The data increased it became quite a boring and difficult work for the medical science experts to prepare a
guide that will be used in the processes of reading, simplifying, classifying the findings and making a
decision at the end. Data mining is used for both getting the information related with the text and the
information of the image data of an individual patient and then for matching each patient’s entry. In this
context data mining has been applied so successfully in many fields of medical science. In this study a
decision support system has been designed from the biochemistry blood parameters which will be very
helpful for and will make everything easier for the physicians in the diagnosis of Hyperlipidemia. The system
operation is achieved via the genetic algorithm which is related as one of the data mining techniques. The
basic characteristic of the lipide parameters that is, Total cholesterol, LDL, Triglyceride, HDL and VLDL
parameters are used in the process of entering the system. The results of the decision support system have
completely matched with those of the physicians’ decisions.
Keywords: Data Mining, Genetic Algorithm, Expert System, Hyperlipidemia.
__________________________________________________________________________________________________________________________________________________
1.GİRİŞ
önemli bilgileri ortaya çıkarır ve böylece bu teknikler hastaneler ve klinik araştırmalar için değerli bilgiler sağlarlar [1]. Veri madenciliği, hem metine
bağlı bilgileri hem de belirli bir hastanın görüntü verilerinin çıkarılıp her bir hasta kaydını birleştirmek
için kullanılır [5]. Bu anlamda veri madenciliği tıpta
pek çok alanda başarı ile uygulanmıştır [6, 7]. Örneğin, kronik hastalıkların teşhis ve tedavisinde kesin
kurallar keşfetmek, seçilen kuralları kullanmak, hastalıkla ilgili üretilen, organize edilen, arıtılan ve
paylaşılan bilgiyi bir sistem içerisinde çalıştırma işlemlerini genişletme durumlarını tanımlamak için
tamamlayıcı veri madenciliği oluşturulmasına [8]
yönelik çalışmalara literatürde rastlanmaktadır. Bu
çalışmalarda, amaca ulaşmak için ilk önce veriler,
veri tabanında depolanıp, işlenerek anlamlı bilgilere
ulaşılmaya çalışılmıştır [2]. Medikal alanda veri ambarları klinik ambar olarak da bilinmektedir. Sonra,
Günümüz Hastane Bilgi Sistemleri hastalara
ve onların tıbbi durumlarına ait birçok veriyi barındırırlar. Bu verilerin çokluğuna ve zenginliğine rağmen, değerli bilgiler hastane ve klinik veritabanlarında gizlidir. Hastanelerin ve sağlık merkezlerinin
verimliliğini artırmak ve gelecek planları yapabilmek için yararlı bilgilere ihtiyaçları vardır [1]. Biyoloji ve tıp dünyasındaki bu tür araştırmalar arttıkça
gerçek dünya olgularıyla ilgili farklı veri tiplerinin
çokluğuna yol açmaktadır [2]. Modern tıpta bu yüzlerce özellik, binlerce görüntüyü insanların kavrayıp
anlamlı bilgiler haline getirmesini oldukça zorlaştırmıştır [3, 4]. Ayrıca bu veriler içerisinde saklı kalan
pek çok bulgu bu şekilde veri yığını olarak kalmıştır. Faydalı bilgiler çıkarmak için verilerin otomatikleştirilmesi gerekmektedir. Bu sorunların çözümü
için en çok kullanılan yöntemlerden biri olan veri
madenciliği teknikleri tıbbi verilerden gizli kalmış
12
Doğu Anadolu Bölgesi Araştırmaları;
Arif GÜLTEN, Şengül DOĞAN
ha güçlüdür [10]. Veri madenciliği, büyük veri tabanlarındaki gizli bilgi ve yapıyı açığa çıkarmak
için, çok sayıda veri analizi aracını kullanan bir süreçtir [11]. Veri madenciliği Biyotıp, Gen fonksiyonları ve DNA sıralama desenlerinin veri analizlerinde, hastalık tanısında, telekomünikasyon endüstrisinde, finans analizi, astronomi ve birçok alanda
uygulanmaktadır [12]. Örneğin, bir tıbbi teşhis sisteminde kullanılan standart yazılımlar verinin dağınık
olması, çok farklı çeşitlerinin kullanılması, örnekleri
karşılaştırma, kritik farkları tespit etme, veritabanları üzerindeki sistematik ve tutarlı analizler yapılamaması gibi nedenlerle sorunlu olup, doktorlar tarafından eksik görülmüştür. Bu bağlamda hem sayısal
parametrelere hem de morfolojilere ilişkin eğrilerin
bir uzman bilgi sistemi ile temel analizini sağlayan,
gerekli bilgileri depolayan, yöneten ve karar için
referans gibi son derece yararlı bir yapıyı içeren veri
madenciliği devreye girmiştir. Ayrıca veri madenciliği teknikleri uzman doktorlara kolaylık, pratisyenlere ise yardım sağlaması nedeniyle tıp alanında
kabul görmüştür [13]. Veri madenciliği tıp ve diğer
alanlarda bilgi keşfi sürecinin bir parçası olarak değerlendirilmektedir [14]. Veri madenciliği aşamaları
Şekil 1’de gösterilmiştir [15].
biyolojik, klinik ve yönetsel veriyi içeren klinik ambarlar hasta bilgilerini birleştirir. Böylece hasta ile
ilgili sistemlerin kullanım imkânı artırılmış olur [9].
Bu çalışmada, veri madenciliği tekniklerinden genetik algoritmalar yönteminin biyomedikal
veriler üzerinde hiperlipidemi hastalığı için geliştirilen karar destek sistemlerinin başarımı değerlendirilmiştir ve geliştirilen sistemde gerçekçi sonuçlar
elde edilmiştir.
2. VERİ MADENCİLİĞİ
Bilgisayar sistemlerinin her geçen gün ucuzlaması ve gelişimiyle birlikte hayatımızın her alanında bilgisayarlar önemli bir yere sahip olmaktadır.
Özellikle verilerin bilgisayar ortamında saklanmaya
başlanması ile birlikte, yeryüzündeki bilgi miktarının her geçen gün katlanarak arttığı günümüzde,
veri tabanlarının sayısı da benzer, hatta daha yüksek
bir oranda artmaktadır. Veriler hacim olarak sayfalarca yer kaplarlar ama kullanım değerleri azdır.
Oysa, sayıları düzenleyip özetlersek, harfleri düzenleyerek anlamlı cümleler haline dönüştürürsek, bir
grafik oluşturursak ancak o zaman verileri bilgiye
dönüştürmüş oluruz. Bilgi verilere göre hacim olarak daha az yer tutar ama kullanım değeri olarak da-
Orjinal
Veritabanı
Seçilen
Veritabanı
Keşfedilen
Örüntü
Sonuçlar
Şekil 1. Veri madenciliği işlemleri.
Veri madenciliği, kullanıcı ve bilgi tabanı ile
ritmalar, en iyinin korunumu ve doğal seçilim ilkeetkileşim halindedir. İlginç veri örüntüleri kullanıcısine dayanarak, benzetim yoluyla bilgisayarlara
ya gösterilir. Ayrıca, istenirse bilgi tabanına da kayuygulanan ve bilgisayar üzerinde oluşan bir evrim
dedilebilir. Buna göre, veri madenciliği işlemi, gizli
şeklidir. Genetik algoritmaların amacı, hem probkalmış veri örüntülerini bulana kadar devam eder
lemleri çözmek hem de evrimsel sistemleri modelle[16]. Veri tabanlarındaki veriden anlamlı bilgiler çımektir. Genetik algoritmanın kullanım alanları her
karılırken öncelikle veri yığınları arasından gereken
geçen gün artmakta olup, genetik algoritmanın teveriler alınır, sınıflandırılır ve daha sonrada işlenir
mel işlemleri aşağıda adımlar halinde sıralanmıştır:
[17]. Veri madenciliğinde sınıflama metotları, büRasgele olarak başlangıç popülasyonu oluşyük verilerde ilginç nesnelerin otomatik tanımlanturulur. Rasgele oluşturulan bireylerin her biri uymasında ve mali piyasalardaki eğilimin sınıflamagunluk fonksiyonunda yerlerine konularak değerlenlarını içeren uygulamalarda bilgi keşfi için kullanılır
dirilir. Yani, bireyler amaç fonksiyonundan geçirilir.
[18]. Bu verileri sınıflandırırken karar ağaçları,
Bu işlem, bireylerin iyi olup olmadığını tespit etme
birliktelik kuralları, genetik algoritmalar gibi çeşitli
işlemidir.
yöntemler mevcuttur [19].
Uygunluk fonksiyonu, belirlenen çözümlerin
2.1. GENETİK ALGORİTMALAR
uygunluk derecelerinin ölçülmesini sağlayan bir
Genetik algoritmalar, değişik planlama tekfonksiyondur. Her problem için ayrı bir uygunluk
nikleri ile bir fonksiyonun optimizasyonu veya
fonksiyonunun belirlenmesi gerekmektedir.
ardışık değerlerin tespitini içine alan birçok problem
Bireylere seçim yöntemi uygulanır. Seçim iştipleri için çözüm arama yöntemidir. Genetik algoleminde amaç, seçilen uygunluk fonksiyonuna ve
13
Doğu Anadolu Bölgesi Araştırmaları;
Arif GÜLTEN, Şengül DOĞAN
tasyona uğratılacağına mutasyon oranına göre karar
verilmektedir. Ve böylece değişime uğramış, yeni
bireylere yer açmak için eski bireyler çıkartılarak
sabit büyüklükte yeni bir popülasyon oluşturulması
sağlanır.
seçim yöntemine göre elimizdeki popülâsyondan
yeni bir neslin bireylerinin seçilmesidir. Bu seçimde
uygunluğu yüksek olan bireyin, yeni nesle aktarılma
ihtimali de daha yüksek olacaktır. Böylece bireylerin (kromozomlar) en uygun olanı hayatta kalırken
diğerleri de yok olmaya maruz kalacaktır.
Bireylere çaprazlama (gen takası) yöntemi
uygulanır. Çaprazlamanın ön adımı olarak çaprazlanacak bireyler
Sonuçta popülâsyonun hesaplanması sırasında en iyi birey bulunduğunda çözüm elde edilmiş
olur. Genetik algoritma ile yapılan uygulamalarda
her örnek için tek sonuç üretilir. Tek sonuç ise bir
kromozoma karşılık gelir [20].
eşleme süreciyle belirlenir. Eşleme sürecinde, seçilen kromozomların yeni nesil oluşturma işlemine çaprazlama denir. Bir problem çözüm uzayından kaç adet kromozomun çaprazlanacağı çaprazlama oranına göre belirlenmektedir.
3. GELİŞTİRİLEN KARAR DESTEK
SİSTEMİ
Hekim açısından mevcut olan başlıca testler;
biyokimya testleridir ki; bunlar birçok durumda tanı
koydurucudur. Hiperlipidemi teşhisi için Total Kolesterol, LDL, Trigliserid, HDL ve VLDL [21], gerekli biyokimya kan parametrelerinin değerleri kontrol edilerek teşhise varılabilir. Genetik algoritmalar
yöntemine göre hazırlanmış olan sistemin yapısı
Şekil 2’deki adımları kapsamaktadır.
Bireylere Mutasyon yöntemi uygulanır. Çaprazlama sonucunda farklı çözümlere ulaşmak bazen
zor olmaktadır. Yeni çözüm aramanın kolaylaştırılması ve aramanın yönünü değiştirmek amacı ile bir
kromozomun bir elemanının değiştirilmesi işlemidir. Bir problem havuzunda kaç kromozomun mu-
Amaç Fonksiyonu
Popülasyon
A 1 0 0 1 1
B 0 1 1 1 0
C 1 0 1 0 1
D 0 0 1 0 1
Degisim
1 1 1 1 0
1 0 1 1 0
Çaprazlama
Seçim
Uygunluklarin
Degerlendirilmesi
1 0 1 1 0
A
0 1 0 1 1
C
A 1 0 0 1 1
D
B
B 0 1 1 1 0
Şekil 2. Karar destek sisteminin basamakları.
Başlangıçta hasta verileri doktor gözetiminde
toplanarak bir veri tabanı oluşturulmuş ve bu veriler
üzerine genetik algoritma operatörünün uygulanabilmesi için veriler 1-0 kodlama yöntemi kullanılarak
kodlanmıştır. Burada her kromozom 0 ve 1 lerden
oluşan bir bit dizisidir. Şekil 3’de bir bireyin kodlanmış şekli gösterilmiştir.
T.Chol
HDL
LDL
VLDL Trigliserit
0
1
0
1
1
1
1
0
1
Tablo 2. Hiperlipidemi için enzim referans
değerleri.
Lipidler
T. Chol
LDL
Trigliserid
HDL
VLDL
A
A
A
C
A
Referans
0<TCHOL<200
80<LDL<180
60<TG<165
40<HDL<60
20<VLDL<50
B TCHOL<0
B LDL<80
B TG<60
B HDL<40
B VLDL<20
C
C
C
C
C
Uygunluk fonksiyonu hesaplanmasında
0
n
Şekil 3. Bireyin 1-0 kodlama ile gösterimi
Buradaki bitler parametre sınıflarını temsil
etmektedir. Bit değerlerinin temsil ettiği sınıflar ise
Tablo 1’de hiperlipidemi için baz alınan enzimlerin
referans aralığı da Tablo 2’de gösterilmiştir.
Tablo 1. Bit değerlerinin temsil ettiği sınıflar
Bit değeri
01
10
11
TCHOL>200
LDL>180
TG>165
HDL>60
VLDL>50
f(x)=
 w(i )
1
(1)
i 0
şeklinde gen ağırlıkları hesabı baz alınmıştır. Genin
ağırlığı hesaplanırken o genin hastalık teşhisi konulan bireylerdeki tekrar etme oranı ile hasta olmayan
bireylerdeki tekrar etme oranın farkı şeklinde hesaplanmıştır. Negatif sonuç veren gen ağırlığı 0 değeri
ile sınırlandırılmıştır.
Sınıf
A
B
C
14
Doğu Anadolu Bölgesi Araştırmaları;
Arif GÜLTEN, Şengül DOĞAN
Geliştirilen karar destek sistemi sağlam ve
hasta olan bireyler için sistemi ayrı ayrı eğitmektedir. Sistemde 89 hasta verisi kullanılarak 300 iterasyon sonucunda elde edilen en iyi kromozomlar
şekil 4 ve 5’de gösterilmiştir.
0
0
1
1
1
1
0
1
Şekil 5. Hasta olmayan en güçlü kromozom
Bu sonuca göre sistem bir sınıflama yeteneğine sahip olmuştur. Böylelikle eğitilen sistem yeni
karşılaştığı durumlarda genelde uzman hekim bilgisine dayalı elde edilen karar şemaları parametrelerin
alabileceği değer aralığına denk gelecek şekilde her
durum için farklı ve otomatik olarak sınıflandırılabilmektedir.
0
Şekil 4. Hasta olan en güçlü kromozom
1
1
1
0
1
0
1
0
1
4. TARTIŞMA
Geliştirilen karar destek sistemi, 89 hastanın
biyokimya test sonuçlarıyla eğitilmiş ve 30 test verisiyle test edilmiştir. Sistemin yaptığı sınıflandırmanın uzman bir doktorun verdiği kararlarla örtüştüğü
görülmüştür. Bu başarım yüzdesi, Hiperlipidemi teşhisinde doktorun verdiği kararla, geliştirilen sistemin sonuçlarının bire bir uygunluğu, tasarlanan
karar destek sisteminin etkinliğini ve güvenirliğini
açıkça göstermektedir. Ayrıca Hiperlipidemi hastalı-
ğı için aynı sistem veri madenciliği tekniklerinden
karar ağaçları [22] ve birliktelik kuralları [23] yöntemleriyle de uygulanmış fakat genetik algoritma
daha kesin sınıflandırma özelliğine sahip olduğu
için birliktelik kurallarının elde ettiği kural karmaşıklığını ortadan kaldırmaktadır. Fakat birliktelik
kurallarında bulunan sonuçlar yüzdelik oranlarla
bulunduğu için kesin çizgilerle ayrılamayan kurallar
için birliktelik kuralları daha iyi sonuçlar vermiştir.
5. SONUÇLAR
Bilgisayar sistemlerinin gelişmesi, yeni sistemlerin ortaya çıkmasına ve ucuzlamasına yol
açmaktadır. Bu gelişimin paralelinde bilgisayarlı
sistemler pek çok uygulama alanı bulmakta ve insan
yükünü hafifletmektedir. Özellikle tıbbi alanda verilerin fazla olması, çalışılan alanda elde edilen bilgilerin artması, bu bilgilerin sınıflandırılması ve karara varılması işlemleri her geçen gün karmaşık bir
yapıya bürünmüştür. Veri madenciliği ile birlikte bu
işlemler otomatikleştirilmiş ve tıp uzmanlarına kılavuz hazırlanmasında önemli ölçüde yardımcı olmuş
ve kolaylık sağlamıştır. Bu alanda elde edilen veri
yığınlarındaki veriler içerisinde saklı kalan pek çok
bulgu veri madenciliği ile faydalı bilgiler haline dönüştürülmüştür.
Önerilen sistemde, veri madenciliğinde
önemli bir yer tutan genetik algoritma yöntemi kullanılmıştır. Geliştirilen karar destek sistemi, hastalıkların yorumlanmasında uzman hekimlere ve pratisyen hekimlere büyük kolaylıklar sağlayacaktır.
Sistem genelleştirilerek biyokimya parametreleri
baz alınarak karar verilen hastalıkların teşhisi bilgisayarlı sistemlerle otomatik hale getirilebilir. Böylelikle uzman insan yükü azaltılabilir.
6. TEŞEKKÜR
Biyokimya verilerini sağlayan Elazığ Ufuk
Tıp Merkezi’ne ayrıca verilerin değerlendirilmesindeki katkılarından dolayı Prof. Dr. Bilal ÜSTÜN-
DAĞ ve Uzman hekim Dr. Osman Metin İPÇİOĞLU’na teşekkür ederiz.
7. KAYNAKÇA
1. Yıldırım, P., Uludağ, M., “Hastane Bilgi Sistemlerinde Veri Madenciliği”, Akademik Bilişim
2008, 2007.
5. Cooke, CD., Santana, CA., etc., “Validating Expert System Rule Confidences Using Data Mining of Myocardial Perfusion SPECT Databases”, Computers in Cardiology, 27: 785–788,
2000.
2. Barrera, J., Cesar-Jr, R.M., etc., “An Environment For Knowledge Discovery in Biology”,
Computers in Biology and Medicine 34, 427–
447, 2003.
6. Tan, K.C., Yu, Q., etc., “Evolutionary Computing for Knowledge Discovery in Medical Diagnosis”, Artificial Intelligence in Medicine 27,
129–154, 2002.
7. Unger, T., Korade, Z., etc., “True and False
Discovery in DNA Microarray Experiments:
Transcriptome Changes in the Hippocampus of
Presenilin 1 Mutant Mice”, Methods 37, 261–
273, 2005.
8. Kusiak, A., Caldarone, C. A., etc., “Hypoplastic
Left Heart Syndrome: Knowledge Discovery
3. Podgorelec, V., Kokol, P., etc., “Knowledge
Discovery with Classification Rules in a
Cardiovascular Dataset”, Computer Methods and
Programs in Biomedicine 80 Suppl. 1, S39-S49,
2005.
4. Bojarczuk, C. C., Lopes, H. S., etc., “A Constrained-Syntax Genetic Programming System for
Discovering Classification Rules: Application to
Medical Data Sets”, Artificial Intelligence in
Medicine 30, 27–48, 2004.
15
Doğu Anadolu Bölgesi Araştırmaları;
Arif GÜLTEN, Şengül DOĞAN
with a Data Mining Approach”, Computers in
Biology and Medicine 36, 21–40, 2006.
9. Mullins, I. M., Siadaty, M. S., etc., “Data Mining and Clinical Data Repositories: Insights
from a 667,000 Patient Data Set”, Computers in
Biology and Medicine 2005.
10. N. Gürsakal, Sosyal Bilimlerde Araştırma Yöntemleri, VIPAS, Bursa, 189, 2001.
17. Bojarczuk, C. C., Lopes, H. S., etc., “A Constrained-Syntax Genetic Programming System for
Discovering Classification Rules: Application to
Medical Data Sets”, Artificial Intelligence in
Medicine 30, 27–48, 2004.
11. Z. Zhou, Three Perspectives of Data Mining,
Artificial Intelligence, 143, 139-146, 2003.
19. Information discovery in databases and data
mining, I. U. The school of business administration magazine, C:29, S: 1, (April), 2000.
18. Agrawal, R., Mehta, M., etc., “The Quest Data
Mining System”, IBM Almaden Research Center
San Jose 6s California, U.S.A., 1996.
12. Zaki, M., “Scalable Data Mining for Rules”,
University of Rochester, New York U.S.A.,
1998.
13. Alonso, F., Caraça-Valente, J. P., etc.,
“Combining Expert Knowledge and Data
Mining in a Medical Diagnosis Domain”, Expert
Systems with Applications 23, 367-375, 2002.
14. Allahverdi, N., “A artifical intelligence application with expert systems”, Satin Publication
Distribution,, Istanbul, 2002.
15. Dogan, S., “Veri madenciliği kullanarak biyokimya verilerinden hastalık teşhisi”, Fırat Üniversitesi, Fen Bilimleri Enstitüsü, Biyomühendislik Anabilim Dalı, Yüksek Lisans Tezi, 2007.
20. Daş, R., Türkoğlu, İ., Poyraz, M., “Genetik Algoritma Yöntemiyle Internet Erişim Kayıtlarından Bilgi Çıkarılması”, Sakarya Üniversitesi,
Fen Bilimleri Enstitüsü Dergisi, 10(2), 67-72,
2006, Sakarya.
21. H. Karpuz, Current approach of hyperlipidemia,
Cardiac Symposium Series Number: 40, s. 6974, June, 2004.
22. Dogan, S. ve Turkoglu, I., “Hyperlipidemia
detection from lipide paramets by using decision
trees”, e-journal of New World Sciences
Academy,1(2), 50-61, (2006).
23. Dogan S. and Turkoğlu I., "Diagnosing Hyperlipidemia Using Association Rules", Mathematical and Computational Applications, (2007).
16. Ilhan, S., Veri Madenciliği, 1-35, 2005.
16
Download