Doğu Anadolu Bölgesi Araştırmaları; Arif GÜLTEN, Şengül DOĞAN GENETİK ALGORİTMALAR YÖNTEMİNİN BİYOMEDİKAL VERİLERİ ÜZERİNDEKİ UYGULAMALARI *Arif GÜLTEN, *Şengül DOĞAN *Fırat Üniversitesi Mühendislik Fakültesi Elektrik – Elektronik Mühendisliği Böl. – ELAZIĞ [email protected] __________________________________________________________________________________________________________________________________________________ ÖZET Klinik tıpta bulguların okunması, sadeleştirilmesi, sınıflandırılması ve karara varılması işlemlerinde tıp uzmanlarının kılavuz hazırlaması işi, bu veriler arttıkça sıkıcı ve zor bir iş haline gelmektedir. Veri madenciliği, hem metine bağlı bilgileri hem de belirli bir hastanın görüntü verilerinin çıkarılıp her bir hasta kaydını birleştirmek için rahatlıkla kullanılabilir. Bu anlamda veri madenciliği tıpta pek çok alanda başarı ile uygulanmıştır. Bu çalışmada, kan biyokimya parametreleri ile Hiperlipidemi teşhisinde, hekime yardımcı olacak ve kolaylık sağlayabilecek bir karar destek sistemi oluşturulmuştur. Sistemin işleyişi veri madenciliği tekniklerinden genetik algoritmalar yöntemi ile sağlanmaktadır. Sisteme giriş olarak, biyokimya parametrelerinden hiperlipidemi hastalığı için temel belirleyiciler olan Total kolesterol, LDL, Trigliserit, HDL ve vLDL enzimleri kullanılıp değerlendirmelerde bulunulmuştur. Karar destek sisteminin sonuçları, doktorun verdiği kararlarla tamamen örtüşmüştür. Anahtar Kelimeler: Veri Madenciliği, Genetik Algoritmalar, Hiperlipidemi __________________________________________________________________________________________________________________________________________________ APPLICATIONS ON BIOMEDICAL DATAS OF GENETICAL ALGORITHMS METHOD ABSTRACT The data increased it became quite a boring and difficult work for the medical science experts to prepare a guide that will be used in the processes of reading, simplifying, classifying the findings and making a decision at the end. Data mining is used for both getting the information related with the text and the information of the image data of an individual patient and then for matching each patient’s entry. In this context data mining has been applied so successfully in many fields of medical science. In this study a decision support system has been designed from the biochemistry blood parameters which will be very helpful for and will make everything easier for the physicians in the diagnosis of Hyperlipidemia. The system operation is achieved via the genetic algorithm which is related as one of the data mining techniques. The basic characteristic of the lipide parameters that is, Total cholesterol, LDL, Triglyceride, HDL and VLDL parameters are used in the process of entering the system. The results of the decision support system have completely matched with those of the physicians’ decisions. Keywords: Data Mining, Genetic Algorithm, Expert System, Hyperlipidemia. __________________________________________________________________________________________________________________________________________________ 1.GİRİŞ önemli bilgileri ortaya çıkarır ve böylece bu teknikler hastaneler ve klinik araştırmalar için değerli bilgiler sağlarlar [1]. Veri madenciliği, hem metine bağlı bilgileri hem de belirli bir hastanın görüntü verilerinin çıkarılıp her bir hasta kaydını birleştirmek için kullanılır [5]. Bu anlamda veri madenciliği tıpta pek çok alanda başarı ile uygulanmıştır [6, 7]. Örneğin, kronik hastalıkların teşhis ve tedavisinde kesin kurallar keşfetmek, seçilen kuralları kullanmak, hastalıkla ilgili üretilen, organize edilen, arıtılan ve paylaşılan bilgiyi bir sistem içerisinde çalıştırma işlemlerini genişletme durumlarını tanımlamak için tamamlayıcı veri madenciliği oluşturulmasına [8] yönelik çalışmalara literatürde rastlanmaktadır. Bu çalışmalarda, amaca ulaşmak için ilk önce veriler, veri tabanında depolanıp, işlenerek anlamlı bilgilere ulaşılmaya çalışılmıştır [2]. Medikal alanda veri ambarları klinik ambar olarak da bilinmektedir. Sonra, Günümüz Hastane Bilgi Sistemleri hastalara ve onların tıbbi durumlarına ait birçok veriyi barındırırlar. Bu verilerin çokluğuna ve zenginliğine rağmen, değerli bilgiler hastane ve klinik veritabanlarında gizlidir. Hastanelerin ve sağlık merkezlerinin verimliliğini artırmak ve gelecek planları yapabilmek için yararlı bilgilere ihtiyaçları vardır [1]. Biyoloji ve tıp dünyasındaki bu tür araştırmalar arttıkça gerçek dünya olgularıyla ilgili farklı veri tiplerinin çokluğuna yol açmaktadır [2]. Modern tıpta bu yüzlerce özellik, binlerce görüntüyü insanların kavrayıp anlamlı bilgiler haline getirmesini oldukça zorlaştırmıştır [3, 4]. Ayrıca bu veriler içerisinde saklı kalan pek çok bulgu bu şekilde veri yığını olarak kalmıştır. Faydalı bilgiler çıkarmak için verilerin otomatikleştirilmesi gerekmektedir. Bu sorunların çözümü için en çok kullanılan yöntemlerden biri olan veri madenciliği teknikleri tıbbi verilerden gizli kalmış 12 Doğu Anadolu Bölgesi Araştırmaları; Arif GÜLTEN, Şengül DOĞAN ha güçlüdür [10]. Veri madenciliği, büyük veri tabanlarındaki gizli bilgi ve yapıyı açığa çıkarmak için, çok sayıda veri analizi aracını kullanan bir süreçtir [11]. Veri madenciliği Biyotıp, Gen fonksiyonları ve DNA sıralama desenlerinin veri analizlerinde, hastalık tanısında, telekomünikasyon endüstrisinde, finans analizi, astronomi ve birçok alanda uygulanmaktadır [12]. Örneğin, bir tıbbi teşhis sisteminde kullanılan standart yazılımlar verinin dağınık olması, çok farklı çeşitlerinin kullanılması, örnekleri karşılaştırma, kritik farkları tespit etme, veritabanları üzerindeki sistematik ve tutarlı analizler yapılamaması gibi nedenlerle sorunlu olup, doktorlar tarafından eksik görülmüştür. Bu bağlamda hem sayısal parametrelere hem de morfolojilere ilişkin eğrilerin bir uzman bilgi sistemi ile temel analizini sağlayan, gerekli bilgileri depolayan, yöneten ve karar için referans gibi son derece yararlı bir yapıyı içeren veri madenciliği devreye girmiştir. Ayrıca veri madenciliği teknikleri uzman doktorlara kolaylık, pratisyenlere ise yardım sağlaması nedeniyle tıp alanında kabul görmüştür [13]. Veri madenciliği tıp ve diğer alanlarda bilgi keşfi sürecinin bir parçası olarak değerlendirilmektedir [14]. Veri madenciliği aşamaları Şekil 1’de gösterilmiştir [15]. biyolojik, klinik ve yönetsel veriyi içeren klinik ambarlar hasta bilgilerini birleştirir. Böylece hasta ile ilgili sistemlerin kullanım imkânı artırılmış olur [9]. Bu çalışmada, veri madenciliği tekniklerinden genetik algoritmalar yönteminin biyomedikal veriler üzerinde hiperlipidemi hastalığı için geliştirilen karar destek sistemlerinin başarımı değerlendirilmiştir ve geliştirilen sistemde gerçekçi sonuçlar elde edilmiştir. 2. VERİ MADENCİLİĞİ Bilgisayar sistemlerinin her geçen gün ucuzlaması ve gelişimiyle birlikte hayatımızın her alanında bilgisayarlar önemli bir yere sahip olmaktadır. Özellikle verilerin bilgisayar ortamında saklanmaya başlanması ile birlikte, yeryüzündeki bilgi miktarının her geçen gün katlanarak arttığı günümüzde, veri tabanlarının sayısı da benzer, hatta daha yüksek bir oranda artmaktadır. Veriler hacim olarak sayfalarca yer kaplarlar ama kullanım değerleri azdır. Oysa, sayıları düzenleyip özetlersek, harfleri düzenleyerek anlamlı cümleler haline dönüştürürsek, bir grafik oluşturursak ancak o zaman verileri bilgiye dönüştürmüş oluruz. Bilgi verilere göre hacim olarak daha az yer tutar ama kullanım değeri olarak da- Orjinal Veritabanı Seçilen Veritabanı Keşfedilen Örüntü Sonuçlar Şekil 1. Veri madenciliği işlemleri. Veri madenciliği, kullanıcı ve bilgi tabanı ile ritmalar, en iyinin korunumu ve doğal seçilim ilkeetkileşim halindedir. İlginç veri örüntüleri kullanıcısine dayanarak, benzetim yoluyla bilgisayarlara ya gösterilir. Ayrıca, istenirse bilgi tabanına da kayuygulanan ve bilgisayar üzerinde oluşan bir evrim dedilebilir. Buna göre, veri madenciliği işlemi, gizli şeklidir. Genetik algoritmaların amacı, hem probkalmış veri örüntülerini bulana kadar devam eder lemleri çözmek hem de evrimsel sistemleri modelle[16]. Veri tabanlarındaki veriden anlamlı bilgiler çımektir. Genetik algoritmanın kullanım alanları her karılırken öncelikle veri yığınları arasından gereken geçen gün artmakta olup, genetik algoritmanın teveriler alınır, sınıflandırılır ve daha sonrada işlenir mel işlemleri aşağıda adımlar halinde sıralanmıştır: [17]. Veri madenciliğinde sınıflama metotları, büRasgele olarak başlangıç popülasyonu oluşyük verilerde ilginç nesnelerin otomatik tanımlanturulur. Rasgele oluşturulan bireylerin her biri uymasında ve mali piyasalardaki eğilimin sınıflamagunluk fonksiyonunda yerlerine konularak değerlenlarını içeren uygulamalarda bilgi keşfi için kullanılır dirilir. Yani, bireyler amaç fonksiyonundan geçirilir. [18]. Bu verileri sınıflandırırken karar ağaçları, Bu işlem, bireylerin iyi olup olmadığını tespit etme birliktelik kuralları, genetik algoritmalar gibi çeşitli işlemidir. yöntemler mevcuttur [19]. Uygunluk fonksiyonu, belirlenen çözümlerin 2.1. GENETİK ALGORİTMALAR uygunluk derecelerinin ölçülmesini sağlayan bir Genetik algoritmalar, değişik planlama tekfonksiyondur. Her problem için ayrı bir uygunluk nikleri ile bir fonksiyonun optimizasyonu veya fonksiyonunun belirlenmesi gerekmektedir. ardışık değerlerin tespitini içine alan birçok problem Bireylere seçim yöntemi uygulanır. Seçim iştipleri için çözüm arama yöntemidir. Genetik algoleminde amaç, seçilen uygunluk fonksiyonuna ve 13 Doğu Anadolu Bölgesi Araştırmaları; Arif GÜLTEN, Şengül DOĞAN tasyona uğratılacağına mutasyon oranına göre karar verilmektedir. Ve böylece değişime uğramış, yeni bireylere yer açmak için eski bireyler çıkartılarak sabit büyüklükte yeni bir popülasyon oluşturulması sağlanır. seçim yöntemine göre elimizdeki popülâsyondan yeni bir neslin bireylerinin seçilmesidir. Bu seçimde uygunluğu yüksek olan bireyin, yeni nesle aktarılma ihtimali de daha yüksek olacaktır. Böylece bireylerin (kromozomlar) en uygun olanı hayatta kalırken diğerleri de yok olmaya maruz kalacaktır. Bireylere çaprazlama (gen takası) yöntemi uygulanır. Çaprazlamanın ön adımı olarak çaprazlanacak bireyler Sonuçta popülâsyonun hesaplanması sırasında en iyi birey bulunduğunda çözüm elde edilmiş olur. Genetik algoritma ile yapılan uygulamalarda her örnek için tek sonuç üretilir. Tek sonuç ise bir kromozoma karşılık gelir [20]. eşleme süreciyle belirlenir. Eşleme sürecinde, seçilen kromozomların yeni nesil oluşturma işlemine çaprazlama denir. Bir problem çözüm uzayından kaç adet kromozomun çaprazlanacağı çaprazlama oranına göre belirlenmektedir. 3. GELİŞTİRİLEN KARAR DESTEK SİSTEMİ Hekim açısından mevcut olan başlıca testler; biyokimya testleridir ki; bunlar birçok durumda tanı koydurucudur. Hiperlipidemi teşhisi için Total Kolesterol, LDL, Trigliserid, HDL ve VLDL [21], gerekli biyokimya kan parametrelerinin değerleri kontrol edilerek teşhise varılabilir. Genetik algoritmalar yöntemine göre hazırlanmış olan sistemin yapısı Şekil 2’deki adımları kapsamaktadır. Bireylere Mutasyon yöntemi uygulanır. Çaprazlama sonucunda farklı çözümlere ulaşmak bazen zor olmaktadır. Yeni çözüm aramanın kolaylaştırılması ve aramanın yönünü değiştirmek amacı ile bir kromozomun bir elemanının değiştirilmesi işlemidir. Bir problem havuzunda kaç kromozomun mu- Amaç Fonksiyonu Popülasyon A 1 0 0 1 1 B 0 1 1 1 0 C 1 0 1 0 1 D 0 0 1 0 1 Degisim 1 1 1 1 0 1 0 1 1 0 Çaprazlama Seçim Uygunluklarin Degerlendirilmesi 1 0 1 1 0 A 0 1 0 1 1 C A 1 0 0 1 1 D B B 0 1 1 1 0 Şekil 2. Karar destek sisteminin basamakları. Başlangıçta hasta verileri doktor gözetiminde toplanarak bir veri tabanı oluşturulmuş ve bu veriler üzerine genetik algoritma operatörünün uygulanabilmesi için veriler 1-0 kodlama yöntemi kullanılarak kodlanmıştır. Burada her kromozom 0 ve 1 lerden oluşan bir bit dizisidir. Şekil 3’de bir bireyin kodlanmış şekli gösterilmiştir. T.Chol HDL LDL VLDL Trigliserit 0 1 0 1 1 1 1 0 1 Tablo 2. Hiperlipidemi için enzim referans değerleri. Lipidler T. Chol LDL Trigliserid HDL VLDL A A A C A Referans 0<TCHOL<200 80<LDL<180 60<TG<165 40<HDL<60 20<VLDL<50 B TCHOL<0 B LDL<80 B TG<60 B HDL<40 B VLDL<20 C C C C C Uygunluk fonksiyonu hesaplanmasında 0 n Şekil 3. Bireyin 1-0 kodlama ile gösterimi Buradaki bitler parametre sınıflarını temsil etmektedir. Bit değerlerinin temsil ettiği sınıflar ise Tablo 1’de hiperlipidemi için baz alınan enzimlerin referans aralığı da Tablo 2’de gösterilmiştir. Tablo 1. Bit değerlerinin temsil ettiği sınıflar Bit değeri 01 10 11 TCHOL>200 LDL>180 TG>165 HDL>60 VLDL>50 f(x)= w(i ) 1 (1) i 0 şeklinde gen ağırlıkları hesabı baz alınmıştır. Genin ağırlığı hesaplanırken o genin hastalık teşhisi konulan bireylerdeki tekrar etme oranı ile hasta olmayan bireylerdeki tekrar etme oranın farkı şeklinde hesaplanmıştır. Negatif sonuç veren gen ağırlığı 0 değeri ile sınırlandırılmıştır. Sınıf A B C 14 Doğu Anadolu Bölgesi Araştırmaları; Arif GÜLTEN, Şengül DOĞAN Geliştirilen karar destek sistemi sağlam ve hasta olan bireyler için sistemi ayrı ayrı eğitmektedir. Sistemde 89 hasta verisi kullanılarak 300 iterasyon sonucunda elde edilen en iyi kromozomlar şekil 4 ve 5’de gösterilmiştir. 0 0 1 1 1 1 0 1 Şekil 5. Hasta olmayan en güçlü kromozom Bu sonuca göre sistem bir sınıflama yeteneğine sahip olmuştur. Böylelikle eğitilen sistem yeni karşılaştığı durumlarda genelde uzman hekim bilgisine dayalı elde edilen karar şemaları parametrelerin alabileceği değer aralığına denk gelecek şekilde her durum için farklı ve otomatik olarak sınıflandırılabilmektedir. 0 Şekil 4. Hasta olan en güçlü kromozom 1 1 1 0 1 0 1 0 1 4. TARTIŞMA Geliştirilen karar destek sistemi, 89 hastanın biyokimya test sonuçlarıyla eğitilmiş ve 30 test verisiyle test edilmiştir. Sistemin yaptığı sınıflandırmanın uzman bir doktorun verdiği kararlarla örtüştüğü görülmüştür. Bu başarım yüzdesi, Hiperlipidemi teşhisinde doktorun verdiği kararla, geliştirilen sistemin sonuçlarının bire bir uygunluğu, tasarlanan karar destek sisteminin etkinliğini ve güvenirliğini açıkça göstermektedir. Ayrıca Hiperlipidemi hastalı- ğı için aynı sistem veri madenciliği tekniklerinden karar ağaçları [22] ve birliktelik kuralları [23] yöntemleriyle de uygulanmış fakat genetik algoritma daha kesin sınıflandırma özelliğine sahip olduğu için birliktelik kurallarının elde ettiği kural karmaşıklığını ortadan kaldırmaktadır. Fakat birliktelik kurallarında bulunan sonuçlar yüzdelik oranlarla bulunduğu için kesin çizgilerle ayrılamayan kurallar için birliktelik kuralları daha iyi sonuçlar vermiştir. 5. SONUÇLAR Bilgisayar sistemlerinin gelişmesi, yeni sistemlerin ortaya çıkmasına ve ucuzlamasına yol açmaktadır. Bu gelişimin paralelinde bilgisayarlı sistemler pek çok uygulama alanı bulmakta ve insan yükünü hafifletmektedir. Özellikle tıbbi alanda verilerin fazla olması, çalışılan alanda elde edilen bilgilerin artması, bu bilgilerin sınıflandırılması ve karara varılması işlemleri her geçen gün karmaşık bir yapıya bürünmüştür. Veri madenciliği ile birlikte bu işlemler otomatikleştirilmiş ve tıp uzmanlarına kılavuz hazırlanmasında önemli ölçüde yardımcı olmuş ve kolaylık sağlamıştır. Bu alanda elde edilen veri yığınlarındaki veriler içerisinde saklı kalan pek çok bulgu veri madenciliği ile faydalı bilgiler haline dönüştürülmüştür. Önerilen sistemde, veri madenciliğinde önemli bir yer tutan genetik algoritma yöntemi kullanılmıştır. Geliştirilen karar destek sistemi, hastalıkların yorumlanmasında uzman hekimlere ve pratisyen hekimlere büyük kolaylıklar sağlayacaktır. Sistem genelleştirilerek biyokimya parametreleri baz alınarak karar verilen hastalıkların teşhisi bilgisayarlı sistemlerle otomatik hale getirilebilir. Böylelikle uzman insan yükü azaltılabilir. 6. TEŞEKKÜR Biyokimya verilerini sağlayan Elazığ Ufuk Tıp Merkezi’ne ayrıca verilerin değerlendirilmesindeki katkılarından dolayı Prof. Dr. Bilal ÜSTÜN- DAĞ ve Uzman hekim Dr. Osman Metin İPÇİOĞLU’na teşekkür ederiz. 7. KAYNAKÇA 1. Yıldırım, P., Uludağ, M., “Hastane Bilgi Sistemlerinde Veri Madenciliği”, Akademik Bilişim 2008, 2007. 5. Cooke, CD., Santana, CA., etc., “Validating Expert System Rule Confidences Using Data Mining of Myocardial Perfusion SPECT Databases”, Computers in Cardiology, 27: 785–788, 2000. 2. Barrera, J., Cesar-Jr, R.M., etc., “An Environment For Knowledge Discovery in Biology”, Computers in Biology and Medicine 34, 427– 447, 2003. 6. Tan, K.C., Yu, Q., etc., “Evolutionary Computing for Knowledge Discovery in Medical Diagnosis”, Artificial Intelligence in Medicine 27, 129–154, 2002. 7. Unger, T., Korade, Z., etc., “True and False Discovery in DNA Microarray Experiments: Transcriptome Changes in the Hippocampus of Presenilin 1 Mutant Mice”, Methods 37, 261– 273, 2005. 8. Kusiak, A., Caldarone, C. A., etc., “Hypoplastic Left Heart Syndrome: Knowledge Discovery 3. Podgorelec, V., Kokol, P., etc., “Knowledge Discovery with Classification Rules in a Cardiovascular Dataset”, Computer Methods and Programs in Biomedicine 80 Suppl. 1, S39-S49, 2005. 4. Bojarczuk, C. C., Lopes, H. S., etc., “A Constrained-Syntax Genetic Programming System for Discovering Classification Rules: Application to Medical Data Sets”, Artificial Intelligence in Medicine 30, 27–48, 2004. 15 Doğu Anadolu Bölgesi Araştırmaları; Arif GÜLTEN, Şengül DOĞAN with a Data Mining Approach”, Computers in Biology and Medicine 36, 21–40, 2006. 9. Mullins, I. M., Siadaty, M. S., etc., “Data Mining and Clinical Data Repositories: Insights from a 667,000 Patient Data Set”, Computers in Biology and Medicine 2005. 10. N. Gürsakal, Sosyal Bilimlerde Araştırma Yöntemleri, VIPAS, Bursa, 189, 2001. 17. Bojarczuk, C. C., Lopes, H. S., etc., “A Constrained-Syntax Genetic Programming System for Discovering Classification Rules: Application to Medical Data Sets”, Artificial Intelligence in Medicine 30, 27–48, 2004. 11. Z. Zhou, Three Perspectives of Data Mining, Artificial Intelligence, 143, 139-146, 2003. 19. Information discovery in databases and data mining, I. U. The school of business administration magazine, C:29, S: 1, (April), 2000. 18. Agrawal, R., Mehta, M., etc., “The Quest Data Mining System”, IBM Almaden Research Center San Jose 6s California, U.S.A., 1996. 12. Zaki, M., “Scalable Data Mining for Rules”, University of Rochester, New York U.S.A., 1998. 13. Alonso, F., Caraça-Valente, J. P., etc., “Combining Expert Knowledge and Data Mining in a Medical Diagnosis Domain”, Expert Systems with Applications 23, 367-375, 2002. 14. Allahverdi, N., “A artifical intelligence application with expert systems”, Satin Publication Distribution,, Istanbul, 2002. 15. Dogan, S., “Veri madenciliği kullanarak biyokimya verilerinden hastalık teşhisi”, Fırat Üniversitesi, Fen Bilimleri Enstitüsü, Biyomühendislik Anabilim Dalı, Yüksek Lisans Tezi, 2007. 20. Daş, R., Türkoğlu, İ., Poyraz, M., “Genetik Algoritma Yöntemiyle Internet Erişim Kayıtlarından Bilgi Çıkarılması”, Sakarya Üniversitesi, Fen Bilimleri Enstitüsü Dergisi, 10(2), 67-72, 2006, Sakarya. 21. H. Karpuz, Current approach of hyperlipidemia, Cardiac Symposium Series Number: 40, s. 6974, June, 2004. 22. Dogan, S. ve Turkoglu, I., “Hyperlipidemia detection from lipide paramets by using decision trees”, e-journal of New World Sciences Academy,1(2), 50-61, (2006). 23. Dogan S. and Turkoğlu I., "Diagnosing Hyperlipidemia Using Association Rules", Mathematical and Computational Applications, (2007). 16. Ilhan, S., Veri Madenciliği, 1-35, 2005. 16