Prostat Kanseri Teşhisinde Veri Madenciliği Yöntemlerinin Başırım

advertisement
Prostat Kanseri Teşhisinde Veri Madenciliği Yöntemlerinin
Başırım Karşılaştırması
Sait Can Yücebaş1,
1
Çanakkale Onsekiz Mart Üniversitesi, Bilgisayar Mühendisliği Bölümü, Çanakkale
[email protected]
Özet: Bütünsel genom ilişkilendirme çalışmalarında (GWAS), tekli nükletotit polimorfizm
(SNP) profillerinin birçok hastalık ile ilişkisi olduğu keşfedilmiştir. Bu çalışmalarda
kullanılan verilerin yüksek miktarda ve çok boyutlu olması, profillerin hastalıklarla
ilişkilendirilmesi ve buradan teşhise gidilmesi sırasında farklı veri madenciliği yöntemlerinin
kullanılması ile mümkün olmaktadır. Yapılan çalışmada 1261 kişiden oluşan, her kişiye ait
600.000 SNP ve 12 adet fenotip içeren prostat kanseri veri kümesi kullanılmış, bu veri kümesi
üzerinde farklı veri madenciliği yöntemlerinin teşhisteki başarımları test edilmiştir. Test edilen
yöntemler arasında Destek Vektör Makinası %72,6’lık kesinlik ve 0,829’luk ROC eğrisi
altında kalan alan bakımından en yüksek başarımı verirken, duyarlılık ölçütü en yüksek
yöntem %82,35 ile Naive Bayes olmuştur.
Anahtar Sözcükler: Veri Madenciliği, Makia Öğrenme, Bütünsel Genom
İlişkilendirme Çalışmaları, Tekli Nükletotit Polimorfizm.
Performance Comparison of Data Mining Methods on Prostate Cancer Diagnosis
Abstract: In genome wide association studies (GWAS), many relations between single
nucleotide polymorphism (SNP) and diseases are discovered. These studies work on vast
amount of data which is high dimensional so usage of different data mining methods is
required in the association and diagnosis phases. In this study, prostate cancer data set which
consists of 1261 subjects is used. Each subject has 600,000 SNPs and 12 phenotypes.
Diagnostic performances of different data mining methods are tested on this data set. Among
these methods Support Vector Machine has superior performance with 72.6% accuracy and
0.829 area under ROC curve. Naïve Bayes was the best model in terms of sensitivity with a
value of 82.35%.
Keywords: Data Mining, Machine Learning, Genome Wide Association Studies, Single
Nucleotide Polymorphism.
1. Giriş
Günümüzde genetik alanındaki çalışmalar
İnsan Genom Projesi’nin tamamlanmasıyla
birlikte büyük bir hız kazanmıştır. Bu
çalışmaların bir kolu da genetik varyasyonları
inceleyerek bunların hastalıklara yol açıp
açmadığını inceleyen bütünsel genom
ilişkilendirme (GWAS) çalışmalarıdır. Bu
çalışmalar genellikle tek bir nükleotidin
değişmesinden kaynaklanan tekli nükleotit
polimorfizmi (SNP) [1] üzerine yoğunlaşır.
Bu tek nükleotit değişiminden kaynaklanan
varyasyonlar yaşayan bir organizmanın belirli
hastalıklar geliştirmesine veya belirli
hastalıklara savunmasız kalmasına neden
olabilmektedir. Bu nedenle SNP’lerin kanser
[2], diyabet [3], kardiyo vasküler hastalıklar
[4] ve akıl hastalıkları[5] gibi karmaşık
hastalıklarla ilişkisi araştırmalara konu
olmaktadır [6].
SNP’lerin karmaşıık hastalıklar ile ilişkisinin
incelendiği çalışmalarda kullanılan veriler
oldukça büyük miktarda ve çok boyutlu
veriler
olduğundan
ilgili
verilerin
incelenmesinde veri madenciliği yöntemleri
tercih edilmektedir. Karar Ağaçları [7], Bayes
ağları[8], Destek Vektör Makinaları[9]
SNP’lerin
karmaşık
hastalıklarla
ilişkilendrildiği çalışmalarda yaygın olarak
kullanılan yöntemlerdir.
Literatüre bakıdığında bu yöntemlerin,
genom ilişkilendirme, genomlardan hastalık
teşhis
etme
ve
teşhis
üzerindeki
performanslarının
birbirleri
ile
karşılaştırıldığı birçok çalışma görülebilir.
İlgili çalışmalarda kullanılan yöntemlerden
biri olan Karar Ağaçları diğer yöntemlere
göre daha basit, görsel olarak zengin ve daha
az maliyetli olmalarıyla tercih edilmişlerdir.
2009 yılında yapılan bir çalışmada [10]
hamilelikle gelişen hipertansiyon 4529 hasta
üzerinde 52 adet SNP kullanılarak
incelenmiştir. Bu inceleme için ID3, ADTree
ve C4.5 gibi farklı karar ağaçları kullanılmış
ve teşhis performansları karşılaştırılmıştır.
Jiao ve arkadaşlarının yaptığı bir çalışmada
[11] otizm spectrum bozukluğu 36 hasta ve
25 SNP kullanılarak incelenmiş farklı karar
ağacı
modelleri
ile
destek
vektör
makinalarının karar verme performansları
karşılaştırılmış ve birbirine yakın sonuçlar
bulunmuştur. Göğüs kanserinin altında yatan
SNP leri bulmak adına yapılan bir çalışmada
[12] 258 hasta ve 32 SNP kullanılmış,
karşılaştırılan karar ağaçları içerisinde en
yüksek kesinlik ölçütünü C4.5 ağacı
vermiştir.
GWAS çalışmalarında tercih edilen diğer bir
veri madenciliği yöntemi olan destek vektör
makinası (DVM) tip -2 Diyabet üzerinde
yapılan bir çalışmada [13] 452 hasta, 456
kontrol, 87 gen ve 408 SNP üzerinde
kullanılmış, DVM 12 gen üzerinde bulunan
14 adet SNP’i hastalıkla ilgili olarak
göstermiştir. Çoklu myeloma hastalığının
erken teşhisi için 300 SNP’in kullanıldığı bir
çalışmada DVM %71’lik kesinlik, %65’lik
duyarlılık ve %77’lik seçicilik performansı
göstermiştir [14]. Diğer bir erken teşhis
çalışmasında ağız kanseri incelenmiş ve
DVM %55,4 kesinlik sonucu ile %65.2
duyarlılık göstermiştir. DVM performansının
diğer yöntemlerle karşılaştırıldığı bir çok
çalışma literatürde bulunmaktadır. Bu
çalışmaların birinde göğüs kanseri 174 hasta,
150 kontrol ve her birey için 45 tane genin
üzerindeki 98 SNP incelenmiştir [15]. DVM,
Bayes
ağları
ve
karar
ağaçlarının
karşılaştırıldığı bu çalışmada performans
sonuçları birbirine yakın olmuştur. Wei ve
arkadaşları tip-1 diyabet üzerinde yaptıkları
çalışmada [16] farklı DVM yöntemlerni
karşılaştırılmış
sonrasında
daha
iyi
performans gösteren doğrusal olmayan DVM
farklı bir yöntem olan lojistik regresyon ile
kıyaslanmıştır. Kıyaslama ROC eğrisi altında
kalan alana göre yapılmış ve 0,86 – 0,89
arasında değişen duyarlılık, 0,85 – 0,88
seçilik değerleri ile doğrusal olmayan DVM
öne çıkmıştır.
Bu yöntemlerin yanı sıra seçilen bir ana
yöntemin genetik algoritma ile optimize
edildiği genetik evrimli modeller [17,18] ve
birden fazla ana yöntemin birleştirildiği hibrit
modeller [19] de kullanılmaktadır.
Makaleye konu olan bu çalışmada, GWAS
çalışmalarında
kullanılan
temel
veri
madenciliği
yöntemlerinin
teşhis
performansları
karşılaştırılmıştır.
İlgili
karşılaştırma için 1261 kişiden oluşan, her
kişiye ait 600.000 SNP ve 12 adet fenotip
bilgisinin yer aldığı prostat kanseri veri
kümesi kullanılmıştır.
edilmiş ve ilişki kuvveti için sınır değer
p<0,005 olarak belirlenmiştir. Bu adımda veri
kümesindeki
SNP
sayısı
22.848’e
indirgenmiştir. İkinic adımda ise METU-SNP
[21] aracının Analitik Hiyerarşik İşleme
bileşeni kullanılarak eldeki SNP’ler içerisinde
biyolojik anlamlılığı en yüksek SNP’ler
seçilmiş ve bu sayede oluşan son temsili SNP
alt kümesinde kişi başına incelen SNP sayısı
2710’a indirgenmiştir.
Eldeki 20 adet fenotip özniteliğinden 8’i çok
fazla
bilinmeyen
değer
içerdiğinden
çalışmadan çıkarılmıştır.
2. Materiyal
3. Metod ve Bulgular
Çalışmada kullanılan veri kümesi NCBI1’ın
dbGaP
veri
tabanındaki
phs000306
numaraları çok etnikli prostat kanseri veri
kümesinden2
örneklem
alınarak
oluşturulmuştur. Oluşturulan bu kümede 628
sağlıklı, 632 hasta yer almakta ve her bireye
ait 600.000 SNP ve 20 adet fenotip
bulunmaktadır. Veri kümesindeki bireylerin
358’i Afro Amerikan, 227’si Japon ve kalan
675’i Latin etnik kökenindendir.
Bu
çalışmada
SNP’lerin
karmaşık
hastalıklarla ilişkilendirilmesi ve teşhisinde
veri madenciliği yöntemlerinin, çok etnikli
prostat kanseri veri kümesi üzerindeki
başarım performansları karşılaştırılmıştır.
Seçilen her bir yöntemin, alandaki öğrenme
metodolojisinin literatürde yaygın kullanılan
bir temsilcisi olması amaçlanmıştır. Bu
bağlamda tembel öğrenme (Lazy Learning)
için K-En Yakın Komşu (KNN), özyineli
mantıkla çalışan Karar Ağacı (KA),
olasılıksal metod olarak Naive Bayes (NB),
olasılıksal olmayan model ve doğrusal
olmayan verilerin sınıflandırması için de
Destek Vektör Makinası (DVM) seçilmiştir.
2.1 Veri Ön İşleme
Genom ilişkilendirme çalışmalarında eldeki
SNP sayısı çok olduğunda analizi daha
anlamlı hale getirmek için boyut indirgeme
yöntemleri kullanılarak temsili SNP alt
kümesi oluşturmak literatürde oldukça sık
başvurulan bir yöntemdir [20]. İlgili
çalışmada kullanılan veri kümesindeki SNP
sayısının indirgenerek temsili SNP alt
kümesinin oluşturulması için iki adımlı bir
boyut indirgeme yapılmıştır. İlk adımda
hastalıkla ilişkisi belirli bir kuvvet değerinin
üzerinde olan SNP’lerin seçimi için genom
ilişkilendirme çalışmalarında kullanılan bir
açık kaynak kod aracı olan PLINK3 tercih
1
The National Center for Biotechnology Information
Multi Ethnic Genome Wide Scan of Prostate Cancer
version 2
3
http://pngu.mgh.harvard.edu/~purcell/plink/index.shtml
2
İlgili yöntemlerin uygulaması için Java
tabanlı bir veri madenciliği aracı olan ve
literatürdeki uygulamalrda da tercih edilen
[22]
Rapid
Miner’ın
5.3
sürümü
kullanılmıştr.
Başarım ölçümleri için ayrı bir test kümesi
bulunmadığından, test edilen her yöntem için
eldeki veri kümesi üzerinde 10 katmanlı
çarpraz geçerlilik testi uygulanmıştır.
3.1 Karar Ağacı ve Bulguları
Karar ağaçları literatürde ikili sııflama için
oldukça tercih edilen bir yöntemdir [23]. Bu
tercih altındaki en büyük etmenler gürültü
toleransı, düşük hesaplama ihtiyaçları,
uygulama kolaylığı ve sağladığı görsellik ile
kolay yorumlanabilirliğidir [24].
Bu yöntemde eldeki her öznitelik sınıflama
problemini ayırma gücü açısından özyineli
olarak test edilir ve bilgi kazancı en yüksek
olan öznitelik dallanma için seçilir [25].
Karar Ağacı yapısında başarımı etkileyen en
önemli faktörlerden birisi dallanmanın
yapılacağı öznitelik seçiminde kullanılan
bilgi kazancı hesaplama yöntemidir. Bu
adımda bilgi kazancı (Information Gain)
kullanıldığında fazla sayıda kategorik değer
içeren öznitelikler adına bir taraf tutma
olduğu bilinmektedir [25]. Bunu engellmek
adına ayrım kriteri olarak bilgi kazancı oranı
(Information Gain Ratio) kullanılmıştır.
Dallanma yapısı en düşük eleman sayısı 4 ve
yaprak oluşması için gerken en düşük eleman
sayısı ise 2 olarak belirlenmiştir. Bu şekilde
oluşturulan KA modelinin başarım kriterleri
Tablo-1’de sunulmuştur.
Tablo-1: Karar Ağacı Başarım Değerleri
Başarım Kriteri
Değer
Kesinlik
% 69.84
Duyarlılık
% 72.58
AUC
0.809
3.2 K-En Yakın Komşu ve Bulguları
Bu yöntemde, sınıf bilgileri bilinen örnekler n
boyutlu uzayda temsil edilir [26]. Sınıf bilgisi
bilinmeyen yen bir örnek geldiğinde, bu
örneğe en yakın k sayıdaki komşu örnek
bulunur, ve yeni örnek bu komşular içerisinde
en yoğun bulunan sınıfa atanır [26].
KNN algoritmasında kurulan modelin eldeki
veri setini ezberleme veya yetersiz öğrenme
gibi olumsuz koşullara yakalanmaması için K
saysıının belirlenmesi oldukça kritktir. Bu
sayının belirlenmesi için farklı yöntemler
bulunmaktadır [27,28]. Ancak uygun K
sayısının belirlenmesi başlıca ayrı bir çalışma
konusu olup makaledeki kapsamın dışında
tutulmuştur. Yapılan çalışmada K sayısı için
(2-5) aralığı verilmiş, başarım performansı en
yüksek olan model K=3 olduğunda elde
edilmiştir. İlgili modelin başarım değerleri
Tablo-2'de sunulmuştur.
Tablo-2: K - En Yakın Komşu Başarım Değerleri
Başarım Kriteri
Değer
Kesinlik
% 60.32
Duyarlılık
% 56.45
AUC
0.754
3.3 Naive Bayes ve Bulguları
Adının belirttiği üzere bu yöntem Bayes
Teoremi’ne dayanmaktadır. Bu teorem belirli
koşullar var olduğunda bir sonucun oluşma
olasılığını gösterir. Yöntemin basitliği, eldeki
özniteliklerin birbirinden bağımsız olduğunu
kabul etmesindendir [29]. Bu kabul çoğu
zaman gerçek örnekler için geçerli olmasa da
ilgili yöntem daha karmaşık diğer yöntemlere
yakın
bir
başarım
performansı
sergileyebilmektedir [30].
Naive Bayes yönteminin çok etnikli prostat
kanseri veri kümesi üzerindeki başarım
değerleri Tablo-3’de sunulmuştur.
Tablo-3: Naive Bayes Başarım Değerleri
Başarım Kriteri
Değer
Kesinlik
% 68.75
Duyarlılık
% 82.35
AUC
0.698
3.4 Destek Vektör Makinası ve Bulguları
Vapnik [31] tarafından geliştirilen DVM,
farklı sınıflara ait örnekleri birbirinden
ayırabilecek ve bu sınıflara en uzak mesafede
olacak hiperdüzlemi bullmaya çalışır.
DVM uygulamalarında modelin başarılı bir
performans sergilemesi için kullanılan
çekirdek fonksiyonunun türü, sınıflar
arasındaki sınırın uzaklığını belirleyen C
katsayısı ve karar sınırının şeklini belirleyen
Gamma
katsayısının
iyi
ayarlanması
gerekmektedir [32].
Yapılan uygulamada çekirdek fonksiyou
olarak benzer veri kümeleri üzerindeki diğer
çalışmalarda sıklıkla tercih edilen [16,33]
radyal temlli fonksiyon kullanılmıştır. C ve
gamma katsayıları sırası ile 10 ve 10-3 olarak
belirlenmiştir [19]. Modelin başarım kriterleri
Tablo-4’de sunulmuştur.
Tablo-4: Destek Vektör Makinası Başarım Değerleri
Başarım Kriteri
Değer
Kesinlik
% 72.46
Duyarlılık
% 71.34
AUC
0.829
3.5 Karşılaştırmalı Bulgular
Yapılan bu çalışmada GWAS çalışmalarında
tercih edilen makina öğrenme yöntemlerinden
Karar Ağacı, En Yakın Komşu, Naive Bayes
ve Destekk Vektör makinasının çok etnikli
prostat kanseri verisi üzerindeki başarım
performansları
test
edilmiştir.
İlgili
yöntemlerin kesnlik, duyarlılık ve AUC
performans değerlerinin karşılaştırılması
Tablo-5’de sunulmuştur.
Tablo-5: Yöntemlerin başarım kriterleri karşılaştırması
boyutlu olduğundan ilgili verilerin analizinde
veri madenciliği yöntemleri sıklıkla tercih
edilmektedir. Yapılan çalışmalarda hemen
her kullanılan yöntemin diğerlerine göre
avantaj ve dezavantajları olduğu görülmüş,
her duruma uygun standard yöntem
bulunamamıştır [34].
Buradan yola çıkarak GWAS çalışmalarında
literatürde sıkça tercih edilen veri madenciliği
yöntemleri olan KNN, KA, NB, DVM’nin
başarım kriterleri çok etnikli prostat kanseri
veri kümesi üzerinde test edilmiştir. Kesinlik,
duyarlılık ve AUC değerlerine göre yapılan
bu karşılaştırmada DVM kesinlik ve AUC
değerleri bakımından en üstün yöntem olarak
karşımıza çıkarken, duyarlılık açısından en
yüksek performansı NB vermiştir.
Elde edilen sonuçlar değerlendirildiğinde
DVM’nin yüksek performans vermesi
şaşırtıcı değildir. Bu yöntemin doğrusal
olarak ayrılmayan sınıflama problemlerinde
iyi performans verdiği, benzer yöntemler
arasında da global optimum değere en çok
yakınsayan yöntem olduğu bilinmektedir
[35,36].
Yöntem
Başarım
Kriteri
KA
K NN
NB
DVM
Kesinlik
(%)
69.84
60.32
68.75
72.46
Duyarlılık
(%)
72.58
56.45
82.35
71.34
AUC
0.809
0.754
0.698
0.829
Her ne kadar ilgili yöntemlerin gösterdikleri
sınıflama performansları eldeki veri türüne,
sınıflama problemine göre değişiklik gösterse
de yüksek perfromans gösterme potansiyeli
olan yöntemlerin [19]’deki şekilde hibrit
olarak kullanılması veya bu yöntemlerde
kullanılan
parametrelerin
evrimsel
algoritmalar ile optimize edilmesi [37,38] ile
başarım kriterleri daha da yükeltilbilir.
4. Sonuç ve Öneriler
Bütünsel
genom
ilişkilendirme
çalışmalarından elde edilen tekli nükleotit
polimorfizmleri bir bireyin belirli hastalıklara
karşı zayıf olmasına neden olabilmektedir. Bu
nedenle SNP’lerin hastalıklarla ilişkisinin
araştırıldığı çalışmalar günümüzde hız
kazanmıştır. Bu çalışmalarda incelenen
veriler oldukça yüksek miktarda ve çok
5. Teşekkür
Bu çalışma, Çanakkale Onsekiz Mart
Üniversitesi Bilimsel Araştırma Projeleri
Koordinasyon Birimince Desteklenmiştir.
Proje Numarası: FBA-2014-286”
6. Kaynaklar
[1] Alain Vignal, et al. “A review on SNP
and other types of molecular markers and
their use in animal genetics.” Genet. Sel.
Evol, 34: 275-305 (2002)
[2] Douglas F. Easton, Rosalind A. Eeles
“Genome-wide association studies in cancer.”
Oxford Journals Life Sciences and
Medicine Human Molecular Genetics,
17(R2): R109-R115 (2008)
[3] Reddy MV, et al. “Association between
type 1 diabetes and GWAS SNPs in the
southeast US Caucasian population.” Genes
Immun, 12 (3):208–12 (2011)
[4] G. Lettre, et al.. “Genome Wide
Association Study of Coronary Heart Disease
and Its Risk Factors in 8,090 African
Americans: The NHLBI CARe Project.” Plos
Genetics, 7(2) (2011)
[5] Mina Ryten, Danyah Trabzuni and John
Hardy. “Genotypic analysis of gene
expression in the dissection of the aetiology
of complex neurological and psychiatric
diseases”. Oxford Journals Life Sciences
Briefings in Functional Genomics, 8(3):
194-198 (2009)
[6] John Hardy and Andrew Singleton.
“Genomewide Association Studies and
Human Disease”. N Engl J Med, 360:17591768 (2009)
[7] Anunciação O, et al.. “A Data Mining
Approach for the Detection of High-Risk
Breast Cancer Groups”. In: Rocha, M.P, et al.
editors. Advances in Bioinformatics. Berlin
Heidelberg: Springer. pp. 43–51 (2010)
[8] Xia Jiang, M. Michael Barmada, Shyam
Visweswaran.
“Identifying
Genetic
Interactions in Genome-Wide Data Using
Bayesian Networks.”
34(6): 575–581 (2010)
Genet Epidemiol,
[9] Abeel T, et al.. “Robust biomarker
identification for cancer diagnosis with
ensemble feature selection methods.”
Bioinformatics, 26(3):39239–8 (2010)
[10] Linda Fiaschi et al.. “A Framework for
the Application of Decision Trees to the
Analysis of SNPs Data”. IEEE Symposium
on
Computational
Intelligence
in
Bioinformatics
and
Computational
Biology, CIBCB '09: 106 – 113 (2009)
[11] Jiao Y et al.. “Predictive models for
subtypes of autism spectrum disorder based
on single nucleotide polymorphisms and
magnetic resonance imaging”. Advances in
Medical Sciences, 56: 334-342 (2011)
[12] Orlando Anunciacao et al.. “A Data
Mining Approach for the Detection of HighRisk Breast Cancer Groups”. Advances in
Bioinformatics - 4th International Workshop
on Practical Applications of Computational
Biology and Bioinformatics. (2010 )
[13] Hyo-Jeong Ban, et al.. “Identification of
Type 2 Diabetes-associated combination of
SNPs using Support Vector Machine.” BMC
Genetics, 11:26 (2010)
[14] M. Waddell et al.. “Predicting Cancer
Susceptibility
from
SingleNucleotide
Polymorphism Data: A Case Study in
Multiple Myeloma”. KDD conference.
Proceedings of the 5th international
workshop on Bioinformatics. (2005)
[15] Jennifer Listgarten, et al.. “Predictive
Models for Breast Cancer Susceptibility from
Multiple Single Nucleotide Polymorphisms”.
Clinical cancer reseach, 10: 2725–2737.
(2004)
[16] Zhi Wei et al.. “From Disease
Association to Risk Assessment: An
Optimistic View from Genome-Wide
Association Studies on Type 1 Diabetes”.
Plosone, 5(10) ( 2009)
[17] Stephen D Turner, Scott M Dudek,
Marylyn D Ritchie “ATHENA: A
knowledge-based hybrid backpropagationgrammatical evolution neural network
algorithm for discovering epistasis among
quantitative trait Loci.”. BioData Mining 3:5
(2010)
[18] Jesús K. , et al.. “GPDTI: A Genetic
Programming Decision Tree Induction
method to find epistatic effects in common
complex
diseases”.
Bioinformatics,
123(13):i167-74 (2007)
[19] Yücebaş SC, Aydın Son Y. “A Prostate
Cancer Model Build by a Novel SVM-ID3
Hybrid Feature Selection Method Using Both
Genotyping and Phenotype Data from
dbGaP.” PLoS ONE 9(3): e91404 (2014)
[20] Nina Zhou and Lipo Wang. “Effective
selection of informative SNPs and
classification on the HapMap genotype
data.”. BMC Bioinformatics, 8:484 (2007)
[21] Ustünkar G, Aydın Son Y. “METUSNP: an integrated software system for SNPcomplex disease association analysis.” J
Integr Bioinform, 8(1):187 (2011)
[22] Magdalena Graczyk, Tadeusz Lasota,
Bogdan Trawiński. “Comparative Analysis
of Premises Valuation Models Using KEEL,
RapidMiner, and WEKA.” Computational
Collective Intelligence. Semantic Web, Social
Networks and Multiagent Systems. Lecture
Notes in Computer Science, 5796: 800-812
(2009)
[23] Rokach, L., Maimon, O. “Top-down
induction of decision trees classifiers.” IEEE
Transactions on Systems, Man, and
Cybernetics, Part C: Applications and
Reviews 35(4):476- 487 (2002)
[24] Rodrigo Coelho, et al.. “Survey of
Evolutionary Algorithms for Decision-Tree
Induction.”
IEEE
Transactıons
On
Systems, Man, And Cybernetıcs—Part C:
Applıcatıons And Revıews, 42(3) (2012)
[25] J.R. Quinlan. “Induction of Decision
Trees.” Machine Learning. 1(1):81-106
(1986)
[26] Nitin Bhatia, Vandana. “Survey of
Nearest Neighbor Techniques” (IJCSIS)
International Journal of Computer Science
and Information Security, 8( 2) (2010)
[27] Hall P, Park BU, Samworth RJ. "Choice
of neighbor order in nearest-neighbor
classification". Annals of Statistics, 36(5):
2135–2152 (2008)
[28] Nigsch f., et al.. "Melting point
prediction employing k-nearest neighbor
algorithms
and
genetic
parameter
optimization".
Journal
of Chemical
Information and Modeling, 46(6): 2412–
2422 (2006)
[29] Rish, Irina. “An empirical study of the
naive Bayes classifier.” IJCAI Workshop
on Empirical Methods in AI. (2001)
[30] P. Domingos and M. Pazzani. “On the
optimality of the simple Bayesian classifier
under zero-one loss”. Machine Learning,
29:103–130 (1997)
[31] Corinna Cortes, Vladimir Vapnik.
Support-vector
networks.”
Machine
Learning, 20(3):273-297 (1995)
[32] Ben-Hur A, Weston. “A User's Guide to
Support Vector Machines.” J. Methods Mol
Biol.,609:223-39(2010)
[33] Lung-Cheng Huang, Sen-Yen Hsu and
Eugene Lin. “A comparison of classification
methods for predicting Chronic Fatigue
Syndrome based on genetic data.” Journal
of Translational Medicine, 7(81) (2009)
[34] Solomon K. Musani, et al.. “Detection
of Gene - Gene Interactions in Genome-Wide
Association Studies of Human Population
Data”. Hum Hered, 63:67–84 (2007)
[35] Rong Xiao, Jicheng Wang ; Fayan
Zhang. “An approach to incremental SVM
learning algorithm.”. 12th IEEE Proceedings
on Tools with Artificial Intelligence, ICTAI
268-273(2010)
[36] Muller, K., et al.. “An introduction to
kernel-based learning algorithms.” IEEE
Transactions on Neural Networks 12(2):
181–201(2001)
[37] Alison A. Motsinger, et al..
“Understanding the Evolutionary Process of
Grammatical Evolution Neural Networks for
Feature Selection in Genetic Epidemiology.”
Proc IEEE Symp Comput Intell
Bioinforma Comput Biol. 1(8) (2006)
[38] Sushamna Deodhar and Alison
Motsinger. “Grammatical Evolution Decision
Trees for Detecting Gene-Gene Interactions.”
BioData
Mining,
3:8
(2010)
Download