Apriori Algoritmas*

advertisement
Teslim Tarihi: 02.09.2015
Apriori Algoritması:
Veri Tabanı
TID
Items
100
200
300
400
134
235
1235
25
C1

İtemset
{1}
{2}
{3}
{4}
{5}
L1
Sup.
2
3
3
1
3
itemset Sup.
{1}
{2}
{3}
{5}
2
3
3
3
Apriori Eleme Ekranı (1)
C2
Itemset
{1 2}
{1 3}
{1 5}
{2 3}
{2 5}
{3 5}
C2
İtemset
{1 2}
{1 3}
{1 5}
{2 3}
{2 5}
{3 5}

L2
Sup.
1
2
1
2
3
2
itemset Sup.
{1 3}
{2 3}
{2 5}
{3 5}
2
2
3
2
Apriori Eleme Ekranı (2)
C3
Itemset
{2 3 5}
C2

İtemset
{2 3 5}
Sup.
2
Apriori Sonuç Ekranı
Veri tabanındaki elemanlar arasında sınıflama yapıldığında {2 3 5} verilerinin bir arada
bulunabileceği bilgisine ulaşılır.
Apriori Algoritması temel alınarak diabet hastalarına ait belirli aralıklarla yapılan
ölçümler arasında bir sınıflama işlemi gerçekleştirilmek istenmektedir.
Her hastaya ait bilgi ayrı excel sayfalarında bulunmaktadır öncelikle bu sayfalardaki
veriler ortak bir veri tabanına aktarılmalıdır. Veri tabanı 4 alandan oluşacaktır. Bunlar:
(1) Date
(2) Time
(3) Kod
(4) Değer
şeklinde olacaktır. Ayrıca her kayıt için unique bir hastaID alanı bulunmalıdır.
Programa ait form’da öncelikle kayıtlı hastaların ID’leri görüntülenecektir. Seçime göre
hastalar üzerinde hangi ölçümlerin ortak olarak gerçekleştirildiği bilgisine
erişilebilmelidir. Bunun için ölçüm yapılan her gün için hangi ölçümlerin ortak
gerçekleştirildiği elde edilmelidir. Ölçüm yapılan günlerin tümü göz önüne alınıp, hasta
için birlikte yapılan ölçümler tesbit edilmeye çalışılacaktır. Bu işlem üst kısımda
anlatılmış olan apriori eleme işlemi ile gerçekleştirilecektir. Bu durumda VeriTabanı diye
ifade edilen tablodaki TID alanı sırası ile her hasta için ölçüm yapılan günler; Items alanı
ise bu günlerdeki ölçüm yapılan kodlar olacaktır. Ve en son sonuç ekranı olarak seçilen
hasta üzerinde en çok hangi ölçümlerin birlikte gerçekleştirildiği saptanacaktır. Seçilmiş
olan hasta ID’sine göre bu ID’li hastaların bilgisinden yeni bir dataset elde apriori
algoritması bu dataset üzerinde uygulanacaktır.
Hastalara ait kayıtlardaki “kod” alanının karşılığı olan değerler:
33 = Regular insulin dose
34 = NPH insulin dose
35 = UltraLente insulin dose
48 = Unspecified blood glucose measurement
57 = Unspecified blood glucose measurement
58 = Pre-breakfast blood glucose measurement
59 = Post-breakfast blood glucose measurement
60 = Pre-lunch blood glucose measurement
61 = Post-lunch blood glucose measurement
62 = Pre-supper blood glucose measurement
63 = Post-supper blood glucose measurement
64 = Pre-snack blood glucose measurement
65 = Hypoglycemic symptoms
66 = Typical meal ingestion
67 = More-than-usual meal ingestion
68 = Less-than-usual meal ingestion
69 = Typical exercise activity
70 = More-than-usual exercise activity
71 = Less-than-usual exercise activity
72 = Unspecified special event
Örnek:
Seçilen Hasta ID=#1 için birlikte en sık gerçekleştirilen ölçümler 33-34-66 şeklinde
bulunmuş olsun. Öncelikle bunlar form üzerinde belirtilmelidir. Daha sonra 3 ölçümün
bir arada gerçekleştirildiği tarih ve ölçüm değerleri şeklinde görüntülenebilmelidir.
Tarih
09.04.1990
Ölçüm
Regular Insulin Dose
NPH Insulin Dose
Typical meal ingestion
Değeri
11
34
32
09.05.1990
............
....
Not:
Hastalar
ait
verilere
ait
niteliklere
ilişkin
açıklamaları
https://archive.ics.uci.edu/ml/datasets/Diabetes linkinden erişebilirsiniz. Verilere erişimi
https://archive.ics.uci.edu/ml/machine-learning-databases/diabetes/
linkinden
gerçekleştirebilirsiniz.
Download