Akıllı karar verme işlemi için kullanılan gizli bilgiler ile veritabanları

advertisement
Akıllı karar verme işlemi için kullanılan gizli bilgiler ile veritabanları zenginleştirir. Sınıflandırma ve
tahmin etme veri analizinde kullanılan iki kalıptır. Data analizi işlemi ise bilgi sınıflarından önemli
bilgilerin modellenmesi veya gelecekteki veri akımlarını tahmin etme anlamına gelmektedir. Bu
analizler geniş veri içerisinde bu verirleri anlama olanağı sağlar. Sınıflandırma kategorik
etiketlendirme sağlarken, tahmin etme sürekli değerleme fonksiyonunu modeller. Örneğin, banka
kredi uygulamalarının müşterilerin durumlarına göre riskli veya risksiz oluşu kategorize edilebildiği
gibi müşterilerin para ve iş durumlarına göre onlara kredi verilip verilemeyeceği de tahmin
edilmektedir. Birçok sınıflandırma ve tahmin metodu istatistik, makine öğrenimindeki araştırmalar ve
örüntü tanıma ile sunulmaktadırlar.
Sınıflandırma Nedir? Tahmin Etme Nedir?
Bir banka kredi memuru hangi kredi uygulamasının banka için riskli ya da güvenli olduğunu öğrenmek
için elindeki bilgilerin analiz edilmesini ister. Tıbbi bir araştırmacı göğüs kanseri hastalığını analiz
etmede 3 tedavi yönteminden hangisinin seçileceğini analiz etmek ister. Data analizi işlemine
sınıflandırma denir. Bir modelin ya da sınıflandırıcının kategorisel etiketleri tahmin etmek için
konumlandırılmasıdır. Buna örnek olarak yukarıda bahsedilen banka kredileri örneğindeki “güvenilir”
ya da “riskli” durumu veya kanser örneğindeki “tedavi A”, “tedavi B” veya “tedavi C” verilebilir. Bu
kategoriler ayrık değerler ile temsil edilebilir.
Varsayalım ki bir market yöneticisi alıcıların kendi marketlerinde alış veriş sırasında ne kadar süre
harcadıklarını öğrenmek isteyebilir. Bu tarz bir veri analizi sayısal tahmin’e örnektir. Model yapısı
sıralı değer ya da devamlı–değer fonksiyonunu tahmin eder. Bu model bir tahmin edici modeldir.
Gerileme analizi sayısal tahminlerde oldukça sık kullanılan istatistiksel bir yöntemdir. Bu nedenle bu
iki yöntem sık sık eş anlamlı olarak kullanılabilir. Sınıflandırma ve sayısal tahmin, tahmin probleminin
başlıca iki ana unsurudur. Basit anlamda eğer bir belirsizlik yoksa tahmin kelimesini sayısal tahmin’in
yerine kullanılabilmektedir.
Sınıflandırma nasıl çalışır? Data sınıflandırma iki adımlı bir işlemdir. İlk adımda bir sınıflandırıcı
önceden tanımlanmış veri sınıfları veya kavramlar kümesine kurulur. Bu öğrenme adımıdır. Eğitim
fazı da denmektedir. Bir sınıflandırma algoritması analiz veya eğitim seti vasıtası ile sınıflandırıcıyı
oluşturur. Eğitim seti ise bir veritabanı demeti ve o veritabanı demeti ile ilgili sınıf etiketlerinden
oluşur. Bir demet, X, bir n boyutlu öznitelik vektörü , X=(x1,x2,….,xn) n veritabanı özellikleri sırasıyla
A1, A2,….,An demet yapıları tarafından temsil edilirler. Her bir demet, X, başka bir veritabanı
tarafından önceden tanımlanmış bir sınıfa ait sınıf etiketi özniteliklerini alır. Sınıf etiketi özniteliği
ayrık değerli ve sırasızdır. Her bir değer bir kategori veya sınıf gibi işlem yaptığından dolayı
kategoriseldir. Eğitim setini oluşturan her bir demet eğitim demeti olarak kastedilir ve analizler
sonucu veritabanından seçilir. Sınıflandırmanın içeriği, veri demetleri numune, örnek veya obje olarak
gösterilebilir.
Her bir eğitim demetindeki sınıf etiketleri sağlandığı için bu adıma denetimli öğrenme denmektedir.
Denetimsiz öğrenme’ nin tam zıttıdır. Denetimsiz öğrenmede her bir eğitim demetindeki sınıf
etiketleri bilinmez. Numarası veya sınıflar kümesi bilinmeyebilir. Örneğin, eğitim seti için kredi karar
bilgisi olmasaydı, benzer demet gruplarını belirlemek için clustering(kümeleme) yöntemi
kullanılabilinirdi.
İlk kısımda amaç, veriyi sınıflara ayıran veya eşleştiren fonksiyonun çıkarılmasıdır. Genellikle, bu
eşleştirme sınıflandırma kuralları, karar ağaçları veya matematiksel formüller ile gösterilir. Bu örnekte
sınıflandırma kuralı uygulanmıştır. Kredi uygulaması tanımlanırken “güvenilir” veya “riskli” şeklinde
isimler almıştır. Bu kurallar gelecek olan veri demetlerinin kategorilendirilmesinde kullanılacaktır.
Hem de veritabanı içeriğine daha derin bilgi sağlar.
Peki sınıflandırmanın doğruluğu hakkında ne denebilir? İkinci adımda ise önceden oluşturulmuş
model sınıflandırma işlemi için kullanılır. İlk olarak sınıflandırıcının tahmin edilebilir doğruluğu
hesaplanır. Eğer eğitim setini sınıflandırıcının doğruluk oranını ölçmek için kullanırsak, bu tahmin
olasılıkla iyimser olur. Çünkü sınıflandırıcı veriye fazla yükleme yapma eğilimindedir. Bu nedenler test
verisi kullanılır, test demetlerini oluşturur ve sınıf etiketleri ile ilişkilendirir. Bu demetler veri setinin
içerisinden rastgele seçilir. Bunlar eğitim verisinden bağımsızdır. Yani sınıflandırıcının yapısında
kullanılmazlar.
Test setine verilen sınıflandırıcının doğruluğu sınıflandırıcı tarafından doğru bir şekilde sınıflandırılmış
test setinin yüzdesidir. Her bir test demetinin ilgili sınıf etiketi, o demet için öğrenmiş sınıflandırıcının
sınıf doğruluğu ile karşılaştırılır. Eğer sınıflandırıcının doğruluğu kabul edilebilir durumda ise bu
sınıflandırıcı ileriki zamanlarda etiketi bilinmeyen veri kümeleri için de kullanılabilir.
Sayısal tahminin sınıflandırmadan farkı nedir? Data tahmini de sınıflandırma gibi iki adımdan oluşur.
Bununla birlikte, tahmin için, sınıf etiketi özniteliği kaybedilir çünkü However, for prediction, we lose
the terminology of “class label attribute” because the attribute for which values are being
predicted is continuous-valued (ordered) rather than categorical (discrete-valued and unordered).
Öznitelik, basit olarak önceden kestirilebilir bir öznitelik olarak da söylenebilir. Bizim uygulamamızda
da tahmini para tutarı yerine güvenilir olup olmadığı durumunu öğrenmek istedik. Veri madenciliği
görevi sınıflandırma yerine tahmini olmaktadır. Kategorisel öznitelik yerine sürekli değerli kredi
miktarı tahmin özniteliği yerine geçti ve işlem için bir tahminci(?) oluşturuldu.
Tahmin etme ve sınıflandırma kendi modellerinin kurarken kullandıkları metotlarda da farklılık
gösterir. Tahmin için kullanılan eğitim seti onun doğruluğunu kanıtlamak için kullanılmaz. Bağımsız bir
veri seti bunun yerine kullanılır. Tahmincinin doğruluğu tahmin edilenin değeri ile her bir test kümesi
için bilinen değerin farkının hesaplanması ile tahmin edilir.
Prediction and classification also differ in the methods that are used to build their respective
models. As with classification, the training set used to build a predictor should not be used to
assess its accuracy. An independent test set should be used instead. The accuracy of a predictor is
estimated by computing an error based on the difference between the predicted value and the
actual known value of y for each of the test tuples, X.
Sınıflandırma ve Tahmin Etme İşlemlerindeki Problemler
1 - Sınıflandırma ve Tahmin için Bilginin Hazırlanması
Aşağıda sunulan adımlar sınıflandırmanın veya tahmin etme işleminin doğruluğunu, verimliliğini ve
ölçeklenebilirliğini artırmak için uygulanmalıdır.
 Bilgi temizliği: Bu işlem gürültülü verilerin ya da kayıp verilerin düzenlemesi anlamına
gelmektedir. Kayıp verinin düzenlenmesi demek özniteliklerde oldukça sık rastlanan ya da
istatistikler sonucu ortaya çıkan en olası değerin kullanılması demektir. Bununla beraber
birçok sınıflandırma algoritması gürültülü ve eksik verilerin düzenlenmesi konusunda kendi iç
mekanizmalara sahiptirler. Bu adım eğitim boyunca karşılaşılacak olan karışıklığı giderir.
 Uygunluk analizi: Veri içerisindeki birçok öznitelik gereksiz olabilir. Bağıntı analizi verilen iki
özniteliğin bir biriyle bağlantılı olup olmadığını istatistiksel olarak çıkarmaktadır. Örneğin,
öznitelik A1 ve A2 arasında güçlü bir bağıntı varsa ikisinden birisinin ileriki analiz
aşamalarından kaldırılması tavsiye edilmektedir. Bir veritabanı alakasız öznitelikleri de
taşıyabilir. Öznitelik altküme seçimi özniteliklerin azaltılmış bir setini bulmak için
kullanılabilir. Öyle ki veri sınıflarının olasılık dağılımı sonucu, orijinal dağılımdan elde edilerek
kullanılan tüm öznitelikler ile yakındır. Bundan dolayı uygunluk analizi, korelasyon analizin ve
öznitelik altküme seçimi sınıflandırmaya ya da tahmin etmeye katılmayan özniteliklerin
belirlemesinde kullanılır. Ideally, the time spent on relevance analysis,when added to the
time spent on learning fromthe resulting “reduced” attribute (or feature) subset, should
be less than the time thatwould have been spent on learning fromthe original set of
attributes. Bundan dolayı bunun gibi analizler sınıflandırmanın etkisini ve ölçeklenebilirliğini
artırmada yardımcı olmaktadırlar.
 Veri dönüşümü ve azaltma: Veri, normalizasyon işlemi ile dönüştürülebilir. Özellikle yapay
sinir ağları veya metotları mesafe ölçümlerini içeren öğrenme adımlarında kullanılır.
Normalizasyon, belirli bir özellik için tüm değerleri ölçeklendirmeyi içermektedir. Bu oranlar
küçük bir aralığa kadar düşebilir. 1.0 ile 1.0 veya 0.0 ile 1.0 arasında gibi. Mesafe ölçümünü
kullanan yöntemlerde örneğin bu öznitelikleri başlangıçta geniş orandan başlangıçta daha
küçük oranda olan ağarlık özniteliklerini önleyecektir.
Veri üst düzey kavramlara genellenerek dönüştürülebilir. Kavram hiyerarşisi bu amaçla
kullanılır. Bu, özellikle sürekli değerli öznitelikler için kullanışlıdır. Örneğin, özniteliği gelir için
olan sayısal veriler aralıklı alanlarda genellenebilir. Düşük, orta, yüksek gibi.
2 - Sınıflandırma ve Tahmin Arasındaki Farklar
Sınıflandırma ve tahmin etme kıyaslanabilir ve aşağıdaki kriterlere göre de değerlendirilebilir.


Doğruluk: Sınıflandırıcının doğruluğu daha önce görülmemiş veri grubunun etiketini doğru bir
şekilde bulması ile ilgilidir. Benzer olarak bir tahmincinin doğruluğu daha önce görülmemiş ya
da yeni verinin değerini tahmin etmesi ile alakalıdır. Doğruluk eğitim setinden bağımsız olarak
bir veya birden fazla eğitim seti kullanılarak hesaplanır.

Hız:

Dayanıklılık: Verilen gürültülü veya eksik verilere rağmen yapılan doğru tahminleri ifade
eder.

Ölçeklenebilirlik: Verilen geniş miktardaki veri ile etkili olarak sınıflandırıcıyı ve tahmin ediciyi
oluşturma yeteneğidir.
Yorumlandırabilirlik: Anlama seviyesi ve sınıflandırıcı veya tahmin edici tarafından sağlanmış
sezme yetisi anlamındadır. Subjektiftir ve bu nedenle değerlendirmek daha zordur.
Download