Akıllı karar verme işlemi için kullanılan gizli bilgiler ile veritabanları zenginleştirir. Sınıflandırma ve tahmin etme veri analizinde kullanılan iki kalıptır. Data analizi işlemi ise bilgi sınıflarından önemli bilgilerin modellenmesi veya gelecekteki veri akımlarını tahmin etme anlamına gelmektedir. Bu analizler geniş veri içerisinde bu verirleri anlama olanağı sağlar. Sınıflandırma kategorik etiketlendirme sağlarken, tahmin etme sürekli değerleme fonksiyonunu modeller. Örneğin, banka kredi uygulamalarının müşterilerin durumlarına göre riskli veya risksiz oluşu kategorize edilebildiği gibi müşterilerin para ve iş durumlarına göre onlara kredi verilip verilemeyeceği de tahmin edilmektedir. Birçok sınıflandırma ve tahmin metodu istatistik, makine öğrenimindeki araştırmalar ve örüntü tanıma ile sunulmaktadırlar. Sınıflandırma Nedir? Tahmin Etme Nedir? Bir banka kredi memuru hangi kredi uygulamasının banka için riskli ya da güvenli olduğunu öğrenmek için elindeki bilgilerin analiz edilmesini ister. Tıbbi bir araştırmacı göğüs kanseri hastalığını analiz etmede 3 tedavi yönteminden hangisinin seçileceğini analiz etmek ister. Data analizi işlemine sınıflandırma denir. Bir modelin ya da sınıflandırıcının kategorisel etiketleri tahmin etmek için konumlandırılmasıdır. Buna örnek olarak yukarıda bahsedilen banka kredileri örneğindeki “güvenilir” ya da “riskli” durumu veya kanser örneğindeki “tedavi A”, “tedavi B” veya “tedavi C” verilebilir. Bu kategoriler ayrık değerler ile temsil edilebilir. Varsayalım ki bir market yöneticisi alıcıların kendi marketlerinde alış veriş sırasında ne kadar süre harcadıklarını öğrenmek isteyebilir. Bu tarz bir veri analizi sayısal tahmin’e örnektir. Model yapısı sıralı değer ya da devamlı–değer fonksiyonunu tahmin eder. Bu model bir tahmin edici modeldir. Gerileme analizi sayısal tahminlerde oldukça sık kullanılan istatistiksel bir yöntemdir. Bu nedenle bu iki yöntem sık sık eş anlamlı olarak kullanılabilir. Sınıflandırma ve sayısal tahmin, tahmin probleminin başlıca iki ana unsurudur. Basit anlamda eğer bir belirsizlik yoksa tahmin kelimesini sayısal tahmin’in yerine kullanılabilmektedir. Sınıflandırma nasıl çalışır? Data sınıflandırma iki adımlı bir işlemdir. İlk adımda bir sınıflandırıcı önceden tanımlanmış veri sınıfları veya kavramlar kümesine kurulur. Bu öğrenme adımıdır. Eğitim fazı da denmektedir. Bir sınıflandırma algoritması analiz veya eğitim seti vasıtası ile sınıflandırıcıyı oluşturur. Eğitim seti ise bir veritabanı demeti ve o veritabanı demeti ile ilgili sınıf etiketlerinden oluşur. Bir demet, X, bir n boyutlu öznitelik vektörü , X=(x1,x2,….,xn) n veritabanı özellikleri sırasıyla A1, A2,….,An demet yapıları tarafından temsil edilirler. Her bir demet, X, başka bir veritabanı tarafından önceden tanımlanmış bir sınıfa ait sınıf etiketi özniteliklerini alır. Sınıf etiketi özniteliği ayrık değerli ve sırasızdır. Her bir değer bir kategori veya sınıf gibi işlem yaptığından dolayı kategoriseldir. Eğitim setini oluşturan her bir demet eğitim demeti olarak kastedilir ve analizler sonucu veritabanından seçilir. Sınıflandırmanın içeriği, veri demetleri numune, örnek veya obje olarak gösterilebilir. Her bir eğitim demetindeki sınıf etiketleri sağlandığı için bu adıma denetimli öğrenme denmektedir. Denetimsiz öğrenme’ nin tam zıttıdır. Denetimsiz öğrenmede her bir eğitim demetindeki sınıf etiketleri bilinmez. Numarası veya sınıflar kümesi bilinmeyebilir. Örneğin, eğitim seti için kredi karar bilgisi olmasaydı, benzer demet gruplarını belirlemek için clustering(kümeleme) yöntemi kullanılabilinirdi. İlk kısımda amaç, veriyi sınıflara ayıran veya eşleştiren fonksiyonun çıkarılmasıdır. Genellikle, bu eşleştirme sınıflandırma kuralları, karar ağaçları veya matematiksel formüller ile gösterilir. Bu örnekte sınıflandırma kuralı uygulanmıştır. Kredi uygulaması tanımlanırken “güvenilir” veya “riskli” şeklinde isimler almıştır. Bu kurallar gelecek olan veri demetlerinin kategorilendirilmesinde kullanılacaktır. Hem de veritabanı içeriğine daha derin bilgi sağlar. Peki sınıflandırmanın doğruluğu hakkında ne denebilir? İkinci adımda ise önceden oluşturulmuş model sınıflandırma işlemi için kullanılır. İlk olarak sınıflandırıcının tahmin edilebilir doğruluğu hesaplanır. Eğer eğitim setini sınıflandırıcının doğruluk oranını ölçmek için kullanırsak, bu tahmin olasılıkla iyimser olur. Çünkü sınıflandırıcı veriye fazla yükleme yapma eğilimindedir. Bu nedenler test verisi kullanılır, test demetlerini oluşturur ve sınıf etiketleri ile ilişkilendirir. Bu demetler veri setinin içerisinden rastgele seçilir. Bunlar eğitim verisinden bağımsızdır. Yani sınıflandırıcının yapısında kullanılmazlar. Test setine verilen sınıflandırıcının doğruluğu sınıflandırıcı tarafından doğru bir şekilde sınıflandırılmış test setinin yüzdesidir. Her bir test demetinin ilgili sınıf etiketi, o demet için öğrenmiş sınıflandırıcının sınıf doğruluğu ile karşılaştırılır. Eğer sınıflandırıcının doğruluğu kabul edilebilir durumda ise bu sınıflandırıcı ileriki zamanlarda etiketi bilinmeyen veri kümeleri için de kullanılabilir. Sayısal tahminin sınıflandırmadan farkı nedir? Data tahmini de sınıflandırma gibi iki adımdan oluşur. Bununla birlikte, tahmin için, sınıf etiketi özniteliği kaybedilir çünkü However, for prediction, we lose the terminology of “class label attribute” because the attribute for which values are being predicted is continuous-valued (ordered) rather than categorical (discrete-valued and unordered). Öznitelik, basit olarak önceden kestirilebilir bir öznitelik olarak da söylenebilir. Bizim uygulamamızda da tahmini para tutarı yerine güvenilir olup olmadığı durumunu öğrenmek istedik. Veri madenciliği görevi sınıflandırma yerine tahmini olmaktadır. Kategorisel öznitelik yerine sürekli değerli kredi miktarı tahmin özniteliği yerine geçti ve işlem için bir tahminci(?) oluşturuldu. Tahmin etme ve sınıflandırma kendi modellerinin kurarken kullandıkları metotlarda da farklılık gösterir. Tahmin için kullanılan eğitim seti onun doğruluğunu kanıtlamak için kullanılmaz. Bağımsız bir veri seti bunun yerine kullanılır. Tahmincinin doğruluğu tahmin edilenin değeri ile her bir test kümesi için bilinen değerin farkının hesaplanması ile tahmin edilir. Prediction and classification also differ in the methods that are used to build their respective models. As with classification, the training set used to build a predictor should not be used to assess its accuracy. An independent test set should be used instead. The accuracy of a predictor is estimated by computing an error based on the difference between the predicted value and the actual known value of y for each of the test tuples, X. Sınıflandırma ve Tahmin Etme İşlemlerindeki Problemler 1 - Sınıflandırma ve Tahmin için Bilginin Hazırlanması Aşağıda sunulan adımlar sınıflandırmanın veya tahmin etme işleminin doğruluğunu, verimliliğini ve ölçeklenebilirliğini artırmak için uygulanmalıdır. Bilgi temizliği: Bu işlem gürültülü verilerin ya da kayıp verilerin düzenlemesi anlamına gelmektedir. Kayıp verinin düzenlenmesi demek özniteliklerde oldukça sık rastlanan ya da istatistikler sonucu ortaya çıkan en olası değerin kullanılması demektir. Bununla beraber birçok sınıflandırma algoritması gürültülü ve eksik verilerin düzenlenmesi konusunda kendi iç mekanizmalara sahiptirler. Bu adım eğitim boyunca karşılaşılacak olan karışıklığı giderir. Uygunluk analizi: Veri içerisindeki birçok öznitelik gereksiz olabilir. Bağıntı analizi verilen iki özniteliğin bir biriyle bağlantılı olup olmadığını istatistiksel olarak çıkarmaktadır. Örneğin, öznitelik A1 ve A2 arasında güçlü bir bağıntı varsa ikisinden birisinin ileriki analiz aşamalarından kaldırılması tavsiye edilmektedir. Bir veritabanı alakasız öznitelikleri de taşıyabilir. Öznitelik altküme seçimi özniteliklerin azaltılmış bir setini bulmak için kullanılabilir. Öyle ki veri sınıflarının olasılık dağılımı sonucu, orijinal dağılımdan elde edilerek kullanılan tüm öznitelikler ile yakındır. Bundan dolayı uygunluk analizi, korelasyon analizin ve öznitelik altküme seçimi sınıflandırmaya ya da tahmin etmeye katılmayan özniteliklerin belirlemesinde kullanılır. Ideally, the time spent on relevance analysis,when added to the time spent on learning fromthe resulting “reduced” attribute (or feature) subset, should be less than the time thatwould have been spent on learning fromthe original set of attributes. Bundan dolayı bunun gibi analizler sınıflandırmanın etkisini ve ölçeklenebilirliğini artırmada yardımcı olmaktadırlar. Veri dönüşümü ve azaltma: Veri, normalizasyon işlemi ile dönüştürülebilir. Özellikle yapay sinir ağları veya metotları mesafe ölçümlerini içeren öğrenme adımlarında kullanılır. Normalizasyon, belirli bir özellik için tüm değerleri ölçeklendirmeyi içermektedir. Bu oranlar küçük bir aralığa kadar düşebilir. 1.0 ile 1.0 veya 0.0 ile 1.0 arasında gibi. Mesafe ölçümünü kullanan yöntemlerde örneğin bu öznitelikleri başlangıçta geniş orandan başlangıçta daha küçük oranda olan ağarlık özniteliklerini önleyecektir. Veri üst düzey kavramlara genellenerek dönüştürülebilir. Kavram hiyerarşisi bu amaçla kullanılır. Bu, özellikle sürekli değerli öznitelikler için kullanışlıdır. Örneğin, özniteliği gelir için olan sayısal veriler aralıklı alanlarda genellenebilir. Düşük, orta, yüksek gibi. 2 - Sınıflandırma ve Tahmin Arasındaki Farklar Sınıflandırma ve tahmin etme kıyaslanabilir ve aşağıdaki kriterlere göre de değerlendirilebilir. Doğruluk: Sınıflandırıcının doğruluğu daha önce görülmemiş veri grubunun etiketini doğru bir şekilde bulması ile ilgilidir. Benzer olarak bir tahmincinin doğruluğu daha önce görülmemiş ya da yeni verinin değerini tahmin etmesi ile alakalıdır. Doğruluk eğitim setinden bağımsız olarak bir veya birden fazla eğitim seti kullanılarak hesaplanır. Hız: Dayanıklılık: Verilen gürültülü veya eksik verilere rağmen yapılan doğru tahminleri ifade eder. Ölçeklenebilirlik: Verilen geniş miktardaki veri ile etkili olarak sınıflandırıcıyı ve tahmin ediciyi oluşturma yeteneğidir. Yorumlandırabilirlik: Anlama seviyesi ve sınıflandırıcı veya tahmin edici tarafından sağlanmış sezme yetisi anlamındadır. Subjektiftir ve bu nedenle değerlendirmek daha zordur.