CEN 416 DATA MINING DERSİ PROJESİ ÖĞRENCİLER 080909090 AHMET AKAN 050600707 MEHMET BAKAN 1 1. Veri nedir? Veri madenciliği nedir? Veri; işlenmemiş, gerçek ya da enformasyon parçacığına verilen addır. Yani sayısal veya mantıksal her değer bir veridir. Veri madenciliği; büyük ölçekli veriler arasında bilgiye ulaşma, bilgiyi madenleme işidir. Başka bir deyişle; büyük veri yığınları içerisinden gelecekle ilgi tahminde bulunabilmemizi sağlayabilecek bağıntıların bilgisayar programı kullanarak aranmasıdır. Bu tahminlerin yapılabilmesi için, veri yığınlarının bazı işlemlerden geçmesi gerekmektedir. 2. Veri Madenciliği İşlemleri 2.1.Veri Ön İşleme Veri yığınlarının veri madenciliğinde kullanılabilecek duruma getirilmesi, veri ön işleme ile olur. Veri ön işleme; veri temizlemeyi, veri bütünleştirmeyi, veri dönüştürmeyi ve veri azaltımını içeren bir süreçtir. Bütün bu aşamalarda kullanılabilecek çok farklı yordam ve teknikler geliştirilmiştir. Veri ön işleminin önemini birkaç madde ile sıralamak gerekirse ; Eksik, tutarsız ve gürültülü verilerden kurtulmak için Veriler üzerinde herhangi bir analiz türünün uygulanmasını engelleyecek veri problemlerinin çözümü için Verilerin doğasının anlaşılması ve anlamlı veri analizinin başarılması için Verilen bir veri kümesinden daha anlamlı bilginin çıkarılması için 2.1.Normalizasyon Veri tabanlarında çok fazla satır ve sütundan oluşan bir tabloyu tekrarlardan arındırmak için daha az satır ve sütun içeren alt kümelerine ayrıştırma işlemine normalizasyon adı verilmektedir. Daha basit bir anlatımla; elimizdeki veri setindeki verilerin istenilen aralıktaki karşılığının bulunmasıdır. Normalizasyonun hesaplanmasındaki temel formül Şekil 1’deki gibidir. Şekil 1. Normalizasyon formülü 2 Günümüzde bir çok işlem artık bilgisayar ortamında yapılmaktadır. Veri madenciliğinde bir çok problemin çözümünde kullanılan KNIME, normalizasyon işlemini kolaylıkla yapmaktadır. KNIME programı çalıştırıldığında yeni proje açmak için menüden FILE NEW tıklanır. Açılan pencerede NEW KNIME WORKFLOW seçilerek next butonuna basılır. Bu pencerede projeye isim verilerek FINISH butonuna basıldığında, proje istenilen isimle açılır. Şekil 2’de projenin kısa bir tanıtımı gösterilmiştir. Açılan projelerin gösterildiği bölüm KNIME modüllerinin bulunduğu bölüm Modüllerin sürüklenip bırakılacağı proje bölümü Modül hakkında bilgi veren bölüm Şekil 2. KNIME programında açılmış bir proje üzerinden tanıtımı 3 KNIME programı ile normalizasyon işleminin yapılması KNIME programı açıldıktan sonra elimizde bulunan veri setini okutmak için, bütün modüllerin bulunduğu Node Repository bölümünden File Reader modülü seçilerek Şekil 3’te gösterildiği gibi kullanılır. File Reader açılan projenin üzerine sürüklenerek bırakılır. Şekil 3. File Reader modülünün kullanımı File Reader projeye eklendikten sonra, yapılması gereken işlem için, istenilen veri setinin Şekil 4’teki gibi okutulması gerekmektedir. Bu okutma işlemi, veri setinin Configure edilmesiyle yapılmaktadır. Modüle sağ tıklanarak Configure edilir. Şekil 4. Veri setinin Configure edilmesi 4 File Reader modülüne bilgisayar ortamında bulunan veri setinin, Şekil 5’te olduğu gibi BROWSE butonu yardımıyla adresinin gösterilmesi ve bu veri setinin okutulması verinin configure edilmesi anlamına gelmektedir. Configure işlemi başarılı ise modülün altındaki kırmızı ışık sarıya döner. Veri setinin bulunduğu klasör seçilir. İstenilen veri seti seçilir ve OPEN butonuna tıklanır. Şekil 5. Veri setinin File Reader modülüne Configure edilmesi Seçilen veri seti ve içerisindeki veriler Şekil 6. File Reader’ın okuduğu veriler 5 File Reader modülüne veri seti okutulduktan sonra, normalizasyon işlemini yapacak olan Şekil 7’de olduğu gibi Normalizer modülü proje ekranına Node Repository bölümünden sürüklenerek bırakılır. Şekil 7. Normalizer modülünün kullanımı Proje bölümüne eklenen modüller, birbirlerine uçlarından ok çekilerek bağlanır. Şekil 8. Modüllerin bağlanması 6 Birbirlerine bağlanan modüller Execute edilerek çalıştırılır. Execute işlemi başarılıysa modüllerin altındaki sarı ışıklar yeşile döner. Şekil 9. Modüllerin Execute edilmesi Şekil 10. Başarıyla Execute edilen modüller Normalizasyon işlemi başarıyla uygulanmış modüllerin çıktılarını görebilmek için Node Repository bölümünden Interactive Table modülünü kullanmamız gerekir. Eklenen Interactive modülü ile Normalizer modülleri bağlandıktan sonra Şekil 12’deki gibi Execute and Open Views tıklanarak data.all veri setinin normalize edilmiş hali tablo şeklinde gösterilir. Şekil 13’de tablo şeklinde gösterimi gösterilmiştir. Şekil 11. İnteractive Table modülünün bağlanması 7 Şekil 12. Modüllerin çalıştırılarak açılması işlemi Şekil 13. Data.all veri setinin normalize edilmiş tablosu 8