VERİ MADENCİLİĞİ İSİMLER BAŞAK ÇOBAN MERVE SARITAŞ AZİME AKÇAÖZ BÜŞRA AYDEMİR MOLEKÜLER BİYOLOJİ ve GENETİK GEBZE TEKNİK ÜNİVERSİTESİ ARALIK 2015 VERİ MADENCİLİĞİ BİL210 DUBARA İçindekiler ÖZET.................................................................................................................................................iii 1.GİRİŞ ............................................................................................................................................. 1 1.1 Veri Ambarı, Veri Tabanı, Veri Madenciliği ......................................................................... 2 1.2 Bilgi Keşfi Aşamaları, Apriori Algoritması .................................................................................. 3 1.3 Veri madenciliği yöntemleri, veri madenciliğinde problemler .................................................. 4 1.4 Veri madenciliği uygulama alanları, Türkiye’deki örnekleri ...................................................... 5 GTÜ MOLEKÜLER BİYOLOJİ ve GENETİK Sayfa ii VERİ MADENCİLİĞİ BİL210 DUBARA ÖZET Günümüz teknolojisi hızla ilerlemekte ve her geçen gün gücü de artmaktadır. Bilgisayarların bilgi saklama kapasitelerinin artmasıyla birlikte bilgi kaydı yapılan alanların sayısı da artmaktadır. Bundan dolayı eldeki verilerin analizi ve sonucu bu verilerden kestirme yöntemlerinin önemi karar vericiler için gittikçe artmaktadır. Bilgisayar sistemleri ile üretilen veriler tek başlarına değersizdir, çünkü çıplak gözle bakıldığında bir anlam ifade etmezler. Bu veriler belli bir amaç doğrultusunda işlendiği zaman bir anlam ifade etmeye başlar. Bu yüzden büyük miktardaki verileri işleyebilen teknikleri kullanabilmek büyük önem kazanmaktadır. Bu ham veriyi bilgiye veya anlamlı hale dönüştürme işlemleri veri madenciliği ile yapılabilmektedir. GTÜ MOLEKÜLER BİYOLOJİ ve GENETİK Sayfa iii VERİ MADENCİLİĞİ BİL210 DUBARA 1.GİRİŞ Veri madenciliği işletmeler için çok önemli hale gelmiştir. Çok büyük ölçekli veriler, farklı alanlardaki büyük ölçekli veri tabanları içlerinde değerli verileri bulunduran bir veri madeni gibi düşünülebilir. Bu büyüklükteki verilerin analizi, bu analiz sonucunda daha anlamlı bilgi elde etme ve elde edilen bilgiyi yorumlama işi, insan yeteneği ve ilişkisel veri tabanlarının yapabileceklerini aşmaktadır. Bilhassa dijital veri miktarında artış patlaması ve buna karşılık, bu veriler üzerinde araştırma ve uygulama yapan kişilerin sayısının değişmemesi, çalışmaları veri madenciliğine doğru zorlamıştır. Bu ihtiyaçların sonucunda otomatik ve akıllı veri tabanı analizi için yeni kuşak teknikler doğmuştur. Bu teknikler öyle olmalıdır ki, veriyi akıllı ve otomatikleşmiş şekilde işe yarar bilgiye dönüştürebilsin. Tüm bunların sonucunda veri madenciliği cevap olarak sunulmuş ve giderek önemini artıran bir araştırma alanı haline gelmiştir. BAŞAK Veri tabanı, veri ambarı, veri madenciliği MERVE Bilgi Keşfi Algoritması AZİME Veri madenciliği yöntemleri, veri madenciliğinde problemler BÜŞRA Veri madenciliği uygulama alanları, Türkiye’deki örnekleri GTÜ MOLEKÜLER BİYOLOJİ ve GENETİK Aşamaları, Apriori Sayfa 1 VERİ MADENCİLİĞİ BİL210 DUBARA 1.1 Veri Ambarı, Veri Tabanı, Veri Madenciliği Veri madenciliği, çok büyük miktardaki verilerin içindeki ilişkileri inceleyerek aralarındaki bağlantıyı bulmaya yardımcı olan ve veri tabanı sistemleri içerisinde gizli kalmış bilgilerin çekilmesini sağlayan veri analizi tekniğidir. Veritabanı ya da ingilizce database kavramı, verilerin belirli bir düzene göre depolandığı sistemlere verilen genel bir isimdir. Günümüzde özel veya kamu kuruluşların hepsi bünyesinde barındırdıkları bilgileri veritabanında tutarlar. Nüfus müdürlükleri, bankalar, okul ve üniversiteler kayıtlı olan onca kişi arasından istenen bilgilere saniyeler içerinde ulaşabiliyorsa bu veritabanı sistemlerinin sayesindedir. Bir veri ambarı ilgili veriyi kolay, hızlı ve doğru biçimde analiz etmek için gerekli işlemleri yerine getirir. Veri ambarı, işlemsel sistemlerdeki veriyi kopyalayıp, karar verme işlemi için uygun formda saklar. GTÜ MOLEKÜLER BİYOLOJİ ve GENETİK Sayfa 2 VERİ MADENCİLİĞİ BİL210 DUBARA 1.2 Bilgi Keşfi Aşamaları, Apriori Algoritması Veri madenciliğinde, birliktelik kuralı çıkarım algoritmaları içerisinde en fazla kullanılan algoritmadır. Problemin tanımlanması Verilerin hazırlanması Modelin kurulması ve değerlendirilmesi Modelin izlenmesi GTÜ MOLEKÜLER BİYOLOJİ ve GENETİK Modelin kullanılması Sayfa 3 VERİ MADENCİLİĞİ BİL210 1.3 Veri madenciliği problemler yöntemleri, DUBARA veri madenciliğinde Sınıflandırma, kümeleme ve birliktelik analizi olarak üç ana yöntem vardır. PROBLEMLER Artık Veri Belirsizlik Boş Veri Dinamik Veri Gürültü ve Kayıp Değerler Veritabanı Boyutu GTÜ MOLEKÜLER BİYOLOJİ ve GENETİK Sayfa 4 VERİ MADENCİLİĞİ 1.4 Veri örnekleri BİL210 madenciliği DUBARA uygulama alanları, Türkiye’deki Kullanım alanları Pazarlama Bankacılık Sigortacılık Elektronik ticaret Telekomünikasyon Tıbbi Araştırmalar Bilim ve mühendislik İnternet 04/12/2015 Tarihli Depremler 15 10 5 0 Bingöl Çanakkale Amasya Erzurum Rms Büyüklük Derinlik Veri madenciliğinin bilim ve mühendislik alanında deprem verilerinin analiz örneğidir. GTÜ MOLEKÜLER BİYOLOJİ ve GENETİK Sayfa 5 VERİ MADENCİLİĞİ BİL210 DUBARA 2.SONUÇ Bir veri madenciliği çalışması için öncelikle çok miktarda kaliteli veri gerekir. Amaç bu veri içinde saklı gelecekle ilgili tahmin yapmakta kullanılabilecek kural ve bağıntıların çıkarılmasıdır. Böyle bir çalışmanın başarılı olması için uygulama konusundaki uzmanların veri tabanları ve veri madenciliği konusundaki uzmanlarla beraber çalışması gerekir. Çalışma uzun sürebilir. Sabır ve zaman gerekir. GTÜ MOLEKÜLER BİYOLOJİ ve GENETİK Sayfa 6 VERİ MADENCİLİĞİ BİL210 DUBARA 3.KAYNAKÇA Ethem ALPAYDIN- Boğaziçi Üniversitesi Şadi Evren ŞEKER http://visualdatamining.blogspot.com.tr/2009/06/verimadenciliginin-yararlar-ve.html GTÜ MOLEKÜLER BİYOLOJİ ve GENETİK Sayfa 7