veri madenciliği - Gebze Teknik Üniversitesi

advertisement
VERİ MADENCİLİĞİ
İSİMLER
BAŞAK ÇOBAN
MERVE SARITAŞ
AZİME AKÇAÖZ
BÜŞRA AYDEMİR
MOLEKÜLER BİYOLOJİ ve GENETİK
GEBZE TEKNİK ÜNİVERSİTESİ
ARALIK 2015
VERİ MADENCİLİĞİ
BİL210
DUBARA
İçindekiler
ÖZET.................................................................................................................................................iii
1.GİRİŞ ............................................................................................................................................. 1
1.1
Veri Ambarı, Veri Tabanı, Veri Madenciliği ......................................................................... 2
1.2 Bilgi Keşfi Aşamaları, Apriori Algoritması .................................................................................. 3
1.3 Veri madenciliği yöntemleri, veri madenciliğinde problemler .................................................. 4
1.4 Veri madenciliği uygulama alanları, Türkiye’deki örnekleri ...................................................... 5
GTÜ MOLEKÜLER BİYOLOJİ ve GENETİK
Sayfa ii
VERİ MADENCİLİĞİ
BİL210
DUBARA
ÖZET
Günümüz teknolojisi hızla ilerlemekte ve her geçen gün gücü de
artmaktadır. Bilgisayarların bilgi saklama kapasitelerinin artmasıyla
birlikte bilgi kaydı yapılan alanların sayısı da artmaktadır. Bundan
dolayı eldeki verilerin analizi ve sonucu bu verilerden kestirme
yöntemlerinin önemi karar vericiler için gittikçe artmaktadır.
Bilgisayar sistemleri ile üretilen veriler tek başlarına değersizdir,
çünkü çıplak gözle bakıldığında bir anlam ifade etmezler. Bu veriler
belli bir amaç doğrultusunda işlendiği zaman bir anlam ifade etmeye
başlar. Bu yüzden büyük miktardaki verileri işleyebilen teknikleri
kullanabilmek büyük önem kazanmaktadır. Bu ham veriyi bilgiye veya
anlamlı hale dönüştürme işlemleri veri madenciliği ile
yapılabilmektedir.
GTÜ MOLEKÜLER BİYOLOJİ ve GENETİK
Sayfa iii
VERİ MADENCİLİĞİ
BİL210
DUBARA
1.GİRİŞ
Veri madenciliği işletmeler için çok önemli hale gelmiştir. Çok
büyük ölçekli veriler, farklı alanlardaki büyük ölçekli veri tabanları
içlerinde değerli verileri bulunduran bir veri madeni gibi
düşünülebilir. Bu büyüklükteki verilerin analizi, bu analiz sonucunda
daha anlamlı bilgi elde etme ve elde edilen bilgiyi yorumlama işi,
insan yeteneği ve ilişkisel veri tabanlarının yapabileceklerini
aşmaktadır. Bilhassa dijital veri miktarında artış patlaması ve buna
karşılık, bu veriler üzerinde araştırma ve uygulama yapan kişilerin
sayısının değişmemesi, çalışmaları veri madenciliğine doğru
zorlamıştır. Bu ihtiyaçların sonucunda otomatik ve akıllı veri tabanı
analizi için yeni kuşak teknikler doğmuştur. Bu teknikler öyle olmalıdır
ki, veriyi akıllı ve otomatikleşmiş şekilde işe yarar bilgiye
dönüştürebilsin. Tüm bunların sonucunda veri madenciliği cevap
olarak sunulmuş ve giderek önemini artıran bir araştırma alanı haline
gelmiştir.
BAŞAK
Veri tabanı, veri ambarı, veri
madenciliği
MERVE
Bilgi Keşfi
Algoritması
AZİME
Veri madenciliği yöntemleri, veri
madenciliğinde problemler
BÜŞRA
Veri
madenciliği
uygulama
alanları, Türkiye’deki örnekleri
GTÜ MOLEKÜLER BİYOLOJİ ve GENETİK
Aşamaları,
Apriori
Sayfa 1
VERİ MADENCİLİĞİ
BİL210
DUBARA
1.1 Veri Ambarı, Veri Tabanı, Veri Madenciliği
Veri madenciliği, çok büyük miktardaki verilerin içindeki ilişkileri
inceleyerek aralarındaki bağlantıyı bulmaya yardımcı olan ve veri
tabanı sistemleri içerisinde gizli kalmış bilgilerin çekilmesini sağlayan
veri analizi tekniğidir.
Veritabanı ya da ingilizce database kavramı, verilerin belirli bir
düzene göre depolandığı sistemlere verilen genel bir isimdir.
Günümüzde özel veya kamu kuruluşların hepsi bünyesinde
barındırdıkları bilgileri veritabanında tutarlar. Nüfus müdürlükleri,
bankalar, okul ve üniversiteler kayıtlı olan onca kişi arasından istenen
bilgilere saniyeler içerinde ulaşabiliyorsa bu veritabanı sistemlerinin
sayesindedir.
Bir veri ambarı ilgili veriyi kolay, hızlı ve doğru biçimde analiz etmek
için gerekli işlemleri yerine getirir. Veri ambarı, işlemsel sistemlerdeki
veriyi kopyalayıp, karar verme işlemi için uygun formda saklar.
GTÜ MOLEKÜLER BİYOLOJİ ve GENETİK
Sayfa 2
VERİ MADENCİLİĞİ
BİL210
DUBARA
1.2 Bilgi Keşfi Aşamaları, Apriori Algoritması
Veri madenciliğinde, birliktelik kuralı çıkarım algoritmaları içerisinde
en fazla kullanılan algoritmadır.
Problemin
tanımlanması
Verilerin
hazırlanması
Modelin
kurulması ve
değerlendirilmesi
Modelin
izlenmesi
GTÜ MOLEKÜLER BİYOLOJİ ve GENETİK
Modelin
kullanılması
Sayfa 3
VERİ MADENCİLİĞİ
BİL210
1.3 Veri madenciliği
problemler
yöntemleri,
DUBARA
veri
madenciliğinde
Sınıflandırma, kümeleme ve birliktelik analizi olarak üç ana yöntem
vardır.
PROBLEMLER
Artık Veri
Belirsizlik
Boş Veri
Dinamik Veri
Gürültü ve Kayıp Değerler
Veritabanı Boyutu
GTÜ MOLEKÜLER BİYOLOJİ ve GENETİK
Sayfa 4
VERİ MADENCİLİĞİ
1.4 Veri
örnekleri









BİL210
madenciliği
DUBARA
uygulama
alanları,
Türkiye’deki
Kullanım alanları
Pazarlama
Bankacılık
Sigortacılık
Elektronik ticaret
Telekomünikasyon
Tıbbi Araştırmalar
Bilim ve mühendislik
İnternet
04/12/2015 Tarihli Depremler
15
10
5
0
Bingöl
Çanakkale
Amasya
Erzurum
Rms
Büyüklük
Derinlik
Veri madenciliğinin bilim ve mühendislik alanında deprem
verilerinin analiz örneğidir.
GTÜ MOLEKÜLER BİYOLOJİ ve GENETİK
Sayfa 5
VERİ MADENCİLİĞİ
BİL210
DUBARA
2.SONUÇ
Bir veri madenciliği çalışması için öncelikle çok miktarda kaliteli veri
gerekir. Amaç bu veri içinde saklı gelecekle ilgili tahmin yapmakta
kullanılabilecek kural ve bağıntıların çıkarılmasıdır. Böyle bir
çalışmanın başarılı olması için uygulama konusundaki uzmanların veri
tabanları ve veri madenciliği konusundaki uzmanlarla beraber
çalışması gerekir. Çalışma uzun sürebilir. Sabır ve zaman gerekir.
GTÜ MOLEKÜLER BİYOLOJİ ve GENETİK
Sayfa 6
VERİ MADENCİLİĞİ
BİL210
DUBARA
3.KAYNAKÇA
 Ethem ALPAYDIN- Boğaziçi Üniversitesi
 Şadi Evren ŞEKER
 http://visualdatamining.blogspot.com.tr/2009/06/verimadenciliginin-yararlar-ve.html
GTÜ MOLEKÜLER BİYOLOJİ ve GENETİK
Sayfa 7
Download