Veri Marketi

advertisement
İş Zekası
Hafta 3 – Veri ambarları
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics:
Systems for Decision Support 10e isimli
eserden adapte edilmiştir
Bölüm Amaçları
 Veri ambarı tanımını ve temellerini anlamak
 Farklı veri ambarı mimarilerini anlamak ve bu mimarilerin
avantaj ve dezavantajlarını sorgulamak
 Veri ambarı kurulması sürecini anlayabilmek
 Veri ambarlama işlemlerini tanımlayabilmek
 Karar destek süreci içinde Veri ambarının rolünü
anlayabilmek
 Veri entegrasyonu ve ETL (extraction, transformation,
load) sürecini kavrayabilmek
 Gerçek zamanlı veri ambarı kavramını tanımlamak ve
anlamak
 Veri ambarı yönetimi ve güvenlik ile ilgili konuları anlamak
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
2/58
Açılış Vakası
 Isle of Capri kumarhaneleri kurumsal veri ambarları (KVA)
ile kazanıyor !!!
 Firma ile ilgili bilgiler
 Problem Tanımı
 Önerilen Çözüm
 Sonuçlar
 Vaka sorularının cevapları ve genel tartışmalar
Bir kurumsal veri ambarı kurmak firma için neden önemlidir?
Firmanın karşılaştığı fırsatlar ve engeller nelerdir?
Firma KVA hayata geçirme sürecindeki potansiyel engelleri
nelerdir, tartışınız?
KVA kurmanın firmaya sağladığı faydalar nelerdir? Vaka içinde
bahsedilmeyen diğer olası faydaları tartışınız.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
3/58








Ana Veri Ambarı Konuları
Veri ambarı (VA) tanımı
VA karakteristikleri
Veri Marketleri (Data Marts)
Operasyonel veri depoları (OVD), Kurumsal Veri Ambarı
(KVA), Metadata
VA çerçevesi
VA mimarisi ve Çıkar, Dönüştür ve Yükle (ETL-Extract,
transform, load)
VA geliştirme süreci
VA uygulama problemleri
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
4/58
Veri Ambarı Nedir?
 Veri ambarı her bir veri biriminin kalıcı ve zaman ile ilgili
boyutu olan çok sayıda konu odaklı bütünleşik veri
tabanının karar destek sistemi süreçlerini desteklemek
amacıyla birleştirildiği teknolojik altyapıdır.
 Fiziksel bir depolama alanı olan veri ambarları kurumsal
düzeyde belli bir süreçte temizlenmiş verilerden oluşan
statik birimdir.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
5/58
Veri Ambarı Nedir?
 Veri Ambarları aslında operasyonel verinin sorgulama ve
raporlama amaçlı bir kopyasının alınması ya da kopya
halidir.
 Bir veri, Veri Ambarına girmiş ise artık bu veride değişiklik
yapılamaz.
 Bu verinin güncellenmediği anlamına gelmez. Örneğin
siparişlerin durumu; müşterinin aldığı ürün bilgileri
operasyonel seviyede değiştirilebilir, fakat en son haliyle
Veri Ambarına atıldıktan sonra değiştirilemez.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
6/58
Veri Ambarı Nedir?
Bir veri ambarının temel özellikleri aşağıdaki gibi
sıralanabilir.
 Veri ambarı, merkezileştirilmiş bir bilgi deposudur.
 Veri ambarı, şirket için önemli konu alanlarının etrafında
bir bütün olarak düzenlenmiştir.
 Veri ambarı, şirket için sorgulanabilir bir kaynaktır.
 Veri ambarı, işleme süreçleri için değil analiz için kullanılır.
 Veri ambarındaki veri kalıcıdır.
 Veri ambarı, kurum içi ve kurum dışı birden fazla
kaynaktan veri entegre etmek için hedef alandır.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
7/58
Veri Ambarı Nedir?
Veri ambarlarında tutulan verilerde aranan özellikler:
 Detaylı veriye dayanmalı
 Bir kuruluşta gerçekleşen en alt düzeydeki işlem detayını
depolayabilmelidir.
 Tarihsel derinliğe sahip olabilmeli
 Gerek istatistiksel analizler, gerek modellemeler, gerekse zaman
içinde karşılaştırmalar yapılabilmesi için yerinin belirli bir geçmişe
sahip olması gerekir.
 Ölçeklenebilir olmalı
 Hem donanım, hem yazılım olanaklarıyla, zamanla artan ihtiyacı
karşılayabilecek esnekliğe sahip olmalıdır.
 Veriye erişim kolay olmalı
 Yetkili olan herkesin, Her yerde, Her zaman veriye ulaşabilmesi
gerekir.
 Kolay yönetilebilmeli:
 Karar vericilerin veri ambarlarından sağlayacakları fayda, bu kaynağı
etkin ve verimli kullanmalarına bağlıdır.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
8/58
Veri Ambarı Nedir?
 Entegrasyon: Farklı ve dağıtık verilerin entegrasyonu
karar vermeyi kolaylaştırma anlamında önemlidir. Veriye
ulaşımın tek kaynaktan olması çok daha avantajlıdır.
 Kalite: Farklı kaynaklardan aktarılan verilerin doğruluğu
her zaman kontrol edilir. Hatalı veriler VA ’ya giremez.
 Etkinlik: Bir sorgu, verilerin tutulduğu bir sunucuyu
kilitleyebilir. Dolayısıyla, özellikle ihtiyaç duyulan işleme
zamanı ve kapasite önem arz ediyor. İZ kullanıcısının
herhangi bir anda sorgusunun hızlı elde edilmesini sağlar.
 Genişletilebilirlik: Operasyonel sistemlerde çok eski
bilgiler kullanılmıyorsa bunların yedekleri disklere
kaydedilip kenara konur. Fakat VA ’da veriyi kapsama
periyodu geniş olduğu için VA buna imkan sağlıyor. Örneğin
10 yıl öncesinin verileri VA ’da rahatça tutulabilir ve
analize imkan verir.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
9/58
VA Tarihsel Süreci
- Anabilgisayar (IBM)
- Basit veri girişi
- Rutin raporlama
- İlkel veri tabanı yapıları
- Teradata oluşumu
1970
- Merkezileşmiş veri depolama
- Veri ambarları doğuşu
- Inmon, (VA kurmak)
- Kimball, (VA Araç takımı)
- KVA mimarisi tasarımı
1980
1990
- Kişisel Bilgisayarlar (PC)
- PC için işletme uygulamaları
- Dağıtık VTYS
- İlişkisel VTYS
Yrd. Doç. Dr. H. İbrahim CEBECİ
2000
- Büyük veri analitiği
- Sosyal Medya Analitiği
- Metin ve Web analitiği
- Hadoop, MapReduce, NoSQL
- in-memory / in-database
2010
- Üstel büyüyen veri (Web)
- VA / İZ endüstrilerinin birleşimi
- VA araçlarının ortaya çıkması
- İş zekasının popülerleşmesi
- Veri Madenciliği
- Açık kaynak kodlu yazılımlar
- SaaS, PaaS, Bulut teknolojisi
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
10/58











VA Karakteristikleri
Konu odaklı
Bütünleşik
Zaman boyutu olan
Kalıcı (Statik veya geçici olmayan)
Özetlenmiş
Normalize edilmemiş
Metadata
Web tabanlı, ilişkisel ve çok boyutlu
İstemci /Sunucu mimarisi
Gerçek veya tam zamanlı
…
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
11/58
Veri Marketleri
 Bölüm boyutunda sadece sınırlı sayıda ilgili verilerin
tutulduğu veri ambarlarıdır.
 Üretim veri marketi, İnsan Kaynakları veri marketi vb.
 Bağımlı veri marketi
 Bir veri ambarından yaratılmış bir nevi bir alt kümedir.
 Veri ambarı değişirse Data Mart’da değişir.
 Bağımsız Veri marketi
 Sadece belli bir bölüm ve stratejik birim için oluşturulmuş,
tamamen konu odaklı yeni bir düşük boyutlu veri ambarı
 Değişiklikler birbirini etkilemez
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
12/58
Diğer VA Bileşenleri
Operasyonel veri depoları (OVD)
 VA ’ya tamamen geçişten önce kullanılan ara veri deposudur.
Özellikle kısa dönemli kararların alınmasında kullanılmak
üzere tutulan geçici bir veri alanıdır. Operasyonel veri
deposu güncellenebilir, VA ise statiktir.
Oper Marts
 Operasyonel veri marketi
Kurumsal Veri Ambarı
 VA denince anlaşılması gereken kavramdır. Büyük ölçekli,
işletmenin her birimine karar destek amaçlı kurulmuş
olan, bütünleşik veri deposudur.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
13/58
Diğer VA Bileşenleri
Metadata (Üst Veri)
 Veri hakkındaki veri !!!
 Verinin kaynağı, türü, elde edilme zamanı gibi bilgileri taşır
 Veri hakkında veri demektir.
 Verinin yapısı ve verideki anlama ilişkin bilgilerin tutulduğu
bir kütüktür.
 Kullanımına göre ikiye ayrılır:
İşletme perspektifi açısından Meta Veri: Verinin ne anlama
geldiğini izah eder ve yapısal değildir. Bir sözlük gibi
düşünülebilir. Veri ne anlama geliyor? Nerede bulabilirim?
Sorularının cevabıdır.
Teknik perspektif açısından Meta Veri: Teknik personel
için gerekli bilgilerin bulunduğu kütüktür.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
14/58
Diğer VA Bileşenleri – Üst Veri
 Örneğin bir müşterinin tarih bazında aldığı ürün sayıları ve
bu ürünlerin birim fiyatları aşağıdaki şekilde bir veri
tabanında tutuluyor olsun.
 Bu veriler VA ’ya aktarılırken MH=300 şeklinde, ürün sayısı
ve birim fiyatı çarpılarak aktarılsın.
Ürün
Miktarı
Ürün
Fiyatı
30
10
40
20
50
30
MH
300
800
1500
Meta Veri:
 MH = Müşteri Hasılatı, hesaplama yöntemi= ürün fiyatı *
miktar, Pazarlama Data Martında depolanıyor.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
15/58
Meta Veri Türü
Diğer VA Bileşenleri – Üst Veri
İş perspektifi
(Çoğunlukla Yapısal
Değil)
Tanım
Dönüştürme
Ne anlama geliyor? Nasıl
Nerede bulabilirim? hesaplanmış?
Kaynakları neler?
Hangi iş kuralları
uygulanmış?
Teknik perspektif
Biçim
(Çoğunlukla Yapısal) Uzunluk
Tanım aralığı
Veri tabanı
Katalog
Yrd. Doç. Dr. H. İbrahim CEBECİ
Filtreler
Topluluklar
Hesaplamalar
İfadeler
Yönetim
Hangi eğitimler var?
Yönlendirme
takımında kimler var?
En kolay şekilde nasıl
ulaşılır?
Bilgi ne kadar güncel?
Kapasite planlama
Boşluk atama
İçerik&
içerikselleştirmeme
Disk kullanımı
İş çizelgeleme
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
16/58
VA vs VT
Fark
Operasyonel Veri Tabanı
Veri Ambarı / Data Mart
Amaç
Birincil fonksiyonu emirleri işlemek,
günlük mesaj girişleri,
operasyonel bir görevi tamamlamak
Birincil fonksiyonu işi yönetmek için bilgiye
erişimde iç görüyü sağlayarak daha fazla
getiri sağlamak, düşük maliyetler, kaliteli
müşteri hizmeti, stratejik hedeflere uyum
Tarih
Çok az bir geçmişe sahip güncel bilgi
Büyük tarih boyutlarında analizler, geçen
yıl ile bu yılın karşılaştırmaları
Güncellik
Gerçek(eş) zamanlı bilgi
Periyodik olarak çıkarılan bilgiler
(haftalık, günlük, saatlik).
Daha yakın zamanlarda, operasyonel veri
deposu gün boyunca gerçek zamanlı veya
birkaç kez bilgi elde edebilir.
Ayrıntı
Seviyesi
Detaylı bilgi satır öğesi veya seviyeli
veri giriş seviyesi
Boyu değişen derecelerde toplu bilgiler
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
17/58
VA vs VT
Fark
Operasyonel Veri Tabanı
Veri Ambarı / Data Mart
Tepki
Süresi
Hızlı girişler, ama yavaş sorgular
Sadece okuma, hızlı sorgular için
ayarlanmış.
Tablo
Yapısı
Binlerce normalize tablo
Veri ambarı parçaları normalize olabilir,
ama parça iş kullanıcıları sorguları
normalde normalleştirilmemiş yıldız veya
kar tanesi şemaları içerir. Veri ambarı
tabloları, kaynak sistemleri tablolarından
daha azdır.
Boyutlar
Nadiren hiyerarşik gruplama
Hiyerarşik grupları zaman düzeyi, hesap
planı, ürün grupları, müşteri grupları, vb
alanlarda gruplar.
Raporlama
Ve analiz
Biri detaylı boyutun Sabit raporları
(maliyet merkezi, fabrika, sipariş
numarası)
Sabit ya da tüm işletme fonksiyonları
arasında çok boyutlu tarafından ad hoc
raporlama ve analiz.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
18/58
Genel bir VA mimarisi
Veri Marketi Seçeneği Olmaz ise
Veri
Kaynakları
Önceki
Sistemler
POS
ETL
Süreci
Seç
Çıkar
Meta Data
Dönüştür
Kurumsal
Veri Ambarı
Bütünleştir
OLTP ve
Web
Veri Marketi
(Pazarlama)
Yükle
Veri Marketi
(Mühendislik)
Veri Marketi
(Finans)
Uygulamalar
(Görselleştirme)
API ve Ara Yazılımlar
ERP
Erişim
Veri Marketi
(…)
Dış Veri
Rutin
İşletme
Raporlama
Veri/Metin
Madenciliği
OLAP
Göst.Pan.
Web
Özel
Yapım
Uygulamalar
Replikasyon
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
19/58
 3 tabakalı yapı
VA Mimarisi
1. Veri edinme yazılımı (Arka uç)
2. Veri ambarları
3. İstemci Yazılımı (Ön uç)
Tabaka 1:
İstemci İş İstasyonu
Tabaka 2:
Tabaka 3:
Uygulama Sunucusu Veritabanı Sunucusu
 Zaman zaman ilk iki aşama birlikte ele alınabilir.
Tabaka 1:
İstemci İş İstasyonu
Yrd. Doç. Dr. H. İbrahim CEBECİ
Tabaka 2:
Uygulama ve veritabanı Sunucusu
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
20/58
Veri Ambarlama Mimarileri
 Hangi mimari kullanılması sorusunda önce aşağıdaki
sorular cevaplanmalıdır?
 Hangi veri tabanı yönetim sistemi kullanılmalıdır?
 Paralel işleme ve/veya bölümleme kullanılacak mı?
 Veri göçü (veri aktarımı) araçları veri ambarlarına yükleme
işlemi için kullanılacak mı?
 Veri kurtarma ve analiz araçlarından hangileri tercih
edilmelidir?
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
21/58
Web tabanlı Veri Ambarı Mimarisi
………. ….. ………
………. ………
…….. ……..
.……….
Web Sayfaları
İstemci
(Web Tarayıcısı)
Yrd. Doç. Dr. H. İbrahim CEBECİ
İnternet/
Intranet/
Extranet
Uygulama
Sunucusu
Web
Sunucusu
Veri
Ambarları
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
22/58
Alternatif VA Mimarileri
Bağımsız veri marketleri mimarisi
ETL
Kaynak
Sistemler
Veri
Hazırlama
Alanı
Bağımsız Veri Marketleri
(atomik / özet veri)
Son Kullanıcı
Erişimi ve
Uygulamalar
Ölçeklenebilir Veri marketi yolu mimarisi (Kimball Group)
ETL
Kaynak
Sistemler
Veri
Hazırlama
Alanı
Yrd. Doç. Dr. H. İbrahim CEBECİ
Boyutsal Bağlı
Ölçeklenebilir Veri Mark.
(atomik / özet veri)
Son Kullanıcı
Erişimi ve
Uygulamalar
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
23/58
Alternatif VA Mimarileri
Topla Dağıt Veri Mimarisi (Kurumsal Bilgi Fabrikası)
ETL
Kaynak
Sistemler
Veri
Hazırlama
Alanı
Normalize edilmiş
İlişkisel Veri Ambarı
(atomik veri)
Son Kullanıcı
Erişimi ve
Uygulamalar
Bağımlı Veri Marketleri
(Özet / Bir miktar atomik veri)
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
24/58
Alternatif VA Mimarileri
Merkezi Veri Ambarı Mimarisi
ETL
Kaynak
Sistemler
Veri
Hazırlama
Alanı
Normalize edilmiş
İlişkisel Veri Ambarı
(atomik / Biraz özet veri)
Son Kullanıcı
Erişimi ve
Uygulamalar
Birleşik Mimari
Varolan Veri ambarları, Veri
marketleri ve
Sistem Veri tabanları
Yrd. Doç. Dr. H. İbrahim CEBECİ
Veri Haritalama / Üst Veri
Ortak veri bileşenlerinin
fiziksel ve mantıksal
entegrasyonu
Son Kullanıcı
Erişimi ve
Uygulamalar
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
25/58
Alternatif VA Mimarileri
 Her bir mimarinin avantaj/dezavantajları mevcut!!!
 Hangisi seçilmeli?
Bağımsız
Veri
Marketleri
Ölçekli
Veri
Yolu
Topla
Dağıt
Merkezi
Veri
Ambarı
Birleşik
Mimari
Bilgi Kalitesi
4,42
5,16
5,35
5,23
4,73
Sistem Kalitesi
4,59
5,60
5,56
5,41
4,69
Kişisel Etkiler
5,08
5,80
5,62
5,64
5,15
Organizasyonel Etki
4,66
5,34
5,24
5,30
4,77
*Veri ambarı mimarisi kullanan 454 IT yöneticine 7 puan üzerinden
sorularla elde edilen sonuçlardır.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
26/58
Mimari Seçimini Etkileyen 10 Faktör
1. Organizasyonel birimler arası bilişim bağlılığı
2. Üst yönetimin bilgi gereksinimi
3. Veri ambarı mimarisini kurmaya olan ihtiyacın aciliyeti
4. Son kullanıcı görevlerinin yapısı
5. Kaynak kısıtlamaları
6. Uygulama öncesinde VA stratejik görünümü
7. Var olan sistemler ile uyum
8. Firma içi IT elemanlarının kullanılabilirlik algısı
9. Teknik zorluklar
10. Sosyal ve politik faktörler
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
27/58
Kurumsal Veri Ambarı
4545454255522
4545454255522
4545454255522
4545454255522
4545454255522
4545454255522
4545454255522
4545454255522
4545454255522
Veri Replikasyonu
4545454255522
4545454255522
4545454255522
4545454255522
454545425552245454
54255522
454545425552245454
54255522
45454542555224545454255522
45454542555224545454255522
45454542555224545454255522
45454542555224545454255522
45454542555224545454255522
45454542555224545454255522
Veri Marketleri
Karar
Kullanıcıları
Stratejik
Kullanıcılar
Yrd. Doç. Dr. H. İbrahim CEBECİ
Taktiksel
Kullanıcılar
Raporlama
Kullanıcıları
Veri
Madencileri
İşletme ve Teknoloji –
Danışmanlık Desteği ve Öğretim Hizmeti
Operasyonel Veri Deposu
Kurum, Sistem ve Veritabanı Yönetimi
Veri Dönüşümü
Mantıksal Veri Modeli
İşlem (Transaction) Verisi
Üst Veri
Ara Yazılımlar / Kurumsal Mesaj Yolu
Operasyonel Kullanıcılar
Fiziki VT Tasarımı
Teradata Kurumsal Veri Tabanı
Olay Temelli /
Kapalı Çevrim
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
28/58
Veri Entegrasyonu ve ETL Süreci
ETL = Extract Transform Load
 Çıkarım(Extraction): Bir veya daha fazla veri
kaynağından verinin çıkarılması, alınmasıdır. İlk defa Veri
Ambarı çalışması yapılıyorsa bir başlangıç çıkarımı
mevcuttur. Eski sistemlerdeki tüm veriler tümüyle Veri
Ambarına aktarılır. Sonra veriler güncellendikçe aktarma
yapılır.
 Dönüşüm
(Transformation):
Çekilen
verinin
dönüştürülmesidir. Bu dönüştürmedeki amaç, verinin
kalitesini arttırmaktır. Burada tekrarlar, eksiklikler,
tutarsızlıklar giderilir, normalleştirme ve konsolidasyon
yapılır.
 Yükleme (Loading): Veriyi fiziksel olarak Veri Ambarına
yüklemektir.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
29/58
Veri Entegrasyonu ve ETL Süreci
Veri Entegrasyonu: Üç temel alt süreci içerir
 Veri erişimi
 Veri birleştirme
 Veri Değişiminin Yakalanması (CDC)
 Kurumsal Uygulama Entegrasyonu (EAI)
 Farklı kaynak sistemlerden veri ambarına veri alan teknoloji
 Kurumsal Bilgi Entegrasyonu (EII)
 Yeni gelişen bir araç. Farklı veri kaynaklarından (İlişkisel,
Çok boyutlu veya web vb.) sürekli ve gerçek zamanlı veri
transferi teknolojisi.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
30/58
Veri Entegrasyonu ve ETL Süreci
Geçici
Veri Kaynağı
Paket
Yazılımlar
Eski
Sistem
Veri Ambarı
Çıkar
Dönüştür
Temizle
Yükle
Veri
Marketi
Diğer İç
Uygulamalar
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
31/58
ETL
 Bir ETL aracını etkileyen temel faktörler
 Genellikle çok maliyetlidirler
 Öğrenme eğrileri çok uzundur
 Temel Seçme Kriterleri
 Okuyup, yazabileceği veri kaynağı ve mimarisi türleri
 Üst veriyi otomatik yakalayabilmesi
 Açık standartlara uygunluk geçmişi
 Hem geliştirici hem de son kullanıcı için kolay kullanılabilir
arayüz imkanları
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
32/58
Veri Ambarı Geliştirme
 Veri ambarı geliştirme yaklaşımları
 Inmon Modeli (Yukarıdan-Aşağıya): Önce büyük veri
ambarı tasarlanır. Bu yüzden kurum veri ambarı (EDW:
Enterprise Datawarehouse) yaklaşımı da denir.
 Kimball Modeli (Aşağıdan-Yukarıya):Önce küçük veri
marketleri tasarlanır, sonra bunlar veri ambarını oluşturur.
Bu yüzden Veri marketi yaklaşımı da denir. Hedefi;
mümkün olan en kısa zamanda çok boyutlu veri
marketlerinin dağıtılmasıyla iş değerinin oluşturulmasıdır.
Bu yaklaşım hem daha esnek hem de kullanıcı dostudur.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
33/58
Veri Ambarı Geliştirme Yaklaşımları
Amaç
Geliştirme zamanı
Geliştirme maliyeti
Geliştirme zorluğu
Veri paylaşım
ön koşulları
Kaynaklar
Boyut
Zaman aralığı
Yrd. Doç. Dr. H. İbrahim CEBECİ
Kimball Modeli
(Veri Marketi)
Inmon Modeli
(KVA)
Bir konu alanı
Aylar
10.000$-100.000$ arası
Düşük - orta seviye
İş alanı içi yaygın
Çok konu alanı
Yıllar
1.000.000$ ve üzeri
Yüksek seviye
Kurum boyunca
Sadece bazı operasyonel
ve dış sistemler
Megabyte-Gigabyte
Güncele yakın ve geçmiş
veri
Birçok operasyonel ve dış
sistemler
Gigabyte-petabyte
Geçmiş veri
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
34/58
Veri Ambarı Geliştirme Yaklaşımları
Kimball Modeli
(Veri Marketi)
Veri dönüştürme
Güncel frekans
Teknoloji donanımı
Düşük-orta
Saatlik, günlük, haftalık
İş istasyonları ve bölüm
sunucuları
İşletme sistemi
Windows ve Linux
Veritabanları
İş grupları veya standart
veri tabanı sunucuları
Eş
zamanlı 10-100 arası
kullanıcıların sayısı
Kullanıcı tipleri
İş
analistleri
ve
yöneticiler
Önemli iş odakları
İş
alanı
içindeki
aktivitelerin
optimizasyonu
Yrd. Doç. Dr. H. İbrahim CEBECİ
Inmon Modeli
(KVA)
Yüksek
Haftalık, aylık
Kurum sunucuları ve ana
bilgisayarlar
Unix, Z/03, 03/390
Kurumsal
veri
tabanı
sunucuları
100-1000 arası
Kurum analistleri ve tepe
yöneticiler
Çapraz-fonksiyonel
optimizasyon
ve
karar
verme
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
35/58
Sunucu Veri Ambarları (CC-DW)
 Faydaları
 Minimum altyapı maliyetlerine gereksinim duyar
 Firma içi sistemlerin kapasite kısıtları esnetilmiş olur
 Para akışını serbestleştirir
 Çok güçlü çözümleri ekonomik kılar
 Daha kaliteli ekipman ve daha güçlü yazılımları kullanma ve
öğrenme imkanı sunar
 Daha hızlı ve etkin çözümler sunar
…
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
36/58
Veri Ambarlarında Veri Temsili
 Çok Boyutlu Veri Modeli
Zaman
Vancouver Satış Rakamları
Ürün
Eğlence
Bilgisayar
Telefon
Güvenlik
Ç1
605
825
14
400
Ç2
680
952
31
512
Ç3
812
1023
30
501
Ç4
927
1038
38
580
Satış Rakamları (Vancouver)
Üç Boyutlu
Tablo
Satış Rakamları (Montreal)
Ürün
Eğlence
Bilgisayar
İki Boyutlu
Tablo
Ürün
Telefon
Güvenlik
Eğlence
Bilgisayar
Telefon
Güvenlik
Ç1
605
825
14
400
703
888
17
327
Ç2
680
952
31
512
777
1025
19
389
Ç3
812
1023
30
501
827
1212
15
401
Ç4
927
1038
38
580
903
1301
18
456
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
37/58
Çok Boyutlu Veri Modeli (Veri Küpü)
Zaman
Ankara
854 882
89
623
İstanbul 1087 968
38
872
İzmir
818 746
43
591
Bursa
854 882
89
623
Birinci Çeyrek
854
682
89
623
İkinci Çeyrek
814
982
69
523
Üçüncü Çeyrek
754
872
81
673
Dördüncü Çeyrek
894
552
59
62
Ürün Çeşidi
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
38/58
Çok Boyutlu Veri Modeli (Veri Küpü)
Tedarikçi 2
Tedarikçi 1
Tedarikçi 3
Ankara
İstanbul
İzmir
Bursa
Zaman
Birinci Çeyrek
İkinci Çeyrek
Üçüncü Çeyrek
Dördüncü Çeyrek
Ürün Çeşidi
Yrd. Doç. Dr. H. İbrahim CEBECİ
Ürün Çeşidi
Ürün Çeşidi
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
39/58
Yıldız Şeması
 Bir gerçek (Fact) tablosu etrafında yer alan boyut
(dimension) tabloları ile gösterilir.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
40/58
Kar Tanesi Şeması
 Yıldız şemasının bir genişletilmiş versiyonudur.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
41/58
Galaksi Şeması
 Sofistike uygulamalarda boyut tablolarını paylaşmak için
birden çok gerçek tabloya gerek duyulabilir.
 Bu tür bir şema yıldızlar topluluğu şeması olarak görülür
ve dolayısıyla bunun adına galaksi şeması veya gerçek
takımyıldızı (fact constellation)denmiştir.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
42/58
Veri Ambarlarında Analiz OLTP vs. OLAP
OLTP (online transaction processing)
 OLTP veri depolama sistemleri genelde ilişkisel verileri
tutmak için dizayn edilmiştir.
 Günlük hayatta kullandığımız uygulamalarımızın veri
tabanları çoğunlukla OLTP tarzı sistemlerdir.
 Firmalar için günlük bütün işlem kayıtları (ERP, CRM, POS
vb.) ilişkisel tablolar halinde OLTP veri tabanlarında
tutulur.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
43/58
Veri Ambarlarında Analiz OLTP vs. OLAP
OLAP (Online analytical processing)
 Online analytical processing yani kısaca OLAP analitik
işlemler için tasarlanmış, çok boyutlu ve özet bilgilerin
tutulduğu veri tabanlarıdır.
 Örneğin bir firmanın yaptığı bütün satışlara ait detaylı
bilgilerin yer aldığı sistemler OLTP, bu verilerin satış
zamanı, yeri gibi özel boyutlar bazında gruplanarak özet
olarak tutulduğu sistemler ise OLAP olarak adlandırılır.
 OLAP
temelde
OLTP
sistemlerinden
beslenerek
organizasyonun tamamı hakkında çok hızlı bir şekilde bilgi
sağlanması amacıyla oluşturulmuş yapılardır.
 OLAP sistemlerinin en önemli özelliği verilerin mutlaka
zaman boyutu olmasıdır.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
44/58
Veri Ambarlarında Analiz OLTP vs. OLAP
 Statik rapor yığınlarını incelemek yerine, OLAP analisti iş
sonuçlarını, interaktif olarak inceleyebilir, verinin
görünümünü dinamik olarak ayarlayabilir, çok hızlı bir
şekilde soru sorup cevap alabilir.
 OLAP kavramı, paylaşılan çok boyutlu bilginin hızlı analizi
(FASMI) olarak da tanımlanır.
 Fast (Hızlı)
 Analysis (Analiz)
 Shared (Paylaşımlı)
 Multidimensional (Çok Boyutlu)
 Information (Bilgi)
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
45/58
Veri Ambarlarında Analiz OLTP vs. OLAP
Bir OLAP küpü üzerinde şu işlemler yapılabilir:
 Dice(Çevir): Satış verisinin bölge-zaman yüzünü
incelerken, ürün-zaman yüzüne geçebiliriz.
 Slice(Dilimle): Bütün aralığı değil de belirli bir aralığı
seçebiliriz. Örnek son 1 yıla ait dilim..
 Drill Down: Ayrıntı seviyesinde alta in. Örnek yıl bazından
ay bazına geç.
 Drill Up: Ayrıntı seviyesinde yukarı çık. Örnek şehir
bazından bölge bazına çık.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
46/58
Kriter
Amaç
Veri Ambarlarında Analiz OLTP vs. OLAP
Veri kaynağı
Raporlama
Kaynak ihtiyaçları
Uygulama hızı
Kullanıcı ve sistem
yönelimi
Veri tabanı dizaynı
OLTP
Günlük iş fonksiyonlarını yerine
getirmek
İşlem veri tabanı (etkinlik ve
tutarlılığa dayanan normalize
edilmiş veri deposu)
Rutin, periyodik, odaklanılmış
raporlar
Olağan ilişkisel veri tabanları
Hızlı (işlem ve rutin raporlar
kayıtları)
Müşteri odaklıdır ve üzerindeki
işlemler, sorgular it personeli,
müşteriler, tezgahtarlar vs.
tarafından yapılır.
Varlık-ilişkili (entity-relational
ER) veri modeli ile dizayn
edilmiş, uygulama odaklı
Yrd. Doç. Dr. H. İbrahim CEBECİ
OLAP
Karar vermeyi desteklemek ve iş ve
yönetim sorgularını cevaplamak
Veri ambarı veya özel veri tabanı
(doğruluk ve tamlığa dayanan
normalize edilmemiş veri deposu)
Özel amaçlı, çok boyutlu, geniş
odaklı sorgular ve raporlar
Çok işlemcili, yüksek-kapasiteli,
özel veri tabanları
Yavaş (kaynak yoğun, karmaşık,
yüksek-ölçekli sorgular)
Konu odaklıdır ve karar vericiler,
yöneticiler, analistler tarafından
veri analizi için kullanılır.
Genellikle Yıldız veya Kartanesi
modeli ile dizayn edilmiş veri
tabanı dizaynı kullanılır.
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
47/58
OLAP Türleri
 Çok boyutlu OLAP (MOLAP): Çok boyutlu OLAP, klasik OLAP
formudur ve bazen sadece OLAP da denir. MOLAP küçük çaptaki
veri setleri için uygundur çünkü hızlı hesaplar ve fazla yer
kaplamaz.
 İlişkisel OLAP (ROLAP): ROLAP direkt olarak ilişkisel veri
tabanlarıyla çalışır. Temel veri ve boyut tabloları, ilişkisel
tablolar olarak depolanır ve yeni tablolar toplu bilgiyi tutmak
için oluşturulur. ROLAP daha ölçeklenebilirdir, fakat yüksek
hacimli işlemlerin etkili kurulumu zordur, bu yüzden sıkça göz
ardı edilir.
 Hibrid OLAP (HOLAP): Endüstride açık bir tanımı olmamakla
birlikte, veriyi ilişkisel ve özel depo olarak bölen OLAP tipidir
denilebilir. Örneğin bir HOLAP veri tabanı, yüksek miktarda
detaylı veri için ilişkisel tablolarını, daha detaysız ve düşük
miktarda veri için özel depoları kullanabilir.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
48/58
Başarılı bir VA Uygulaması Nasıl olur?
 Başarılı bir
kaçınılmalıdır.
VA
uygulaması
için
aşağıdakilerden
 Yanlış sponsorluk zinciri ile başlamak
 Finansal desteğe sahip bir yönetici
 Diğer yöneticilerin saygısını kazanmış IT proje yöneticisi
 Karşılanamayacak beklentiler oluşturmak
 Daha politik ve kabul edilebilir yaklaşım
 VA sayesinde artık daha iyi kararlar alacaksınız (Daha önce
almıyorlar mıydı???)
 Sadece ulaşılabilir olduğundan her türlü veriyi tutmak
 Aşırı yükleme = Düşük Etkinlik
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
49/58
Başarılı bir VA Uygulaması Nasıl olur?
 Veri ambarı tasarımı ile klasik veri tabanı yönetim sistemi
tasarımlarının aynı veya çok benzer olduğuna inanmak
 Veri ambarı yöneticisini teknoloji yönelimli seçerek,
kullanıcı gereksinimlerini anlayamamak
 Klasik veri tiplerine odaklanıp, harici veri kaynaklarından
gelen metin, medya, web verilerini göz ardı etmek
 Veri ambarı kurulumu ile bütün sorunların ortadan
kalktığına inanmak
 VA ve İZ konuları sürekli gelişmekte, değişime ayak
uydurmak şart !!!
 Konu ve kişi odaklı raporlara odaklanarak
sistemlerinin avantajlarını göz ardı etmek
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
uyarı
50/58
Büyük Veri Ambarları ve Ölçeklenebilirlik
Ölçeklenebilirlik (Bir sistemin artan kapasite kullanımıyla,
performanstan feragat etmeden, baş edebileceğini ifade eden
terim)
 Ölçeklenebilirlik ile ilgili temel konular
 Veri ambarlarındaki verinin çokluğu
 Veri ambarının ne kadar çabuk büyüyeceği (büyüme hızı)
 Eş zamanlı kullanıcı sayısı
 Kullanıcı sorgularının karmaşıklığı
 İyi ölçeklenebilirlik, sorguların ve diğer veri erişim
işlemlerinin veri ambarı boyutu ile doğrusal olarak
büyümesidir.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
51/58
Gerçek Zamanlı (Aktif) VA/IZ
 Gerçek zamanlı veri analizi ve karar verme süreci için
gerçek zamanlı veri güncelleyebilen veri ambarlarıdır
 İtme (Yazılım gönderimli) vs. Çekme (Kullanıcı istekli)
 Veri toplamada gecikmeler (Klasik VA)
 Analiz sürecindeki gecikmeler (Gerçek Zamanlı VA)
 Aksiyona geçme sürecindeki gecikmeler (Yeni nesil Gerçek
Zamanlı VA)
 Gerçek Zamanlı Veri Ambarları ile ilgili bazı problemler
 Bütün veriler sürekli güncellemeye uygun değildir
 Dakikalar içinde alınan raporların çelişkili olması ihtimali
 Çok yüksek maliyetler
 Uygulaması mümkün olmayabilir (Ölçekleme problemleri)
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
52/58
Gerçek Zamanlı (Aktif) VA/IZ
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
53/58
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
54/58
Geleneksel VA vs. Gerçek Zamanlı VA
Geleneksel Veri Ambarları Ortamı
Gerçek Zamanlı Veri Ambarları Ortamı
Sadece stratejik kararlar
Stratejik ve taktiksel kararlar
Bazen sonuçların ölçülmesi zor olabiliyor
Sonuçlar operasyonlar sayesinde ölçülebiliyor
Günlük, haftalık hatta aylık veri edinme
Dakika bazlı (hatta saniye) veri edinme
Kabul edilebilir sayıda eş zamanlı kullanım
Yüksek sayıda eş zamanlı kullanım
Daha statik, hazır rapor kullanımı
Anlık, konu veya kişi odaklı rapor hazırlama
Güçlü kullanıcılar, bilgi çalışanları, iç
kullanım
Operasyonel çalışanlar, çağrı merkezleri, dış
kullanıcılar
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
55/58
VA Yönetimi ve Güvenlik
 Veri Ambarı Yöneticisinden beklenen özellikler
 Yüksek performanslı yazılım, donanım ve ağ teknolojilerine
aşina olması
 Gerekli işletme bilgisine ve öngörüsüne sahip olması
 Veri ambarı mimarisi ve tasarımı hakkında bilgi sahibi olması
 Karar destek süreçlerine aşina olması
 Yüksek iletişim yeteneklerine sahip olması
 Güvenlik ve mahremiyet en önemli konular
 Emniyet en önemli varlık
 Yasal düzenlemeler
 Şeffaf planlama ve uygulama
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
56/58
 Kaynaklar
Veri Ambarlarının Geleceği
 Web, Sosyal medya ve büyük veri
 Açık kaynak kodlu yazılımlar
 SaaS
 Bulut bilişim
 Altyapı
 Dikey Veri tabanı (Kayıtlar satır yerine sütunlarda)
 Gerçek Zamanlı VA
 Veri ambarı cihazları
 Veri yönetimi teknolojileri
 In-Database / In-Memory
 İleri analitik
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
57/58
Ücretsiz VA Portalı
www.TeradataStudentNetwork.com
Şifreyi hocanızdan talep edebilirsiniz!!!
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
58/58
Download