İş Zekası Hafta 3 – Veri ambarları Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir Bölüm Amaçları Veri ambarı tanımını ve temellerini anlamak Farklı veri ambarı mimarilerini anlamak ve bu mimarilerin avantaj ve dezavantajlarını sorgulamak Veri ambarı kurulması sürecini anlayabilmek Veri ambarlama işlemlerini tanımlayabilmek Karar destek süreci içinde Veri ambarının rolünü anlayabilmek Veri entegrasyonu ve ETL (extraction, transformation, load) sürecini kavrayabilmek Gerçek zamanlı veri ambarı kavramını tanımlamak ve anlamak Veri ambarı yönetimi ve güvenlik ile ilgili konuları anlamak Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 2/58 Açılış Vakası Isle of Capri kumarhaneleri kurumsal veri ambarları (KVA) ile kazanıyor !!! Firma ile ilgili bilgiler Problem Tanımı Önerilen Çözüm Sonuçlar Vaka sorularının cevapları ve genel tartışmalar Bir kurumsal veri ambarı kurmak firma için neden önemlidir? Firmanın karşılaştığı fırsatlar ve engeller nelerdir? Firma KVA hayata geçirme sürecindeki potansiyel engelleri nelerdir, tartışınız? KVA kurmanın firmaya sağladığı faydalar nelerdir? Vaka içinde bahsedilmeyen diğer olası faydaları tartışınız. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 3/58 Ana Veri Ambarı Konuları Veri ambarı (VA) tanımı VA karakteristikleri Veri Marketleri (Data Marts) Operasyonel veri depoları (OVD), Kurumsal Veri Ambarı (KVA), Metadata VA çerçevesi VA mimarisi ve Çıkar, Dönüştür ve Yükle (ETL-Extract, transform, load) VA geliştirme süreci VA uygulama problemleri Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 4/58 Veri Ambarı Nedir? Veri ambarı her bir veri biriminin kalıcı ve zaman ile ilgili boyutu olan çok sayıda konu odaklı bütünleşik veri tabanının karar destek sistemi süreçlerini desteklemek amacıyla birleştirildiği teknolojik altyapıdır. Fiziksel bir depolama alanı olan veri ambarları kurumsal düzeyde belli bir süreçte temizlenmiş verilerden oluşan statik birimdir. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 5/58 Veri Ambarı Nedir? Veri Ambarları aslında operasyonel verinin sorgulama ve raporlama amaçlı bir kopyasının alınması ya da kopya halidir. Bir veri, Veri Ambarına girmiş ise artık bu veride değişiklik yapılamaz. Bu verinin güncellenmediği anlamına gelmez. Örneğin siparişlerin durumu; müşterinin aldığı ürün bilgileri operasyonel seviyede değiştirilebilir, fakat en son haliyle Veri Ambarına atıldıktan sonra değiştirilemez. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 6/58 Veri Ambarı Nedir? Bir veri ambarının temel özellikleri aşağıdaki gibi sıralanabilir. Veri ambarı, merkezileştirilmiş bir bilgi deposudur. Veri ambarı, şirket için önemli konu alanlarının etrafında bir bütün olarak düzenlenmiştir. Veri ambarı, şirket için sorgulanabilir bir kaynaktır. Veri ambarı, işleme süreçleri için değil analiz için kullanılır. Veri ambarındaki veri kalıcıdır. Veri ambarı, kurum içi ve kurum dışı birden fazla kaynaktan veri entegre etmek için hedef alandır. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 7/58 Veri Ambarı Nedir? Veri ambarlarında tutulan verilerde aranan özellikler: Detaylı veriye dayanmalı Bir kuruluşta gerçekleşen en alt düzeydeki işlem detayını depolayabilmelidir. Tarihsel derinliğe sahip olabilmeli Gerek istatistiksel analizler, gerek modellemeler, gerekse zaman içinde karşılaştırmalar yapılabilmesi için yerinin belirli bir geçmişe sahip olması gerekir. Ölçeklenebilir olmalı Hem donanım, hem yazılım olanaklarıyla, zamanla artan ihtiyacı karşılayabilecek esnekliğe sahip olmalıdır. Veriye erişim kolay olmalı Yetkili olan herkesin, Her yerde, Her zaman veriye ulaşabilmesi gerekir. Kolay yönetilebilmeli: Karar vericilerin veri ambarlarından sağlayacakları fayda, bu kaynağı etkin ve verimli kullanmalarına bağlıdır. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 8/58 Veri Ambarı Nedir? Entegrasyon: Farklı ve dağıtık verilerin entegrasyonu karar vermeyi kolaylaştırma anlamında önemlidir. Veriye ulaşımın tek kaynaktan olması çok daha avantajlıdır. Kalite: Farklı kaynaklardan aktarılan verilerin doğruluğu her zaman kontrol edilir. Hatalı veriler VA ’ya giremez. Etkinlik: Bir sorgu, verilerin tutulduğu bir sunucuyu kilitleyebilir. Dolayısıyla, özellikle ihtiyaç duyulan işleme zamanı ve kapasite önem arz ediyor. İZ kullanıcısının herhangi bir anda sorgusunun hızlı elde edilmesini sağlar. Genişletilebilirlik: Operasyonel sistemlerde çok eski bilgiler kullanılmıyorsa bunların yedekleri disklere kaydedilip kenara konur. Fakat VA ’da veriyi kapsama periyodu geniş olduğu için VA buna imkan sağlıyor. Örneğin 10 yıl öncesinin verileri VA ’da rahatça tutulabilir ve analize imkan verir. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 9/58 VA Tarihsel Süreci - Anabilgisayar (IBM) - Basit veri girişi - Rutin raporlama - İlkel veri tabanı yapıları - Teradata oluşumu 1970 - Merkezileşmiş veri depolama - Veri ambarları doğuşu - Inmon, (VA kurmak) - Kimball, (VA Araç takımı) - KVA mimarisi tasarımı 1980 1990 - Kişisel Bilgisayarlar (PC) - PC için işletme uygulamaları - Dağıtık VTYS - İlişkisel VTYS Yrd. Doç. Dr. H. İbrahim CEBECİ 2000 - Büyük veri analitiği - Sosyal Medya Analitiği - Metin ve Web analitiği - Hadoop, MapReduce, NoSQL - in-memory / in-database 2010 - Üstel büyüyen veri (Web) - VA / İZ endüstrilerinin birleşimi - VA araçlarının ortaya çıkması - İş zekasının popülerleşmesi - Veri Madenciliği - Açık kaynak kodlu yazılımlar - SaaS, PaaS, Bulut teknolojisi Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 10/58 VA Karakteristikleri Konu odaklı Bütünleşik Zaman boyutu olan Kalıcı (Statik veya geçici olmayan) Özetlenmiş Normalize edilmemiş Metadata Web tabanlı, ilişkisel ve çok boyutlu İstemci /Sunucu mimarisi Gerçek veya tam zamanlı … Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 11/58 Veri Marketleri Bölüm boyutunda sadece sınırlı sayıda ilgili verilerin tutulduğu veri ambarlarıdır. Üretim veri marketi, İnsan Kaynakları veri marketi vb. Bağımlı veri marketi Bir veri ambarından yaratılmış bir nevi bir alt kümedir. Veri ambarı değişirse Data Mart’da değişir. Bağımsız Veri marketi Sadece belli bir bölüm ve stratejik birim için oluşturulmuş, tamamen konu odaklı yeni bir düşük boyutlu veri ambarı Değişiklikler birbirini etkilemez Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 12/58 Diğer VA Bileşenleri Operasyonel veri depoları (OVD) VA ’ya tamamen geçişten önce kullanılan ara veri deposudur. Özellikle kısa dönemli kararların alınmasında kullanılmak üzere tutulan geçici bir veri alanıdır. Operasyonel veri deposu güncellenebilir, VA ise statiktir. Oper Marts Operasyonel veri marketi Kurumsal Veri Ambarı VA denince anlaşılması gereken kavramdır. Büyük ölçekli, işletmenin her birimine karar destek amaçlı kurulmuş olan, bütünleşik veri deposudur. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 13/58 Diğer VA Bileşenleri Metadata (Üst Veri) Veri hakkındaki veri !!! Verinin kaynağı, türü, elde edilme zamanı gibi bilgileri taşır Veri hakkında veri demektir. Verinin yapısı ve verideki anlama ilişkin bilgilerin tutulduğu bir kütüktür. Kullanımına göre ikiye ayrılır: İşletme perspektifi açısından Meta Veri: Verinin ne anlama geldiğini izah eder ve yapısal değildir. Bir sözlük gibi düşünülebilir. Veri ne anlama geliyor? Nerede bulabilirim? Sorularının cevabıdır. Teknik perspektif açısından Meta Veri: Teknik personel için gerekli bilgilerin bulunduğu kütüktür. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 14/58 Diğer VA Bileşenleri – Üst Veri Örneğin bir müşterinin tarih bazında aldığı ürün sayıları ve bu ürünlerin birim fiyatları aşağıdaki şekilde bir veri tabanında tutuluyor olsun. Bu veriler VA ’ya aktarılırken MH=300 şeklinde, ürün sayısı ve birim fiyatı çarpılarak aktarılsın. Ürün Miktarı Ürün Fiyatı 30 10 40 20 50 30 MH 300 800 1500 Meta Veri: MH = Müşteri Hasılatı, hesaplama yöntemi= ürün fiyatı * miktar, Pazarlama Data Martında depolanıyor. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 15/58 Meta Veri Türü Diğer VA Bileşenleri – Üst Veri İş perspektifi (Çoğunlukla Yapısal Değil) Tanım Dönüştürme Ne anlama geliyor? Nasıl Nerede bulabilirim? hesaplanmış? Kaynakları neler? Hangi iş kuralları uygulanmış? Teknik perspektif Biçim (Çoğunlukla Yapısal) Uzunluk Tanım aralığı Veri tabanı Katalog Yrd. Doç. Dr. H. İbrahim CEBECİ Filtreler Topluluklar Hesaplamalar İfadeler Yönetim Hangi eğitimler var? Yönlendirme takımında kimler var? En kolay şekilde nasıl ulaşılır? Bilgi ne kadar güncel? Kapasite planlama Boşluk atama İçerik& içerikselleştirmeme Disk kullanımı İş çizelgeleme Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 16/58 VA vs VT Fark Operasyonel Veri Tabanı Veri Ambarı / Data Mart Amaç Birincil fonksiyonu emirleri işlemek, günlük mesaj girişleri, operasyonel bir görevi tamamlamak Birincil fonksiyonu işi yönetmek için bilgiye erişimde iç görüyü sağlayarak daha fazla getiri sağlamak, düşük maliyetler, kaliteli müşteri hizmeti, stratejik hedeflere uyum Tarih Çok az bir geçmişe sahip güncel bilgi Büyük tarih boyutlarında analizler, geçen yıl ile bu yılın karşılaştırmaları Güncellik Gerçek(eş) zamanlı bilgi Periyodik olarak çıkarılan bilgiler (haftalık, günlük, saatlik). Daha yakın zamanlarda, operasyonel veri deposu gün boyunca gerçek zamanlı veya birkaç kez bilgi elde edebilir. Ayrıntı Seviyesi Detaylı bilgi satır öğesi veya seviyeli veri giriş seviyesi Boyu değişen derecelerde toplu bilgiler Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 17/58 VA vs VT Fark Operasyonel Veri Tabanı Veri Ambarı / Data Mart Tepki Süresi Hızlı girişler, ama yavaş sorgular Sadece okuma, hızlı sorgular için ayarlanmış. Tablo Yapısı Binlerce normalize tablo Veri ambarı parçaları normalize olabilir, ama parça iş kullanıcıları sorguları normalde normalleştirilmemiş yıldız veya kar tanesi şemaları içerir. Veri ambarı tabloları, kaynak sistemleri tablolarından daha azdır. Boyutlar Nadiren hiyerarşik gruplama Hiyerarşik grupları zaman düzeyi, hesap planı, ürün grupları, müşteri grupları, vb alanlarda gruplar. Raporlama Ve analiz Biri detaylı boyutun Sabit raporları (maliyet merkezi, fabrika, sipariş numarası) Sabit ya da tüm işletme fonksiyonları arasında çok boyutlu tarafından ad hoc raporlama ve analiz. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 18/58 Genel bir VA mimarisi Veri Marketi Seçeneği Olmaz ise Veri Kaynakları Önceki Sistemler POS ETL Süreci Seç Çıkar Meta Data Dönüştür Kurumsal Veri Ambarı Bütünleştir OLTP ve Web Veri Marketi (Pazarlama) Yükle Veri Marketi (Mühendislik) Veri Marketi (Finans) Uygulamalar (Görselleştirme) API ve Ara Yazılımlar ERP Erişim Veri Marketi (…) Dış Veri Rutin İşletme Raporlama Veri/Metin Madenciliği OLAP Göst.Pan. Web Özel Yapım Uygulamalar Replikasyon Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 19/58 3 tabakalı yapı VA Mimarisi 1. Veri edinme yazılımı (Arka uç) 2. Veri ambarları 3. İstemci Yazılımı (Ön uç) Tabaka 1: İstemci İş İstasyonu Tabaka 2: Tabaka 3: Uygulama Sunucusu Veritabanı Sunucusu Zaman zaman ilk iki aşama birlikte ele alınabilir. Tabaka 1: İstemci İş İstasyonu Yrd. Doç. Dr. H. İbrahim CEBECİ Tabaka 2: Uygulama ve veritabanı Sunucusu Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 20/58 Veri Ambarlama Mimarileri Hangi mimari kullanılması sorusunda önce aşağıdaki sorular cevaplanmalıdır? Hangi veri tabanı yönetim sistemi kullanılmalıdır? Paralel işleme ve/veya bölümleme kullanılacak mı? Veri göçü (veri aktarımı) araçları veri ambarlarına yükleme işlemi için kullanılacak mı? Veri kurtarma ve analiz araçlarından hangileri tercih edilmelidir? Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 21/58 Web tabanlı Veri Ambarı Mimarisi ………. ….. ……… ………. ……… …….. …….. .………. Web Sayfaları İstemci (Web Tarayıcısı) Yrd. Doç. Dr. H. İbrahim CEBECİ İnternet/ Intranet/ Extranet Uygulama Sunucusu Web Sunucusu Veri Ambarları Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 22/58 Alternatif VA Mimarileri Bağımsız veri marketleri mimarisi ETL Kaynak Sistemler Veri Hazırlama Alanı Bağımsız Veri Marketleri (atomik / özet veri) Son Kullanıcı Erişimi ve Uygulamalar Ölçeklenebilir Veri marketi yolu mimarisi (Kimball Group) ETL Kaynak Sistemler Veri Hazırlama Alanı Yrd. Doç. Dr. H. İbrahim CEBECİ Boyutsal Bağlı Ölçeklenebilir Veri Mark. (atomik / özet veri) Son Kullanıcı Erişimi ve Uygulamalar Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 23/58 Alternatif VA Mimarileri Topla Dağıt Veri Mimarisi (Kurumsal Bilgi Fabrikası) ETL Kaynak Sistemler Veri Hazırlama Alanı Normalize edilmiş İlişkisel Veri Ambarı (atomik veri) Son Kullanıcı Erişimi ve Uygulamalar Bağımlı Veri Marketleri (Özet / Bir miktar atomik veri) Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 24/58 Alternatif VA Mimarileri Merkezi Veri Ambarı Mimarisi ETL Kaynak Sistemler Veri Hazırlama Alanı Normalize edilmiş İlişkisel Veri Ambarı (atomik / Biraz özet veri) Son Kullanıcı Erişimi ve Uygulamalar Birleşik Mimari Varolan Veri ambarları, Veri marketleri ve Sistem Veri tabanları Yrd. Doç. Dr. H. İbrahim CEBECİ Veri Haritalama / Üst Veri Ortak veri bileşenlerinin fiziksel ve mantıksal entegrasyonu Son Kullanıcı Erişimi ve Uygulamalar Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 25/58 Alternatif VA Mimarileri Her bir mimarinin avantaj/dezavantajları mevcut!!! Hangisi seçilmeli? Bağımsız Veri Marketleri Ölçekli Veri Yolu Topla Dağıt Merkezi Veri Ambarı Birleşik Mimari Bilgi Kalitesi 4,42 5,16 5,35 5,23 4,73 Sistem Kalitesi 4,59 5,60 5,56 5,41 4,69 Kişisel Etkiler 5,08 5,80 5,62 5,64 5,15 Organizasyonel Etki 4,66 5,34 5,24 5,30 4,77 *Veri ambarı mimarisi kullanan 454 IT yöneticine 7 puan üzerinden sorularla elde edilen sonuçlardır. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 26/58 Mimari Seçimini Etkileyen 10 Faktör 1. Organizasyonel birimler arası bilişim bağlılığı 2. Üst yönetimin bilgi gereksinimi 3. Veri ambarı mimarisini kurmaya olan ihtiyacın aciliyeti 4. Son kullanıcı görevlerinin yapısı 5. Kaynak kısıtlamaları 6. Uygulama öncesinde VA stratejik görünümü 7. Var olan sistemler ile uyum 8. Firma içi IT elemanlarının kullanılabilirlik algısı 9. Teknik zorluklar 10. Sosyal ve politik faktörler Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 27/58 Kurumsal Veri Ambarı 4545454255522 4545454255522 4545454255522 4545454255522 4545454255522 4545454255522 4545454255522 4545454255522 4545454255522 Veri Replikasyonu 4545454255522 4545454255522 4545454255522 4545454255522 454545425552245454 54255522 454545425552245454 54255522 45454542555224545454255522 45454542555224545454255522 45454542555224545454255522 45454542555224545454255522 45454542555224545454255522 45454542555224545454255522 Veri Marketleri Karar Kullanıcıları Stratejik Kullanıcılar Yrd. Doç. Dr. H. İbrahim CEBECİ Taktiksel Kullanıcılar Raporlama Kullanıcıları Veri Madencileri İşletme ve Teknoloji – Danışmanlık Desteği ve Öğretim Hizmeti Operasyonel Veri Deposu Kurum, Sistem ve Veritabanı Yönetimi Veri Dönüşümü Mantıksal Veri Modeli İşlem (Transaction) Verisi Üst Veri Ara Yazılımlar / Kurumsal Mesaj Yolu Operasyonel Kullanıcılar Fiziki VT Tasarımı Teradata Kurumsal Veri Tabanı Olay Temelli / Kapalı Çevrim Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 28/58 Veri Entegrasyonu ve ETL Süreci ETL = Extract Transform Load Çıkarım(Extraction): Bir veya daha fazla veri kaynağından verinin çıkarılması, alınmasıdır. İlk defa Veri Ambarı çalışması yapılıyorsa bir başlangıç çıkarımı mevcuttur. Eski sistemlerdeki tüm veriler tümüyle Veri Ambarına aktarılır. Sonra veriler güncellendikçe aktarma yapılır. Dönüşüm (Transformation): Çekilen verinin dönüştürülmesidir. Bu dönüştürmedeki amaç, verinin kalitesini arttırmaktır. Burada tekrarlar, eksiklikler, tutarsızlıklar giderilir, normalleştirme ve konsolidasyon yapılır. Yükleme (Loading): Veriyi fiziksel olarak Veri Ambarına yüklemektir. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 29/58 Veri Entegrasyonu ve ETL Süreci Veri Entegrasyonu: Üç temel alt süreci içerir Veri erişimi Veri birleştirme Veri Değişiminin Yakalanması (CDC) Kurumsal Uygulama Entegrasyonu (EAI) Farklı kaynak sistemlerden veri ambarına veri alan teknoloji Kurumsal Bilgi Entegrasyonu (EII) Yeni gelişen bir araç. Farklı veri kaynaklarından (İlişkisel, Çok boyutlu veya web vb.) sürekli ve gerçek zamanlı veri transferi teknolojisi. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 30/58 Veri Entegrasyonu ve ETL Süreci Geçici Veri Kaynağı Paket Yazılımlar Eski Sistem Veri Ambarı Çıkar Dönüştür Temizle Yükle Veri Marketi Diğer İç Uygulamalar Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 31/58 ETL Bir ETL aracını etkileyen temel faktörler Genellikle çok maliyetlidirler Öğrenme eğrileri çok uzundur Temel Seçme Kriterleri Okuyup, yazabileceği veri kaynağı ve mimarisi türleri Üst veriyi otomatik yakalayabilmesi Açık standartlara uygunluk geçmişi Hem geliştirici hem de son kullanıcı için kolay kullanılabilir arayüz imkanları Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 32/58 Veri Ambarı Geliştirme Veri ambarı geliştirme yaklaşımları Inmon Modeli (Yukarıdan-Aşağıya): Önce büyük veri ambarı tasarlanır. Bu yüzden kurum veri ambarı (EDW: Enterprise Datawarehouse) yaklaşımı da denir. Kimball Modeli (Aşağıdan-Yukarıya):Önce küçük veri marketleri tasarlanır, sonra bunlar veri ambarını oluşturur. Bu yüzden Veri marketi yaklaşımı da denir. Hedefi; mümkün olan en kısa zamanda çok boyutlu veri marketlerinin dağıtılmasıyla iş değerinin oluşturulmasıdır. Bu yaklaşım hem daha esnek hem de kullanıcı dostudur. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 33/58 Veri Ambarı Geliştirme Yaklaşımları Amaç Geliştirme zamanı Geliştirme maliyeti Geliştirme zorluğu Veri paylaşım ön koşulları Kaynaklar Boyut Zaman aralığı Yrd. Doç. Dr. H. İbrahim CEBECİ Kimball Modeli (Veri Marketi) Inmon Modeli (KVA) Bir konu alanı Aylar 10.000$-100.000$ arası Düşük - orta seviye İş alanı içi yaygın Çok konu alanı Yıllar 1.000.000$ ve üzeri Yüksek seviye Kurum boyunca Sadece bazı operasyonel ve dış sistemler Megabyte-Gigabyte Güncele yakın ve geçmiş veri Birçok operasyonel ve dış sistemler Gigabyte-petabyte Geçmiş veri Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 34/58 Veri Ambarı Geliştirme Yaklaşımları Kimball Modeli (Veri Marketi) Veri dönüştürme Güncel frekans Teknoloji donanımı Düşük-orta Saatlik, günlük, haftalık İş istasyonları ve bölüm sunucuları İşletme sistemi Windows ve Linux Veritabanları İş grupları veya standart veri tabanı sunucuları Eş zamanlı 10-100 arası kullanıcıların sayısı Kullanıcı tipleri İş analistleri ve yöneticiler Önemli iş odakları İş alanı içindeki aktivitelerin optimizasyonu Yrd. Doç. Dr. H. İbrahim CEBECİ Inmon Modeli (KVA) Yüksek Haftalık, aylık Kurum sunucuları ve ana bilgisayarlar Unix, Z/03, 03/390 Kurumsal veri tabanı sunucuları 100-1000 arası Kurum analistleri ve tepe yöneticiler Çapraz-fonksiyonel optimizasyon ve karar verme Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 35/58 Sunucu Veri Ambarları (CC-DW) Faydaları Minimum altyapı maliyetlerine gereksinim duyar Firma içi sistemlerin kapasite kısıtları esnetilmiş olur Para akışını serbestleştirir Çok güçlü çözümleri ekonomik kılar Daha kaliteli ekipman ve daha güçlü yazılımları kullanma ve öğrenme imkanı sunar Daha hızlı ve etkin çözümler sunar … Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 36/58 Veri Ambarlarında Veri Temsili Çok Boyutlu Veri Modeli Zaman Vancouver Satış Rakamları Ürün Eğlence Bilgisayar Telefon Güvenlik Ç1 605 825 14 400 Ç2 680 952 31 512 Ç3 812 1023 30 501 Ç4 927 1038 38 580 Satış Rakamları (Vancouver) Üç Boyutlu Tablo Satış Rakamları (Montreal) Ürün Eğlence Bilgisayar İki Boyutlu Tablo Ürün Telefon Güvenlik Eğlence Bilgisayar Telefon Güvenlik Ç1 605 825 14 400 703 888 17 327 Ç2 680 952 31 512 777 1025 19 389 Ç3 812 1023 30 501 827 1212 15 401 Ç4 927 1038 38 580 903 1301 18 456 Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 37/58 Çok Boyutlu Veri Modeli (Veri Küpü) Zaman Ankara 854 882 89 623 İstanbul 1087 968 38 872 İzmir 818 746 43 591 Bursa 854 882 89 623 Birinci Çeyrek 854 682 89 623 İkinci Çeyrek 814 982 69 523 Üçüncü Çeyrek 754 872 81 673 Dördüncü Çeyrek 894 552 59 62 Ürün Çeşidi Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 38/58 Çok Boyutlu Veri Modeli (Veri Küpü) Tedarikçi 2 Tedarikçi 1 Tedarikçi 3 Ankara İstanbul İzmir Bursa Zaman Birinci Çeyrek İkinci Çeyrek Üçüncü Çeyrek Dördüncü Çeyrek Ürün Çeşidi Yrd. Doç. Dr. H. İbrahim CEBECİ Ürün Çeşidi Ürün Çeşidi Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 39/58 Yıldız Şeması Bir gerçek (Fact) tablosu etrafında yer alan boyut (dimension) tabloları ile gösterilir. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 40/58 Kar Tanesi Şeması Yıldız şemasının bir genişletilmiş versiyonudur. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 41/58 Galaksi Şeması Sofistike uygulamalarda boyut tablolarını paylaşmak için birden çok gerçek tabloya gerek duyulabilir. Bu tür bir şema yıldızlar topluluğu şeması olarak görülür ve dolayısıyla bunun adına galaksi şeması veya gerçek takımyıldızı (fact constellation)denmiştir. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 42/58 Veri Ambarlarında Analiz OLTP vs. OLAP OLTP (online transaction processing) OLTP veri depolama sistemleri genelde ilişkisel verileri tutmak için dizayn edilmiştir. Günlük hayatta kullandığımız uygulamalarımızın veri tabanları çoğunlukla OLTP tarzı sistemlerdir. Firmalar için günlük bütün işlem kayıtları (ERP, CRM, POS vb.) ilişkisel tablolar halinde OLTP veri tabanlarında tutulur. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 43/58 Veri Ambarlarında Analiz OLTP vs. OLAP OLAP (Online analytical processing) Online analytical processing yani kısaca OLAP analitik işlemler için tasarlanmış, çok boyutlu ve özet bilgilerin tutulduğu veri tabanlarıdır. Örneğin bir firmanın yaptığı bütün satışlara ait detaylı bilgilerin yer aldığı sistemler OLTP, bu verilerin satış zamanı, yeri gibi özel boyutlar bazında gruplanarak özet olarak tutulduğu sistemler ise OLAP olarak adlandırılır. OLAP temelde OLTP sistemlerinden beslenerek organizasyonun tamamı hakkında çok hızlı bir şekilde bilgi sağlanması amacıyla oluşturulmuş yapılardır. OLAP sistemlerinin en önemli özelliği verilerin mutlaka zaman boyutu olmasıdır. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 44/58 Veri Ambarlarında Analiz OLTP vs. OLAP Statik rapor yığınlarını incelemek yerine, OLAP analisti iş sonuçlarını, interaktif olarak inceleyebilir, verinin görünümünü dinamik olarak ayarlayabilir, çok hızlı bir şekilde soru sorup cevap alabilir. OLAP kavramı, paylaşılan çok boyutlu bilginin hızlı analizi (FASMI) olarak da tanımlanır. Fast (Hızlı) Analysis (Analiz) Shared (Paylaşımlı) Multidimensional (Çok Boyutlu) Information (Bilgi) Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 45/58 Veri Ambarlarında Analiz OLTP vs. OLAP Bir OLAP küpü üzerinde şu işlemler yapılabilir: Dice(Çevir): Satış verisinin bölge-zaman yüzünü incelerken, ürün-zaman yüzüne geçebiliriz. Slice(Dilimle): Bütün aralığı değil de belirli bir aralığı seçebiliriz. Örnek son 1 yıla ait dilim.. Drill Down: Ayrıntı seviyesinde alta in. Örnek yıl bazından ay bazına geç. Drill Up: Ayrıntı seviyesinde yukarı çık. Örnek şehir bazından bölge bazına çık. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 46/58 Kriter Amaç Veri Ambarlarında Analiz OLTP vs. OLAP Veri kaynağı Raporlama Kaynak ihtiyaçları Uygulama hızı Kullanıcı ve sistem yönelimi Veri tabanı dizaynı OLTP Günlük iş fonksiyonlarını yerine getirmek İşlem veri tabanı (etkinlik ve tutarlılığa dayanan normalize edilmiş veri deposu) Rutin, periyodik, odaklanılmış raporlar Olağan ilişkisel veri tabanları Hızlı (işlem ve rutin raporlar kayıtları) Müşteri odaklıdır ve üzerindeki işlemler, sorgular it personeli, müşteriler, tezgahtarlar vs. tarafından yapılır. Varlık-ilişkili (entity-relational ER) veri modeli ile dizayn edilmiş, uygulama odaklı Yrd. Doç. Dr. H. İbrahim CEBECİ OLAP Karar vermeyi desteklemek ve iş ve yönetim sorgularını cevaplamak Veri ambarı veya özel veri tabanı (doğruluk ve tamlığa dayanan normalize edilmemiş veri deposu) Özel amaçlı, çok boyutlu, geniş odaklı sorgular ve raporlar Çok işlemcili, yüksek-kapasiteli, özel veri tabanları Yavaş (kaynak yoğun, karmaşık, yüksek-ölçekli sorgular) Konu odaklıdır ve karar vericiler, yöneticiler, analistler tarafından veri analizi için kullanılır. Genellikle Yıldız veya Kartanesi modeli ile dizayn edilmiş veri tabanı dizaynı kullanılır. Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 47/58 OLAP Türleri Çok boyutlu OLAP (MOLAP): Çok boyutlu OLAP, klasik OLAP formudur ve bazen sadece OLAP da denir. MOLAP küçük çaptaki veri setleri için uygundur çünkü hızlı hesaplar ve fazla yer kaplamaz. İlişkisel OLAP (ROLAP): ROLAP direkt olarak ilişkisel veri tabanlarıyla çalışır. Temel veri ve boyut tabloları, ilişkisel tablolar olarak depolanır ve yeni tablolar toplu bilgiyi tutmak için oluşturulur. ROLAP daha ölçeklenebilirdir, fakat yüksek hacimli işlemlerin etkili kurulumu zordur, bu yüzden sıkça göz ardı edilir. Hibrid OLAP (HOLAP): Endüstride açık bir tanımı olmamakla birlikte, veriyi ilişkisel ve özel depo olarak bölen OLAP tipidir denilebilir. Örneğin bir HOLAP veri tabanı, yüksek miktarda detaylı veri için ilişkisel tablolarını, daha detaysız ve düşük miktarda veri için özel depoları kullanabilir. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 48/58 Başarılı bir VA Uygulaması Nasıl olur? Başarılı bir kaçınılmalıdır. VA uygulaması için aşağıdakilerden Yanlış sponsorluk zinciri ile başlamak Finansal desteğe sahip bir yönetici Diğer yöneticilerin saygısını kazanmış IT proje yöneticisi Karşılanamayacak beklentiler oluşturmak Daha politik ve kabul edilebilir yaklaşım VA sayesinde artık daha iyi kararlar alacaksınız (Daha önce almıyorlar mıydı???) Sadece ulaşılabilir olduğundan her türlü veriyi tutmak Aşırı yükleme = Düşük Etkinlik Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 49/58 Başarılı bir VA Uygulaması Nasıl olur? Veri ambarı tasarımı ile klasik veri tabanı yönetim sistemi tasarımlarının aynı veya çok benzer olduğuna inanmak Veri ambarı yöneticisini teknoloji yönelimli seçerek, kullanıcı gereksinimlerini anlayamamak Klasik veri tiplerine odaklanıp, harici veri kaynaklarından gelen metin, medya, web verilerini göz ardı etmek Veri ambarı kurulumu ile bütün sorunların ortadan kalktığına inanmak VA ve İZ konuları sürekli gelişmekte, değişime ayak uydurmak şart !!! Konu ve kişi odaklı raporlara odaklanarak sistemlerinin avantajlarını göz ardı etmek Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir uyarı 50/58 Büyük Veri Ambarları ve Ölçeklenebilirlik Ölçeklenebilirlik (Bir sistemin artan kapasite kullanımıyla, performanstan feragat etmeden, baş edebileceğini ifade eden terim) Ölçeklenebilirlik ile ilgili temel konular Veri ambarlarındaki verinin çokluğu Veri ambarının ne kadar çabuk büyüyeceği (büyüme hızı) Eş zamanlı kullanıcı sayısı Kullanıcı sorgularının karmaşıklığı İyi ölçeklenebilirlik, sorguların ve diğer veri erişim işlemlerinin veri ambarı boyutu ile doğrusal olarak büyümesidir. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 51/58 Gerçek Zamanlı (Aktif) VA/IZ Gerçek zamanlı veri analizi ve karar verme süreci için gerçek zamanlı veri güncelleyebilen veri ambarlarıdır İtme (Yazılım gönderimli) vs. Çekme (Kullanıcı istekli) Veri toplamada gecikmeler (Klasik VA) Analiz sürecindeki gecikmeler (Gerçek Zamanlı VA) Aksiyona geçme sürecindeki gecikmeler (Yeni nesil Gerçek Zamanlı VA) Gerçek Zamanlı Veri Ambarları ile ilgili bazı problemler Bütün veriler sürekli güncellemeye uygun değildir Dakikalar içinde alınan raporların çelişkili olması ihtimali Çok yüksek maliyetler Uygulaması mümkün olmayabilir (Ölçekleme problemleri) Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 52/58 Gerçek Zamanlı (Aktif) VA/IZ Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 53/58 Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 54/58 Geleneksel VA vs. Gerçek Zamanlı VA Geleneksel Veri Ambarları Ortamı Gerçek Zamanlı Veri Ambarları Ortamı Sadece stratejik kararlar Stratejik ve taktiksel kararlar Bazen sonuçların ölçülmesi zor olabiliyor Sonuçlar operasyonlar sayesinde ölçülebiliyor Günlük, haftalık hatta aylık veri edinme Dakika bazlı (hatta saniye) veri edinme Kabul edilebilir sayıda eş zamanlı kullanım Yüksek sayıda eş zamanlı kullanım Daha statik, hazır rapor kullanımı Anlık, konu veya kişi odaklı rapor hazırlama Güçlü kullanıcılar, bilgi çalışanları, iç kullanım Operasyonel çalışanlar, çağrı merkezleri, dış kullanıcılar Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 55/58 VA Yönetimi ve Güvenlik Veri Ambarı Yöneticisinden beklenen özellikler Yüksek performanslı yazılım, donanım ve ağ teknolojilerine aşina olması Gerekli işletme bilgisine ve öngörüsüne sahip olması Veri ambarı mimarisi ve tasarımı hakkında bilgi sahibi olması Karar destek süreçlerine aşina olması Yüksek iletişim yeteneklerine sahip olması Güvenlik ve mahremiyet en önemli konular Emniyet en önemli varlık Yasal düzenlemeler Şeffaf planlama ve uygulama Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 56/58 Kaynaklar Veri Ambarlarının Geleceği Web, Sosyal medya ve büyük veri Açık kaynak kodlu yazılımlar SaaS Bulut bilişim Altyapı Dikey Veri tabanı (Kayıtlar satır yerine sütunlarda) Gerçek Zamanlı VA Veri ambarı cihazları Veri yönetimi teknolojileri In-Database / In-Memory İleri analitik Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 57/58 Ücretsiz VA Portalı www.TeradataStudentNetwork.com Şifreyi hocanızdan talep edebilirsiniz!!! Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 58/58