Ayhan Önder, BigData CTP 21.10.2013 BÜYÜK VERİ © 2013 IBM Corporation Information Management Big Data / Büyük Veri Nedir ? Daha önce analizi mümkün olmayan muazam büyüklük ve/veya çeşitlilik ve/veya akışkanlıktaki veriler üzerinden bilgiye erişim. © 2013 IBM Corporation Information Management Big Data yeni yetkinlikler gerektiriyor… Federe veri kaynakları üzerinde arama ve keşif Federated Discovery and Navigation Her çeşit büyük veriyi saklama ve yönetme Hadoop File System MapReduce Yapısal verilerin hızlı analizi, kitlesel paralel işlem Data Warehousing Akışkan verilerin yönetimi Stream Computing Yapısal olmayan verilerin analizi Text Analytics Engine Veri kaynaklarının entegrasyonu ve sahipliği Integration, Data Quality, Security, Lifecycle Management, MDM © 2013 IBM Corporation Information Management Yükselen Teknolojilerin Hayat Döngüsü 4 © 2013 IBM Corporation Information Management Yükselen Teknolojilerin Hayat Döngüsü 5 © 2013 IBM Corporation Information Management Big Data yeni yetkinlikler gerektiriyor… Federe veri kaynakları üzerinde arama ve keşif Federated Discovery and Navigation Her çeşit büyük veriyi saklama ve yönetme Hadoop File System MapReduce Yapısal verilerin hızlı analizi, kitlesel paralel işlem Data Warehousing Akışkan verilerin yönetimi Stream Computing Yapısal olmayan verilerin analizi Text Analytics Engine Veri kaynaklarının entegrasyonu ve sahipliği Integration, Data Quality, Security, Lifecycle Management, MDM © 2013 IBM Corporation Information Management Hadoop Nedir? Storage • Dağıtık • Güvenilir • Düşük Maliyetli Ölçeklenebilir • Yeni nodelar canlı sisteme eklenebilir Düşük Maliyetli • MPP mimariyi standart sunucular ile sağlayabiliyor Esnek MapReduce • Paralel Programla • Hata Toleranslı • Hadoop şema gerektirmez, her türlü veriyi kullanabilirsiniz Hata Toleranslı • MapReduce paradigması sayesinde © 2013 IBM Corporation Information Management Hadoop hangi Big Data problemleri için düşünülebilir ? Büyük Hacimli Verilerin Analizi ve Saklanması Farklı tipteki verilerin bileşiminden elde edilebilecek yeni bilgiler Veri Hacmi Nedeniyle Pahalı Kalan Mevcut Teknolojilerin Bütünlenmesi Veri Kaynaklarının Keşfi © 2013 IBM Corporation Information Management Endüstideki ilk Hadoop Sistemleri Değerlendirmesi “IBM has the deepest Hadoop platform and application portfolio. IBM, an established EDW vendor, has its own Hadoop distribution; an extensive professional services force working on Hadoop projects; extensive R&D programs developing Hadoop technologies; connections to Hadoop from its EDW.” –The Forrester Wave™: Enterprise Hadoop Solutions, 1Q12 © 2013 IBM Corporation Vestas optimizes capital investments based on 2.5 Petabytes of information Information Management Need • Model the weather to optimize placement of turbines, maximizing power generation and longevity Benefits • Reduce time required to identify placement of turbine from weeks to hours • Reduces IT footprint and costs, and decreases energy consumption by 40 % -while increasing computational power • Incorporate 2.5 PB of structured and semistructured information flows. Data volume expected to grow to 6 PB 10 © 2013 IBM Corporation Home Information Management IBM Araştırma Geliştirme Faaliyetleri… 11 © 2013 IBM Corporation Information Management 14 Şubat 2011, IBM Watson yeni bir sayfa açtı… © 2013 IBM Corporation Information Management IBM Watson yeni bir çağın öncülerinden. . . System Intelligence Cognitive Programmatic Tabulation Punch cards Time card readers 1900 1 Search Deterministic Enterprise data Machine language Simple outputs 1950 © 2013 IBM Corporation Discovery Probabilistic Big Data Natural language Intelligent options 1 2011 Information Management 2 1 Doğal dili ve konuşmayı anlama Doğru çıktılar için onbinlerce doküman içerisinden hipotez oluşturumu ve değerlendirmesi 99% 60% 10% 3 Kullanıcı seçimleri ve sonuç başarısına göre adapte olan ve öğrenen bir yapı © 2013 IBM Corporation Information Management Örneğin Sağlık Sektöründe… Watson bakım maliyetini azaltırken kanıta dayalı kişiselleştirilmiş tıp ile olası tedavi sonuçlarını pozitif etkileyebilir © 2013 IBM Corporation Information Management Big Data yeni yetkinlikler gerektiriyor… Federe veri kaynakları üzerinde arama ve keşif Federated Discovery and Navigation Her çeşit büyük veriyi saklama ve yönetme Hadoop File System MapReduce Yapısal verilerin hızlı analizi, kitlesel paralel işlem Data Warehousing Akışkan verilerin yönetimi Stream Computing Yapısal olmayan verilerin analizi Text Analytics Engine Veri kaynaklarının entegrasyonu ve sahipliği Integration, Data Quality, Security, Lifecycle Management, MDM © 2013 IBM Corporation Information Management Akan Verilerin İşlenmesi – Yeni bir Paradigma Geleneksel Veri İşleme Akan Veri İşleme Tarihsel verilerin analizi Anlık gerçeklerin işlenmesi Disk üzerindeki verilerin taranması ve analizi Hareket halindeki verinin, diske yazılmadan analizi Gecikmeli Düşek geçikme, anında aksiyon Sorgu tetiklemeli, statik görüntünün analizi Veri tetiklemeii – verinin analitik süreçlerden geçmesi Real-time Analytics 17 17 © 2013 IBM Corporation Information Management InfoSphere Streams – Akan Veri Analizi Akustik Analiz Mikrosaniyeler Mertebesinde Veri Madenciliği Metin (listen, verb), (radio, noun) İleri Düzey Matematiksel Modeller Basit & Gelişkin Metin Analitiği İstatistiksel R( st , at ) Fonksiyonlar Tahminleme population Coğrafi Analizler 18 © 2013 IBM Corporation İmaj & Video İşleme Information Management Dublin City Centre; Robust and efficient citywide traffic awareness system, enhance rapid action on incidents Need • A budget effective solution to improve traffic awareness system. • To bring accuracy in event detection, inferring traffic condition (road speed) and prediction of bus arrival. • Challenge is to rightly analyze GPS data, which is typically high data throughput and difficult to capture Benefits 19 © 2013 IBM Corporation • Monitor 600 buses across 150 routes daily • Analyzes 50 bus location updates per second , using InfoSphere Streams • Collects, processes, and visualizes location data of all public transportation vehicles Home UCLA relies on breakthrough technology to provide proactive care for patients with traumatic brain injuries Information Management Need • Integrate patient data from thousands of data points in real-time and apply predictive analytics to identify life threatening changes in a patient's condition Benefits • Captures and analyzes streaming physiological data from ICU bedside monitors in real time to alert clinicians and help prevent brain damage • Allows medical staff to take immediate action to keep patients safe from rising brain pressure and a help prevent a higher risk health scenario • Predicts critical changes in the patient conditions, allowing for life-saving medical responses 20 © 2013 IBM Corporation Home Information Management Big Data yeni yetkinlikler gerektiriyor… Federe veri kaynakları üzerinde arama ve keşif Federated Discovery and Navigation Her çeşit büyük veriyi saklama ve yönetme Hadoop File System MapReduce Yapısal verilerin hızlı analizi, kitlesel paralel işlem Data Warehousing Akışkan verilerin yönetimi Stream Computing Yapısal olmayan verilerin analizi Text Analytics Engine Veri kaynaklarının entegrasyonu ve sahipliği Integration, Data Quality, Security, Lifecycle Management, MDM © 2013 IBM Corporation Information Management Data Explorer Custom Application Custom Application User Profiles Text Analytics Thesauri Clustering Ontology Support Semantic Processing Entity Extraction Relevancy Custom Application Application Workbench Federated Sources Authentication/Authorization Query transformation Personalization Display SubscriptionsFeeds Index Platform Meta-Data Faceting BI Tagging Taxonomy Collaboration Connector Framework CM, RM, DM RDBMS Feeds Web 2.0 Email © 2013 IBM Corporation Web CRM, ERP File Systems Web Results Information Management Indexing >> Searching >> Clustering Documents Documents Documents Documents Documents Documents Documents Documents Query Processing and Modification Index List of relevant documents Clustering Tokenization Segmentation Stemming © 2013 IBM Corporation Birden fazla Kaynağı arama Information Management Dinamik Kategorizasyon Yapısal ve Yapısal olmayan verilerin kullanımı Arama ile yüksek Ilişkili sonuçlar Doküman niteleme ve birlikte çalışma Yapısal Bilgiler Üzerinden filtreleme © 2013 IBM Corporation © 2013 IBM Corporation US Pharmaceutical leader provides transparent access to enterprise information for 30,000 employees worldwide Information Management Need • Executives wanted to transform information and data sharing capabilities by providing access to huge volumes of customer, patient, and research data stored in systems around the world Link to the case study http://public.dhe.ibm.co m/common/ssi/ecm/en/i mc14800usen/IMC1480 0USEN.PDF Benefits • Improved R&D efficiency by 90 percent and reduced search time by 50 percent, saving millions of dollars in the first year alone • Reduced new staffing requirements by 1.2 percent, saving USD13.4 million yearly • Improved sales productivity to increase revenue by 1.4 percent 25 © 2013 IBM Corporation Home Information Management Nasıl başlayabilirsiniz ? Cloud / Bulut Bilişim Sistemleri – RightScale, ya da Amazon, Rackspace, IBM Smart Enterprise Cloud, ya da özel bulut sistemleri üzerinde – Sadece kullandığınız kaynak kadar ödersiniz Sanal Sınıf – Ücretsiz eğitim : www.bigdatauniversity.com Kendi Sunucularınızda – Basic Edition’ı ücretsiz indirebilirisiniz – Quick Start Edition’ı ücretsiz indirebilirsiniz – VMWare ortamında hızlı başlangıç Sınıf içi Eğitimler © 2013 IBM Corporation