Büyük Veri

advertisement
Ayhan Önder, BigData CTP
21.10.2013
BÜYÜK VERİ
© 2013 IBM Corporation
Information Management
Big Data / Büyük Veri Nedir ?
Daha önce analizi mümkün olmayan muazam büyüklük ve/veya çeşitlilik
ve/veya akışkanlıktaki veriler üzerinden bilgiye erişim.
© 2013 IBM Corporation
Information Management
Big Data yeni yetkinlikler gerektiriyor…
Federe veri kaynakları
üzerinde arama ve keşif
Federated Discovery and Navigation
Her çeşit büyük veriyi
saklama ve yönetme
Hadoop File System
MapReduce
Yapısal verilerin hızlı
analizi, kitlesel paralel işlem
Data Warehousing
Akışkan verilerin yönetimi
Stream Computing
Yapısal olmayan verilerin
analizi
Text Analytics Engine
Veri kaynaklarının
entegrasyonu ve sahipliği
Integration, Data Quality, Security,
Lifecycle Management, MDM
© 2013 IBM Corporation
Information Management
Yükselen Teknolojilerin Hayat Döngüsü
4
© 2013 IBM Corporation
Information Management
Yükselen Teknolojilerin Hayat Döngüsü
5
© 2013 IBM Corporation
Information Management
Big Data yeni yetkinlikler gerektiriyor…
Federe veri kaynakları
üzerinde arama ve keşif
Federated Discovery and Navigation
Her çeşit büyük veriyi
saklama ve yönetme
Hadoop File System
MapReduce
Yapısal verilerin hızlı
analizi, kitlesel paralel işlem
Data Warehousing
Akışkan verilerin yönetimi
Stream Computing
Yapısal olmayan verilerin
analizi
Text Analytics Engine
Veri kaynaklarının
entegrasyonu ve sahipliği
Integration, Data Quality, Security,
Lifecycle Management, MDM
© 2013 IBM Corporation
Information Management
Hadoop Nedir?
Storage
• Dağıtık
• Güvenilir
• Düşük Maliyetli
Ölçeklenebilir
• Yeni nodelar canlı sisteme eklenebilir
Düşük Maliyetli
• MPP mimariyi standart sunucular ile
sağlayabiliyor
Esnek
MapReduce
• Paralel Programla
• Hata Toleranslı
• Hadoop şema gerektirmez, her türlü
veriyi kullanabilirsiniz
Hata Toleranslı
• MapReduce paradigması sayesinde
© 2013 IBM Corporation
Information Management
Hadoop hangi Big Data problemleri için düşünülebilir ?
Büyük Hacimli Verilerin Analizi
ve Saklanması
Farklı tipteki verilerin bileşiminden
elde edilebilecek yeni bilgiler
Veri Hacmi Nedeniyle Pahalı Kalan
Mevcut Teknolojilerin Bütünlenmesi
Veri Kaynaklarının Keşfi
© 2013 IBM Corporation
Information Management
Endüstideki ilk Hadoop Sistemleri Değerlendirmesi
“IBM has the deepest
Hadoop platform and
application portfolio. IBM,
an established EDW vendor,
has its own Hadoop
distribution; an extensive
professional services force
working on Hadoop projects;
extensive R&D programs
developing Hadoop
technologies; connections to
Hadoop from its EDW.”
–The Forrester Wave™: Enterprise
Hadoop Solutions, 1Q12
© 2013 IBM Corporation
Vestas optimizes capital
investments based on 2.5
Petabytes of information
Information Management
Need
• Model the weather to optimize placement of
turbines, maximizing power generation and
longevity
Benefits
• Reduce time required to identify placement
of turbine from weeks to hours
• Reduces IT footprint and costs, and
decreases energy consumption by 40 % -while increasing computational power
• Incorporate 2.5 PB of structured and semistructured information flows. Data volume
expected to grow to 6 PB
10
© 2013 IBM Corporation
Home
Information Management
IBM Araştırma Geliştirme Faaliyetleri…
11
© 2013 IBM Corporation
Information Management
14 Şubat 2011, IBM Watson yeni bir sayfa açtı…
© 2013 IBM Corporation
Information Management
IBM Watson yeni bir çağın öncülerinden. . .
System
Intelligence
Cognitive
Programmatic
Tabulation
Punch cards
Time card readers
1900
1
Search
Deterministic
Enterprise data
Machine language
Simple outputs
1950
© 2013 IBM Corporation
Discovery
Probabilistic
Big Data
Natural language
Intelligent options
1
2011
Information Management
2
1 Doğal dili ve
konuşmayı
anlama
Doğru çıktılar için
onbinlerce doküman
içerisinden hipotez
oluşturumu ve
değerlendirmesi
99%
60%
10%
3
Kullanıcı seçimleri
ve sonuç
başarısına göre
adapte olan ve
öğrenen bir yapı
© 2013 IBM Corporation
Information Management
Örneğin Sağlık Sektöründe…
Watson bakım
maliyetini azaltırken
kanıta dayalı
kişiselleştirilmiş tıp ile
olası tedavi
sonuçlarını pozitif
etkileyebilir
© 2013 IBM Corporation
Information Management
Big Data yeni yetkinlikler gerektiriyor…
Federe veri kaynakları
üzerinde arama ve keşif
Federated Discovery and Navigation
Her çeşit büyük veriyi
saklama ve yönetme
Hadoop File System
MapReduce
Yapısal verilerin hızlı
analizi, kitlesel paralel işlem
Data Warehousing
Akışkan verilerin yönetimi
Stream Computing
Yapısal olmayan verilerin
analizi
Text Analytics Engine
Veri kaynaklarının
entegrasyonu ve sahipliği
Integration, Data Quality, Security,
Lifecycle Management, MDM
© 2013 IBM Corporation
Information Management
Akan Verilerin İşlenmesi – Yeni bir Paradigma
Geleneksel Veri İşleme
Akan Veri İşleme
Tarihsel verilerin analizi
Anlık gerçeklerin işlenmesi
Disk üzerindeki verilerin taranması ve analizi
Hareket halindeki verinin, diske yazılmadan analizi
Gecikmeli
Düşek geçikme, anında aksiyon
Sorgu tetiklemeli, statik görüntünün analizi
Veri tetiklemeii – verinin analitik süreçlerden geçmesi
Real-time
Analytics
17
17
© 2013 IBM Corporation
Information Management
InfoSphere Streams – Akan Veri Analizi
Akustik Analiz
Mikrosaniyeler Mertebesinde
Veri Madenciliği
Metin
(listen, verb),
(radio, noun)
İleri Düzey
Matematiksel
Modeller
Basit & Gelişkin Metin
Analitiği
İstatistiksel
R( st , at ) Fonksiyonlar
Tahminleme
population
Coğrafi
Analizler
18
© 2013 IBM Corporation
İmaj & Video
İşleme
Information Management
Dublin City Centre; Robust
and efficient citywide traffic
awareness system, enhance
rapid action on incidents
Need
•
A budget effective solution to improve traffic
awareness system.
•
To bring accuracy in event detection,
inferring traffic condition (road speed) and
prediction of bus arrival.
•
Challenge is to rightly analyze GPS data,
which is typically high data throughput and
difficult to capture
Benefits
19
© 2013 IBM Corporation
•
Monitor 600 buses across 150 routes daily
•
Analyzes 50 bus location updates per
second , using InfoSphere Streams
•
Collects, processes, and visualizes location
data of all public transportation vehicles
Home
UCLA relies on breakthrough
technology to provide
proactive care for patients
with traumatic brain injuries
Information Management
Need
• Integrate patient data from thousands of data
points in real-time and apply predictive
analytics to identify life threatening changes in
a patient's condition
Benefits
• Captures and analyzes streaming physiological
data from ICU bedside monitors in real time to
alert clinicians and help prevent brain damage
• Allows medical staff to take immediate action to
keep patients safe from rising brain pressure
and a help prevent a higher risk health scenario
• Predicts critical changes in the patient
conditions, allowing for life-saving medical
responses
20
© 2013 IBM Corporation
Home
Information Management
Big Data yeni yetkinlikler gerektiriyor…
Federe veri kaynakları
üzerinde arama ve keşif
Federated Discovery and Navigation
Her çeşit büyük veriyi
saklama ve yönetme
Hadoop File System
MapReduce
Yapısal verilerin hızlı
analizi, kitlesel paralel işlem
Data Warehousing
Akışkan verilerin yönetimi
Stream Computing
Yapısal olmayan verilerin
analizi
Text Analytics Engine
Veri kaynaklarının
entegrasyonu ve sahipliği
Integration, Data Quality, Security,
Lifecycle Management, MDM
© 2013 IBM Corporation
Information Management
Data Explorer
Custom
Application
Custom
Application
User Profiles
Text Analytics
Thesauri
Clustering
Ontology Support
Semantic Processing
Entity Extraction
Relevancy
Custom
Application
Application Workbench
Federated Sources
Authentication/Authorization
Query transformation
Personalization
Display
SubscriptionsFeeds
Index Platform
Meta-Data
Faceting
BI
Tagging
Taxonomy
Collaboration
Connector
Framework
CM, RM, DM
RDBMS
Feeds
Web 2.0
Email
© 2013 IBM Corporation
Web
CRM, ERP
File Systems
Web Results
Information Management
Indexing >> Searching >> Clustering
Documents
Documents
Documents
Documents
Documents
Documents
Documents
Documents
Query Processing
and Modification
Index
List of relevant
documents
Clustering
Tokenization
Segmentation
Stemming
© 2013 IBM Corporation
Birden fazla
Kaynağı
arama
Information Management
Dinamik
Kategorizasyon
Yapısal ve Yapısal
olmayan verilerin
kullanımı
Arama ile yüksek
Ilişkili
sonuçlar
Doküman niteleme ve
birlikte çalışma
Yapısal Bilgiler
Üzerinden
filtreleme
© 2013 IBM Corporation
© 2013 IBM Corporation
US Pharmaceutical leader
provides transparent access
to enterprise information for
30,000 employees worldwide
Information Management
Need
• Executives wanted to transform information and
data sharing capabilities by providing access to
huge volumes of customer, patient, and research
data stored in systems around the world
Link to the case study
http://public.dhe.ibm.co
m/common/ssi/ecm/en/i
mc14800usen/IMC1480
0USEN.PDF
Benefits
• Improved R&D efficiency by 90 percent and
reduced search time by 50 percent, saving
millions of dollars in the first year alone
• Reduced new staffing requirements by 1.2
percent, saving USD13.4 million yearly
• Improved sales productivity to increase revenue
by 1.4 percent
25
© 2013 IBM Corporation
Home
Information Management
Nasıl başlayabilirsiniz ?
 Cloud / Bulut Bilişim Sistemleri
– RightScale, ya da Amazon, Rackspace, IBM Smart Enterprise Cloud, ya da
özel bulut sistemleri üzerinde
– Sadece kullandığınız kaynak kadar ödersiniz
 Sanal Sınıf
– Ücretsiz eğitim : www.bigdatauniversity.com
 Kendi Sunucularınızda
– Basic Edition’ı ücretsiz indirebilirisiniz
– Quick Start Edition’ı ücretsiz indirebilirsiniz
– VMWare ortamında hızlı başlangıç
 Sınıf içi Eğitimler
© 2013 IBM Corporation
Download