Slide 1 - Sabancı Üniversitesi Çalışanlarına ait Kişisel Web Sayfaları

advertisement
Veri Analitiği
Uygulama ve Araştırma Merkezi
Açılış Etkinliği
20 Haziran 2016
Sakıp Sabancı Müzesi, İstanbul
Ajanda
Açılış
Veri Analitiği Yüksek Lisans Programı – H. S. Ölmez
Veri Uygulama ve Araştırma Merkezi – B. Yanıkoğlu
Proje: Büyük Veri Optimizasyonu – İ. Birbil
Proje: Deneysel Görselleştirme – S. Balcısoy
Akan Veri Problemleri – K. Kaya
Tanışma
Veri Analitiği Uygulama ve Araştırma ve Merkezi
Center of Excellence in Data Analytics
VA Yüksek Lisans Programı
Veri Analitiği
Yüksek Lisans Programı
H. Sait Ölmez
Büyük Veri ve Yetenek Havuzu
2018’e kadar ABD’de 140,000 ile
190,000 arasında iş gücü açığı olacak
Veri Analitiği Uygulama ve Araştırma ve Merkezi
2011-2012 arasında “data scientist”
iş ilanlarındaki artış %15,000
Center of Excellence in Data Analytics
Veri Analitiği Yüksek Lisans Programı
da.sabanciuniv.edu
Veri Analitiği Uygulama ve Araştırma ve Merkezi
Center of Excellence in Data Analytics
Program Misyonu
Veri Analitiği Uygulama ve Araştırma ve Merkezi
İLERİ
Geleneksel
Yüksek
Lisans
MSc VA
UYGULAMALI
Doktora
TEORİK
Katılımcıların eğitim sonunda
• Tahmini Analitik (uygulamalı
istatistik, veri madenciliği ve
makine öğrenmesi), Veri
görselleştirme ve Optimizasyon
gibi kritik alanlarda bilgi ve beceri
sahibi olması,
• Bu birikim ile veriyi anlamak,
işlemek ve modellemek suretiyle
veriden katma değer yaratabilmesi
hedeflenmektedir.
Lisans
TEMEL
Center of Excellence in Data Analytics
Ders Programı
Güz
Bahar
Yaz
Ekim—Şubat
Şubat—Mayıs
Mayıs—Ağustos
Introduction to
Data Analytics
Applied Statistics
Machine Learning
Big Data Processing
using Hadoop
Data Mining
Practical Case Studies
in Data Analytics
Information Law
and Data Ethics
Introduction to
Data Modeling
and Proccessing
Social Network Analysis
Project Management
& Business Comm.
Modeling and
Optimization
Exploratory Data
Analysis & Visualization
Term Project
(non-credit)
Data Privacy & Security
Veri Analitiği Uygulama ve Araştırma ve Merkezi
Center of Excellence in Data Analytics
Başvuru ve Kayıtlar
> 120 ?
Toplam başvuru
Erken başvuru
71
35
34
63
kontenjan
16
2014-2015
Veri Analitiği Uygulama ve Araştırma ve Merkezi
2015-2016
2016-2017
Center of Excellence in Data Analytics
2014-2016 Öğrenci Profili
2014-2016
(2 akademik yıl)
Toplam
kayıt
Ortalama yaş
(aralık)
52
30.5 (21-44)
5
4
Veri Analitiği Uygulama ve Araştırma ve Merkezi
14
7
5
8
Öğrenci Sayısı
Öğrenci Sayısı
Endüstri Müh.
Bilgisayar Müh.
Elektrik Müh.
Diğer Müh.
7
Ortalama iş
deneyimi
18 / 34
7 yıl
Çalıştıkları sektörler
Lisans Dereceleri
34
Cinsiyet
oranı (K/E)
22
Sigortacılık, Enerji, Turizm
E-ticaret, Otomotiv, Gıda
İnşaat, Ulaşım, Medya,
Savunma, Danışmanlık
15
8
2
7
Center of Excellence in Data Analytics
Veri Analitiği
Uygulama ve Araştırma Merkezi
(VERIM)
Center of Excellence in
Data Analytics (CEDA)
http://ceda.sabanciuniv.edu
Berrin Yanıkoğlu
Merkezin Kuruluşu, Misyon, Vizyon
• Sabancı Üniversitesi Mühendislik ve Doğa Bilimleri Fakültesinden
üç programdan (Bilgisayar Bilimi ve Mühendisliği, Endüstri
Mühendisliği ve Bilişim Teknolojileri) öğretim üyelerinin biraraya
gelerek oluşturduğu Merkez, Aralık 2015’te YÖK tarafından
onaylandı.
Vizyon: Veri odaklı yaklaşımları geliştirmek, yaygınlaştırmak ve toplumsal
refaha katkı sağlamak.
Misyon: Veri Analitiği konusuna odaklı ve çok-disiplinli bir araştırma
anlayışıyla bu alanda öncülük eden uzman bir araştırma merkezi olmak;
mevcut bilgi ve birikimi endüstriye, akademik kurumlara ve diğer ilgili
paydaşlara aktarmak; endüstri ve kamu ile birlikte çalışarak kurumların
veriden bilgi üretmelerine ve iş değeri yaratmalarına yardımcı olmak.
Merkezin Amacı
• Bilimsel Çalışmalar: Veri analitiği konusunda bilimsel çalışmaların
bir çatı altında birleştirilmesi, ortak ve interdisipliner çalışmaların
artırılması;
• Endüstri İşbirliği: Veri analitiği konusunda firmalarla yapılacak
ortak projelerle ve DA programı ile gelişen sinerji ile, endüstrinin
ihtiyaçlarına daha verimli şekilde çözüm bulabilmek;
• Eğitim ve Çalıştaylar: Veri işleme, veri analitiği, büyük veri ile iş
uygulamaları ve iş analitiği konularında teknik personel ve
yönetici seviyelerinde eğitim programları ve çalıştaylar
düzenlemek ve sunmak.
• Rapor ve Değerlendirmeler: Yeni gelişmeler, güncel teknik analiz
ve modelleme yöntemleri, uygulama alanları, gelecekle ilgili
tahminler ve Türkiye ile ilgili mevcut sektörel durum, sorunlar ve
beklentileri dönemsel raporlar halinde endüstriye ve diğer
paydaşlara sunmak;
Biz Kimiz
Temel Araştırma Alanları
• Bulut Bilişim ve Yüksek Başarımlı Hesaplama
– Kamer Kaya, Ahmet Demirelli, H. Sait Ölmez
•
•
•
•
Makine Öğrenmesi – Berrin Yanıkoğlu, Kemal Kılıç
Veri Madenciliği – Yücel Saygın, Kemal Kılıç
Yapay Zeka – Esra Erdem
İstatistik – Sinan Yıldırım
• Optimizasyon ve Karar Verme
– İlker Birbil, Kerem Bülbül, Nilay Noyan, Güvenç Şahin
• Veri Görselleştirme – Selim Balcısoy
• Veri Mahremiyeti ve Güvenliği – Yücel Saygın, Albert Levi
• Bulut Bilişim
– Büyük verinin yüksek boyut, hız ve çeşitlilik özellikleri,
bulut bilişim ve Hadoop, Spark ... gibi açık kaynak kütüphanelerini,
hızlı ve güvenilir veri yönetimi ve analizi için sık kullanılan araçlar haline
getirmiştir.
Merkez’de bu alanda:
•
•
•
•
paralel ve dağıtık hesaplama,
yenilikçi ve özelleşmiş iş akışı yöntemlerinin geliştirilmesi,
bulut kullanım masraflarının performansı düşürmeden azaltılması,
paylaşılan verinin güvenliğinin ve mahremiyetinin sağlanması,
üzerine çalışmalar yapılmaktadır.
• Yüksek Başarımlı Hesaplama
– Büyük işlem miktarı gerektiren hesaplamalar ve özellikle işlem
zamanının hayati öneme sahip olduğu uygulamalar için eldeki
donanımın en verimli şekilde kullanılmasını amaçlar.
– Bilgisayar kümeleri ve haberleşme ağlarının, çok çekirdekli işlemci
mimarilerinin ve grafik işlemci üniteleri gibi ek hızlandırıcıların
yapılarının sürekli değişmesi ve bu donanımlar sayesinde gelen
performans artışları, bu tür donanımlar üzerinde çalıştırılacak yenilikçi
paralel yöntemlerin geliştirilmesini gerekli kılmaktadır.
– 2015-2017, TÜBİTAK 2232 Projesi (No: 115C018): "Yüksek Başarımlı
Büyük ve Akan Veri Analizi", K. Kaya.
• İstatistik, Makine
Öğrenmesi, Veri
Madenciliği, Yapay Zeka
– Makine öğrenmesi, geçmiş veriler
kullanarak bir durumun
modellenmesini ve bu sayede
kestirme yapabilmeyi amaçlar.
– Veri madenciliği büyük miktarlarda
toplanan ham verinin değerli bilgiye
dönüştürülmesini amaçlar.
– Yapay zeka bilgi gösterimi, mantıksal
çıkarım, öğrenme gibi alt alanlardaki
gelişmelerle, robot programlarının
bilişsel becerisini artırmayı amaçlar.
– İstatistiksel yöntemler, rassal
süreçlerin ürettiği verinin
çözümlenmesini mümkün kılar.
• Optimizasyon ve Karar
Verme
– Optimizasyon bir karar verme
problemi için eniyi kararların
belirlenmesine ilişkin sistematik
yöntemleri içerir.
– Problem için anlamlı performans
kriterlerinin ve kısıtların
matematiksel olarak ifade edilerek
formülasyonlarının geliştiril-mesi,
optimizasyonun temelini oluşturur.
– 2012-2015 TÜBİTAK Kariyer Projesi (No:
111M543): “Afet Sonrası Müdahale Ağı
Tasarımı Problemi için Rassal
Programlama Modelleri”, N. Noyan.
• Veri Görselleştirme
– Veri görselleştirmelerinin amacı; görme duyusunu
uyararak, insanlara karmaşık veriler hakkında
anlam çıkarmada yardım etmektir.
– Konumsal Artırılmış Gerçeklilik ve Fiziksel Görselleştirmeler
Temelli Görsel Veri Analizi Sistemi, TUBITAK 1001,
S. Balcısoy
• Veri Mahremiyeti ve Güvenliği
– Veri analitiği uygulamalarının birçoğu insanlar ve onlarla
ilgili veriler üzerinde olduğu için mahremiyet ve güvenlik
önem taşır.
– Veri Anonimleştirme: Verilerin üçüncü kişilerle paylaşılması
durumunda kişisel bilgiler ve hassas veri arasında bağın tekrar
kurulamayacak şekilde koparılması.
– Hassas Verileri Gözeten Analiz: Veri analitiği hassas veriler üzerinde
olacaksa bunun bir yolu şifrelenmiş veriler üzerinde analiz
yapabilmektir.
– AB 7. Çerçeve, 2010-2013 "UbiPOL: Ubiquitous Participation Platform
for Policy Making", Y. Saygın
Mahremiyet Garantili
Büyük Veri İşleme
İlker Birbil
Araçlar
1. Farklı kanallardan gelen verinin tensörler ile ifade edilmesi
1. Dağıtık ve paralel eniyileme ile kestirim ve yapay öğrenme
1. Diferansiyel mahremiyet garantili algoritma tasarımı
1. Farklı kanallardan gelen verinin tensörler ile ifade
edilmesi
Ermis vd. 2012
2. Dağıtık ve paralel eniyileme ile yapay öğrenme
HAMSI: A New Distributed Optimization
Algorithm for Large-Scale Machine Learning
3. Diferansiyel mahremiyet garantili algoritma tasarımı
13 Haziran 2016
P-HAMSI: Privacy Preserving Large-Scale
Machine Learning
Modeller
Algoritmalar
Sistemler
İnsanlar
A Firması
TC1
TC2
…
TC3
Özellikler
..
.
TC1
B Firması
TC#
TC2
TC3
?
?
?
…
Sigara
Alkol
?
..
.
TC#
İnsanlar
A Firması
TC1
TC2
…
TC3
Özellikler
..
.
TC1
B Firması
TC#
TC2
TC3
?
?
?
…
Sigara
Alkol
?
..
.
TC#
Ham Veri Alışverişi
A Firması
TC1
TC2
TC3
…
TC#
Veri Mahremiyeti
Garantisi
✗✗
✔
B Firması
TC1
?
..
.
?
Tahmin Modelleme
Yapay Öğrenme
TC2
✔
✔
TC3
?
?
…
..
.
TC#
Davranışsal Analiz ve
Görselleştirme
Selim Balcısoy
İş Problemleri Hızlı Analiz İster
Customer Profile
Customer
Behaviour
Segmentation
Attrition / Retention
Subsegmentation
Loyalty Actions
Customer Value
Customer Profitability
Customer Life Time
Value
Sequence Analysis
Association Analysis
Cross Sell /Up sell Models
Financial
Analysis
Customer Based
Income & Expense
Models
Product Based
Income & Expense
Models
Pricing
Customer Price
Sensitivity Models
Product&Customer
Based Pricing
Service Modelling
Algorithms based on
Customer Value
Customer
Potential
Product Analysis
Propensity Models
Service Modelling
Customer Potential
Profitability
Customer Potential
Segment/Subsegme
nt
Revenue
Analysis
Current & Potential
Revenue Analysis
Risk Analysis
Potential Loss
Predictions
Araştırma Problemleri
• Accelerate Analysis for Decision Making
– Churn, Fraud, Behavioral Segmentation
– Exploration, collaboration and telepresence
• Generate narratives from Data
– Is there more into BusinessVis than just
DashBoards ?
• Facilitate collaboration and telepresence for
Analytics
Devam Eden Projeler
• Akbank
– Keşifsel Veri Analizi
– Gerçek zamanlı Karar Verme Sistemleri
Devam Eden Projeler
• Sigorta Bilgi ve Gözetim Merkezi
– Trafik Sigortalarında Suistimal Analiz Projesi
– Birden fazla sigorta şirketini suistimal edenler
– Çok farklı veri katmanları ile kompleks problem
yapısı
• Tamirciler, Sürücüler, Experler
• Zaman, Yer, Ödeme Zamanları
– Veri: Son 3 senenin tüm sigorta police kayıtları
Devam Eden Projeler
• Kampüs
Davranışları
– Wifi ve ısı
sensörleri ile
içerde
bulunanların
davranışlarının
analizi
– Güvenlik, enerji
tasarrufu, iş
verimliliği
Devam Eden Projeler
• TUBITAK Projesi Verimli Karar Vermek için
Veriye Dokunmak
Video
• https://youtu.be/IucVW4r3BL0
İş Birlikleri
• Lab Stratejik Ortak: Akbank
• Lab Analitik Sponsoru: SAS
• Akademik Ortaklar:
– Sabancı Üniversitesi MDBF
– Sabancı Üniversitesi Yönetim
Bilimleri Fakültesi
– MIT Media Lab
Büyük ve Akan Veri Algoritmaları
Kamer Kaya
Büyük ve Akan Veri Algoritmaları
• Örnek: Google
Milyon
– Bir günde yapılan farklı arama sayısı kaçtır?
– Bir günde sorgu yapan farklı kişi sayısı kaçtır?
7.000
6.000
Günlük ortalama sorgu sayısı
5.000
4.000
3.000
2.000
1.000
0
2000
2007
2008
2009
2010
2011
2012
2013
2014
Google’da bir günde yapılan sorgu sayısı
Büyük ve Akan Veri Algoritmaları
• Örnek: Google PowerDrill
– Sütun tabanlı bir veri deposu
– İnteraktif bir veri analizi arayüzü
• Düşük sorgu süresi
– Petabyte boyutunda bir veri üzerinde günde 5
milyon eleman sayma sorgusu
• GROUP BY ile birleştiğinde birden fazla sayma altsorgusunun çalıştırılması ihtiyacı...
• Sorguların %99’unun cevabı 100’ün altında…
• Yaklaşık 100 tanesinin cevabı 109’un üzerinde…
• Yeterli hafıza olmadığından sorgular bekletiliyor.
Büyük ve Akan Veri Algoritmaları
• Çoklu bir kümenin farklı eleman sayısı
nedir?
|{1, 4, 1, 1, 4, 6}| = 3
|{a1, a2, a3, …. an}| = ?
– Neden ilgileniyoruz:
• COUNT(DISTINCT…) sorgusu geldiğinde nasıl
hızlıca ve kaynakları tüketmeden cevap
verebiliriz?
• Bir genomda 20-uzunluğunda kaç farklı
sıralama var?
• Bir DoS saldırısını, wormu, virüsü, spam emailleri hızlıca nasıl bulabiliriz?
Büyük ve Akan Veri Algoritmaları
• Çoklu bir kümenin içinde %X ve daha fazla
görülme sıklığına sahip elemanlar
hangileridir?
{1, 4, 1, 1, 4, 3, 2, 5, 3, 1} ve X = 20 -> {1, 3, 4}
– Neden ilgileniyoruz:
• Son bir saat içinde bir yöneltici üzerinden çok
sayıda paket gönderen kullanıcıları nasıl
buluruz?
Büyük ve Akan Veri Algoritmaları
Çözüm: Her elemanı kaç kere gördüğümüzü bir
yere not edersek...
• n = 106 (çok çok kolay)
• n = 109 (çok kolay)
• n = 1012 (kolay?)
• n = 1015 (?)
• n = ? (???)
Büyük ve Akan Veri Algoritmaları
• Çok boyutlu bir veri yığını içinde birbirine
benzeyen elemanları nasıl buluruz?
– Neden ilgileniyoruz:
• Her gün binlerce tweet, haber, olay internette
yayılmaya başlıyor. Bir olayı ilk defa gördüğümüzü
nasıl anlarız?
• Birbirine benzeyen, aynı haberden yola çıkan web
sayfalarını nasıl buluruz?
– Çözüm: Bütün elemanları birbirleri ile
karşılaştırırsak…
Büyük ve Akan Veri Algoritmaları
• Çoklu bir kümenin eleman sayısını bulmak:
– Sıra istatistikleri: hepsi farklı bir dizi eleman içinde
en küçük sayı X ise, 1/X dizideki eleman sayısı için
mantıklı bir tahmindir.
• Örnek: [0,1] aralığına 4 gelişigüzel sayı atarsak, bu
sayılar ortalama 0.2 aralıklarla ayrılır.
– Özüt fonksiyonları:
• Girdi: Veri elemanı (çok boyutlu, büyük, karmaşık…)
• Çıktı: Özüt => örneğin [0,1] aralığında bir sayı
– Aynı girdi için aynı çıktı
– İki farklı eleman için (mümkün olduğu kadarıyla)
farklı çıktılar.
Büyük ve Akan Veri Algoritmaları
– k-MV algoritması (Bar-Yossef 2002)
• Özütleri [0,1] aralığına yerleştirelim
• Sadece gördüğümüz minimum özüt değerini tutarsak
1 / 0.25 – 1 = tahmini 3 farklı eleman var (yakın, aslında
4 farklı eleman var)
Büyük ve Akan Veri Algoritmaları
• k-MV algoritması: taslaklar
– Bir değil k minimum değeri tutalım (örneğin k = 2)
• Taslak: {0.25, 0.4}
• 2/0.4 – 1 = tahmini 4 eleman (doğru)
– k = 1024
(toplam
64K eleman)
Büyük ve Akan Veri Algoritmaları
• HyperLogLog (Flajolet et al., 2007):
– n kere yazı tura atıyorsunuz;
• Art arda görmeyi beklediğiniz en uzun turaların sayısı
nedir?
• Verdiğiniz cevap kaç kere yazı tura attığınıza dair bir
bilgi verir mi?
(Moivre, 1738)
Büyük ve Akan Veri Algoritmaları
• HyperLogLog (Flajolet et al., 2007):
– n kere özüt fonksiyonu hesaplıyorsunuz;
• Bu özüt fonksiyonlarında görülen maksimum ardışık 0
sayısı kaç farklı özüt fonksiyonu gördüğünüze dair bir
bilgi verir mi?
– Bit deseni istatistikleri: Eğer bir dizideki özüt
değerleri ikilik tabanda gösterildiğinde, dizi
başında 0p-11... olan bir eleman içeriyorsa, dizideki
farklı eleman sayısı için 2p mantıklı bir tahmindir.
Örnek: 0010, 0100, 1000, 0011, 1100, 1010, 1001
p-1 = 2 -> p = 3 (yaklaşık 8 sayı olmalı)
Büyük ve Akan Veri Algoritmaları
• HyperLogLog (Flajolet et al., 2007):
– Örnek özüt değeri (m = 4 kutu için parçalama)
• xx
00010001 11010101 01001100 00101100
(kutu no)
0
1
2
3
Her kutu için max(baştaki 0 sayısı + 1) tutulur
Eleman sayısı tahmini
Büyük ve Akan Veri Algoritmaları
• HyperLogLog (Flajolet et al., 2007):
m = 1024
Download