Veri Analitiği Uygulama ve Araştırma Merkezi Açılış Etkinliği 20 Haziran 2016 Sakıp Sabancı Müzesi, İstanbul Ajanda Açılış Veri Analitiği Yüksek Lisans Programı – H. S. Ölmez Veri Uygulama ve Araştırma Merkezi – B. Yanıkoğlu Proje: Büyük Veri Optimizasyonu – İ. Birbil Proje: Deneysel Görselleştirme – S. Balcısoy Akan Veri Problemleri – K. Kaya Tanışma Veri Analitiği Uygulama ve Araştırma ve Merkezi Center of Excellence in Data Analytics VA Yüksek Lisans Programı Veri Analitiği Yüksek Lisans Programı H. Sait Ölmez Büyük Veri ve Yetenek Havuzu 2018’e kadar ABD’de 140,000 ile 190,000 arasında iş gücü açığı olacak Veri Analitiği Uygulama ve Araştırma ve Merkezi 2011-2012 arasında “data scientist” iş ilanlarındaki artış %15,000 Center of Excellence in Data Analytics Veri Analitiği Yüksek Lisans Programı da.sabanciuniv.edu Veri Analitiği Uygulama ve Araştırma ve Merkezi Center of Excellence in Data Analytics Program Misyonu Veri Analitiği Uygulama ve Araştırma ve Merkezi İLERİ Geleneksel Yüksek Lisans MSc VA UYGULAMALI Doktora TEORİK Katılımcıların eğitim sonunda • Tahmini Analitik (uygulamalı istatistik, veri madenciliği ve makine öğrenmesi), Veri görselleştirme ve Optimizasyon gibi kritik alanlarda bilgi ve beceri sahibi olması, • Bu birikim ile veriyi anlamak, işlemek ve modellemek suretiyle veriden katma değer yaratabilmesi hedeflenmektedir. Lisans TEMEL Center of Excellence in Data Analytics Ders Programı Güz Bahar Yaz Ekim—Şubat Şubat—Mayıs Mayıs—Ağustos Introduction to Data Analytics Applied Statistics Machine Learning Big Data Processing using Hadoop Data Mining Practical Case Studies in Data Analytics Information Law and Data Ethics Introduction to Data Modeling and Proccessing Social Network Analysis Project Management & Business Comm. Modeling and Optimization Exploratory Data Analysis & Visualization Term Project (non-credit) Data Privacy & Security Veri Analitiği Uygulama ve Araştırma ve Merkezi Center of Excellence in Data Analytics Başvuru ve Kayıtlar > 120 ? Toplam başvuru Erken başvuru 71 35 34 63 kontenjan 16 2014-2015 Veri Analitiği Uygulama ve Araştırma ve Merkezi 2015-2016 2016-2017 Center of Excellence in Data Analytics 2014-2016 Öğrenci Profili 2014-2016 (2 akademik yıl) Toplam kayıt Ortalama yaş (aralık) 52 30.5 (21-44) 5 4 Veri Analitiği Uygulama ve Araştırma ve Merkezi 14 7 5 8 Öğrenci Sayısı Öğrenci Sayısı Endüstri Müh. Bilgisayar Müh. Elektrik Müh. Diğer Müh. 7 Ortalama iş deneyimi 18 / 34 7 yıl Çalıştıkları sektörler Lisans Dereceleri 34 Cinsiyet oranı (K/E) 22 Sigortacılık, Enerji, Turizm E-ticaret, Otomotiv, Gıda İnşaat, Ulaşım, Medya, Savunma, Danışmanlık 15 8 2 7 Center of Excellence in Data Analytics Veri Analitiği Uygulama ve Araştırma Merkezi (VERIM) Center of Excellence in Data Analytics (CEDA) http://ceda.sabanciuniv.edu Berrin Yanıkoğlu Merkezin Kuruluşu, Misyon, Vizyon • Sabancı Üniversitesi Mühendislik ve Doğa Bilimleri Fakültesinden üç programdan (Bilgisayar Bilimi ve Mühendisliği, Endüstri Mühendisliği ve Bilişim Teknolojileri) öğretim üyelerinin biraraya gelerek oluşturduğu Merkez, Aralık 2015’te YÖK tarafından onaylandı. Vizyon: Veri odaklı yaklaşımları geliştirmek, yaygınlaştırmak ve toplumsal refaha katkı sağlamak. Misyon: Veri Analitiği konusuna odaklı ve çok-disiplinli bir araştırma anlayışıyla bu alanda öncülük eden uzman bir araştırma merkezi olmak; mevcut bilgi ve birikimi endüstriye, akademik kurumlara ve diğer ilgili paydaşlara aktarmak; endüstri ve kamu ile birlikte çalışarak kurumların veriden bilgi üretmelerine ve iş değeri yaratmalarına yardımcı olmak. Merkezin Amacı • Bilimsel Çalışmalar: Veri analitiği konusunda bilimsel çalışmaların bir çatı altında birleştirilmesi, ortak ve interdisipliner çalışmaların artırılması; • Endüstri İşbirliği: Veri analitiği konusunda firmalarla yapılacak ortak projelerle ve DA programı ile gelişen sinerji ile, endüstrinin ihtiyaçlarına daha verimli şekilde çözüm bulabilmek; • Eğitim ve Çalıştaylar: Veri işleme, veri analitiği, büyük veri ile iş uygulamaları ve iş analitiği konularında teknik personel ve yönetici seviyelerinde eğitim programları ve çalıştaylar düzenlemek ve sunmak. • Rapor ve Değerlendirmeler: Yeni gelişmeler, güncel teknik analiz ve modelleme yöntemleri, uygulama alanları, gelecekle ilgili tahminler ve Türkiye ile ilgili mevcut sektörel durum, sorunlar ve beklentileri dönemsel raporlar halinde endüstriye ve diğer paydaşlara sunmak; Biz Kimiz Temel Araştırma Alanları • Bulut Bilişim ve Yüksek Başarımlı Hesaplama – Kamer Kaya, Ahmet Demirelli, H. Sait Ölmez • • • • Makine Öğrenmesi – Berrin Yanıkoğlu, Kemal Kılıç Veri Madenciliği – Yücel Saygın, Kemal Kılıç Yapay Zeka – Esra Erdem İstatistik – Sinan Yıldırım • Optimizasyon ve Karar Verme – İlker Birbil, Kerem Bülbül, Nilay Noyan, Güvenç Şahin • Veri Görselleştirme – Selim Balcısoy • Veri Mahremiyeti ve Güvenliği – Yücel Saygın, Albert Levi • Bulut Bilişim – Büyük verinin yüksek boyut, hız ve çeşitlilik özellikleri, bulut bilişim ve Hadoop, Spark ... gibi açık kaynak kütüphanelerini, hızlı ve güvenilir veri yönetimi ve analizi için sık kullanılan araçlar haline getirmiştir. Merkez’de bu alanda: • • • • paralel ve dağıtık hesaplama, yenilikçi ve özelleşmiş iş akışı yöntemlerinin geliştirilmesi, bulut kullanım masraflarının performansı düşürmeden azaltılması, paylaşılan verinin güvenliğinin ve mahremiyetinin sağlanması, üzerine çalışmalar yapılmaktadır. • Yüksek Başarımlı Hesaplama – Büyük işlem miktarı gerektiren hesaplamalar ve özellikle işlem zamanının hayati öneme sahip olduğu uygulamalar için eldeki donanımın en verimli şekilde kullanılmasını amaçlar. – Bilgisayar kümeleri ve haberleşme ağlarının, çok çekirdekli işlemci mimarilerinin ve grafik işlemci üniteleri gibi ek hızlandırıcıların yapılarının sürekli değişmesi ve bu donanımlar sayesinde gelen performans artışları, bu tür donanımlar üzerinde çalıştırılacak yenilikçi paralel yöntemlerin geliştirilmesini gerekli kılmaktadır. – 2015-2017, TÜBİTAK 2232 Projesi (No: 115C018): "Yüksek Başarımlı Büyük ve Akan Veri Analizi", K. Kaya. • İstatistik, Makine Öğrenmesi, Veri Madenciliği, Yapay Zeka – Makine öğrenmesi, geçmiş veriler kullanarak bir durumun modellenmesini ve bu sayede kestirme yapabilmeyi amaçlar. – Veri madenciliği büyük miktarlarda toplanan ham verinin değerli bilgiye dönüştürülmesini amaçlar. – Yapay zeka bilgi gösterimi, mantıksal çıkarım, öğrenme gibi alt alanlardaki gelişmelerle, robot programlarının bilişsel becerisini artırmayı amaçlar. – İstatistiksel yöntemler, rassal süreçlerin ürettiği verinin çözümlenmesini mümkün kılar. • Optimizasyon ve Karar Verme – Optimizasyon bir karar verme problemi için eniyi kararların belirlenmesine ilişkin sistematik yöntemleri içerir. – Problem için anlamlı performans kriterlerinin ve kısıtların matematiksel olarak ifade edilerek formülasyonlarının geliştiril-mesi, optimizasyonun temelini oluşturur. – 2012-2015 TÜBİTAK Kariyer Projesi (No: 111M543): “Afet Sonrası Müdahale Ağı Tasarımı Problemi için Rassal Programlama Modelleri”, N. Noyan. • Veri Görselleştirme – Veri görselleştirmelerinin amacı; görme duyusunu uyararak, insanlara karmaşık veriler hakkında anlam çıkarmada yardım etmektir. – Konumsal Artırılmış Gerçeklilik ve Fiziksel Görselleştirmeler Temelli Görsel Veri Analizi Sistemi, TUBITAK 1001, S. Balcısoy • Veri Mahremiyeti ve Güvenliği – Veri analitiği uygulamalarının birçoğu insanlar ve onlarla ilgili veriler üzerinde olduğu için mahremiyet ve güvenlik önem taşır. – Veri Anonimleştirme: Verilerin üçüncü kişilerle paylaşılması durumunda kişisel bilgiler ve hassas veri arasında bağın tekrar kurulamayacak şekilde koparılması. – Hassas Verileri Gözeten Analiz: Veri analitiği hassas veriler üzerinde olacaksa bunun bir yolu şifrelenmiş veriler üzerinde analiz yapabilmektir. – AB 7. Çerçeve, 2010-2013 "UbiPOL: Ubiquitous Participation Platform for Policy Making", Y. Saygın Mahremiyet Garantili Büyük Veri İşleme İlker Birbil Araçlar 1. Farklı kanallardan gelen verinin tensörler ile ifade edilmesi 1. Dağıtık ve paralel eniyileme ile kestirim ve yapay öğrenme 1. Diferansiyel mahremiyet garantili algoritma tasarımı 1. Farklı kanallardan gelen verinin tensörler ile ifade edilmesi Ermis vd. 2012 2. Dağıtık ve paralel eniyileme ile yapay öğrenme HAMSI: A New Distributed Optimization Algorithm for Large-Scale Machine Learning 3. Diferansiyel mahremiyet garantili algoritma tasarımı 13 Haziran 2016 P-HAMSI: Privacy Preserving Large-Scale Machine Learning Modeller Algoritmalar Sistemler İnsanlar A Firması TC1 TC2 … TC3 Özellikler .. . TC1 B Firması TC# TC2 TC3 ? ? ? … Sigara Alkol ? .. . TC# İnsanlar A Firması TC1 TC2 … TC3 Özellikler .. . TC1 B Firması TC# TC2 TC3 ? ? ? … Sigara Alkol ? .. . TC# Ham Veri Alışverişi A Firması TC1 TC2 TC3 … TC# Veri Mahremiyeti Garantisi ✗✗ ✔ B Firması TC1 ? .. . ? Tahmin Modelleme Yapay Öğrenme TC2 ✔ ✔ TC3 ? ? … .. . TC# Davranışsal Analiz ve Görselleştirme Selim Balcısoy İş Problemleri Hızlı Analiz İster Customer Profile Customer Behaviour Segmentation Attrition / Retention Subsegmentation Loyalty Actions Customer Value Customer Profitability Customer Life Time Value Sequence Analysis Association Analysis Cross Sell /Up sell Models Financial Analysis Customer Based Income & Expense Models Product Based Income & Expense Models Pricing Customer Price Sensitivity Models Product&Customer Based Pricing Service Modelling Algorithms based on Customer Value Customer Potential Product Analysis Propensity Models Service Modelling Customer Potential Profitability Customer Potential Segment/Subsegme nt Revenue Analysis Current & Potential Revenue Analysis Risk Analysis Potential Loss Predictions Araştırma Problemleri • Accelerate Analysis for Decision Making – Churn, Fraud, Behavioral Segmentation – Exploration, collaboration and telepresence • Generate narratives from Data – Is there more into BusinessVis than just DashBoards ? • Facilitate collaboration and telepresence for Analytics Devam Eden Projeler • Akbank – Keşifsel Veri Analizi – Gerçek zamanlı Karar Verme Sistemleri Devam Eden Projeler • Sigorta Bilgi ve Gözetim Merkezi – Trafik Sigortalarında Suistimal Analiz Projesi – Birden fazla sigorta şirketini suistimal edenler – Çok farklı veri katmanları ile kompleks problem yapısı • Tamirciler, Sürücüler, Experler • Zaman, Yer, Ödeme Zamanları – Veri: Son 3 senenin tüm sigorta police kayıtları Devam Eden Projeler • Kampüs Davranışları – Wifi ve ısı sensörleri ile içerde bulunanların davranışlarının analizi – Güvenlik, enerji tasarrufu, iş verimliliği Devam Eden Projeler • TUBITAK Projesi Verimli Karar Vermek için Veriye Dokunmak Video • https://youtu.be/IucVW4r3BL0 İş Birlikleri • Lab Stratejik Ortak: Akbank • Lab Analitik Sponsoru: SAS • Akademik Ortaklar: – Sabancı Üniversitesi MDBF – Sabancı Üniversitesi Yönetim Bilimleri Fakültesi – MIT Media Lab Büyük ve Akan Veri Algoritmaları Kamer Kaya Büyük ve Akan Veri Algoritmaları • Örnek: Google Milyon – Bir günde yapılan farklı arama sayısı kaçtır? – Bir günde sorgu yapan farklı kişi sayısı kaçtır? 7.000 6.000 Günlük ortalama sorgu sayısı 5.000 4.000 3.000 2.000 1.000 0 2000 2007 2008 2009 2010 2011 2012 2013 2014 Google’da bir günde yapılan sorgu sayısı Büyük ve Akan Veri Algoritmaları • Örnek: Google PowerDrill – Sütun tabanlı bir veri deposu – İnteraktif bir veri analizi arayüzü • Düşük sorgu süresi – Petabyte boyutunda bir veri üzerinde günde 5 milyon eleman sayma sorgusu • GROUP BY ile birleştiğinde birden fazla sayma altsorgusunun çalıştırılması ihtiyacı... • Sorguların %99’unun cevabı 100’ün altında… • Yaklaşık 100 tanesinin cevabı 109’un üzerinde… • Yeterli hafıza olmadığından sorgular bekletiliyor. Büyük ve Akan Veri Algoritmaları • Çoklu bir kümenin farklı eleman sayısı nedir? |{1, 4, 1, 1, 4, 6}| = 3 |{a1, a2, a3, …. an}| = ? – Neden ilgileniyoruz: • COUNT(DISTINCT…) sorgusu geldiğinde nasıl hızlıca ve kaynakları tüketmeden cevap verebiliriz? • Bir genomda 20-uzunluğunda kaç farklı sıralama var? • Bir DoS saldırısını, wormu, virüsü, spam emailleri hızlıca nasıl bulabiliriz? Büyük ve Akan Veri Algoritmaları • Çoklu bir kümenin içinde %X ve daha fazla görülme sıklığına sahip elemanlar hangileridir? {1, 4, 1, 1, 4, 3, 2, 5, 3, 1} ve X = 20 -> {1, 3, 4} – Neden ilgileniyoruz: • Son bir saat içinde bir yöneltici üzerinden çok sayıda paket gönderen kullanıcıları nasıl buluruz? Büyük ve Akan Veri Algoritmaları Çözüm: Her elemanı kaç kere gördüğümüzü bir yere not edersek... • n = 106 (çok çok kolay) • n = 109 (çok kolay) • n = 1012 (kolay?) • n = 1015 (?) • n = ? (???) Büyük ve Akan Veri Algoritmaları • Çok boyutlu bir veri yığını içinde birbirine benzeyen elemanları nasıl buluruz? – Neden ilgileniyoruz: • Her gün binlerce tweet, haber, olay internette yayılmaya başlıyor. Bir olayı ilk defa gördüğümüzü nasıl anlarız? • Birbirine benzeyen, aynı haberden yola çıkan web sayfalarını nasıl buluruz? – Çözüm: Bütün elemanları birbirleri ile karşılaştırırsak… Büyük ve Akan Veri Algoritmaları • Çoklu bir kümenin eleman sayısını bulmak: – Sıra istatistikleri: hepsi farklı bir dizi eleman içinde en küçük sayı X ise, 1/X dizideki eleman sayısı için mantıklı bir tahmindir. • Örnek: [0,1] aralığına 4 gelişigüzel sayı atarsak, bu sayılar ortalama 0.2 aralıklarla ayrılır. – Özüt fonksiyonları: • Girdi: Veri elemanı (çok boyutlu, büyük, karmaşık…) • Çıktı: Özüt => örneğin [0,1] aralığında bir sayı – Aynı girdi için aynı çıktı – İki farklı eleman için (mümkün olduğu kadarıyla) farklı çıktılar. Büyük ve Akan Veri Algoritmaları – k-MV algoritması (Bar-Yossef 2002) • Özütleri [0,1] aralığına yerleştirelim • Sadece gördüğümüz minimum özüt değerini tutarsak 1 / 0.25 – 1 = tahmini 3 farklı eleman var (yakın, aslında 4 farklı eleman var) Büyük ve Akan Veri Algoritmaları • k-MV algoritması: taslaklar – Bir değil k minimum değeri tutalım (örneğin k = 2) • Taslak: {0.25, 0.4} • 2/0.4 – 1 = tahmini 4 eleman (doğru) – k = 1024 (toplam 64K eleman) Büyük ve Akan Veri Algoritmaları • HyperLogLog (Flajolet et al., 2007): – n kere yazı tura atıyorsunuz; • Art arda görmeyi beklediğiniz en uzun turaların sayısı nedir? • Verdiğiniz cevap kaç kere yazı tura attığınıza dair bir bilgi verir mi? (Moivre, 1738) Büyük ve Akan Veri Algoritmaları • HyperLogLog (Flajolet et al., 2007): – n kere özüt fonksiyonu hesaplıyorsunuz; • Bu özüt fonksiyonlarında görülen maksimum ardışık 0 sayısı kaç farklı özüt fonksiyonu gördüğünüze dair bir bilgi verir mi? – Bit deseni istatistikleri: Eğer bir dizideki özüt değerleri ikilik tabanda gösterildiğinde, dizi başında 0p-11... olan bir eleman içeriyorsa, dizideki farklı eleman sayısı için 2p mantıklı bir tahmindir. Örnek: 0010, 0100, 1000, 0011, 1100, 1010, 1001 p-1 = 2 -> p = 3 (yaklaşık 8 sayı olmalı) Büyük ve Akan Veri Algoritmaları • HyperLogLog (Flajolet et al., 2007): – Örnek özüt değeri (m = 4 kutu için parçalama) • xx 00010001 11010101 01001100 00101100 (kutu no) 0 1 2 3 Her kutu için max(baştaki 0 sayısı + 1) tutulur Eleman sayısı tahmini Büyük ve Akan Veri Algoritmaları • HyperLogLog (Flajolet et al., 2007): m = 1024