SU KALİTESİ VERİLERİNİN İSTATİSTİKSEL YÖNTEMLERLE DEĞERLENDİRİLMESİ Doç. Dr. Hülya Boyacıoğlu Dokuz Eylül Üniversitesi Çevre Mühendisliği Bölümü [email protected] 1 KAPSAM • Giriş (Su kalite verilerinin özellikleri) • Su Kalite verilerinin değerlendirilmesi •Grafiksel analiz •Tanımlayıcı istatistikler • Uygulama örnekleri 2 GİRİŞ GİRİŞ 3 UYGULAMA ÖRNEKLERİ VERİ DEĞERLENDİRME Su kalitesinin izlenmesi ve değerlendirilmesi • Veri toplama ve değerlendirme amacının ortaya konması ve örneklem tasarımı • Ön değerlendirme • İstatistiksel yöntemin belirlenmesi • İstatistiksel yöntemin tahminlerinin doğrulanması/değerlendirilmesi • Sonuç çıkarsanması GİRİŞ GİRİŞ Hangi kalite değişkeninin değerlendireceğim. Veriler hangi zaman aralığında, ne sıklıkta analizlenmiş? Ortalama su kalite değeri Su kalitesinin değişimi Yüksek yüzde değerleri (örneğin %95 değeri) Gözlem sahaları ortalama değerleri kıyası Gözlem sahaları yüksek yüzde değerleri kıyası Su kalitesi ile ilişkiler? (sıcaklık, deşarj) 4 UYGULAMA ÖRNEKLERİ • • • • • • VERİ DEĞERLENDİRME Hangi soruya yanıt arıyorum? • Mevsimsellik gösteren veri setleri (bazı kalite değişkenleri yaz aylarında daha yüksek değerler alır ) • Otokorelasyon (örn. Akarsu boyunca yer alan yakın istasyonlardan alınan örnekler, aynı istasyondan kısa zaman aralıklarında alınan örnekler ilişkili olabilir) 5 UYGULAMA ÖRNEKLERİ VERİ DEĞERLENDİRME Su Kalite Veri Özellikleri • Verilerin alt sınır değeri 0. Negatif değer gözlenmez. • Aykırı (sapan) değerler (outlier). Genellikle yüksek değerler tarafındadır (dikkate alınmazsa sonuçlar farklı yorumlanır) • Normal olmayan dağılım. Sağ tarafta yer alan kuyruklar (çarpıklık). Genelde simetrik olmayan, çarpıklık gösteren veri setleri GİRİŞ GİRİŞ 6 GİRİŞ VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ GİRİŞ Aykırı (Sapan) değerler • Aykırı değerler (outlier).-Net tanımı henüz yapılmamış ancak veri setinde normal olmayan değer(ler) olarak değerlendirilebilir. • Veri setinden değerlendirme başlamadan çıkarılabilir. • Yazım hatası olup olmadığına bakılabilir • Örneklem seti düşünülenden daha karmaşık olabilir ve aykırı değer bunun sonucu olabilir. • Aykırı değerleri içeren ve içermeyen veri setleriyle analiz yapılıp sonuçlar kıyaslanır ve sonuç farklı değilse veri setinde değerler kalabilir. UYGULAMA ÖRNEKLERİ 7 VERİ DEĞERLENDİRME GİRİŞ GİRİŞ 8 UYGULAMA ÖRNEKLERİ VERİ DEĞERLENDİRME GİRİŞ Eksik veriler • Tamamen raslantısal eksiklik (numune şişesinin kırılması vb) • Raslantısal eksiklik (kötü hava koşulları nedeniyle arazide numune alınamaması) • Ölçüm cihazı analiz limitlerinin dışında gözlenen konsantrasyonlar GİRİŞ VERİLERİN DEĞERLENDİRİLMESİ Tanımlayıcı istatistikler 9 UYGULAMA ÖRNEKLERİ VERİ DEĞERLENDİRME Grafiksel analizler 10 UYGULAMA ÖRNEKLERİ VERİ DEĞERLENDİRME GİRİŞ Zaman serisi grafiği • Değişkenlerin birbirleri arasındaki ilişkileri gösteren grafiklerdir. • İlişkinin var olup olmadığını ve yönünün tespit edilmesinde kullanılır. • Sayısal bir değer ile ifade edilmez. 11 UYGULAMA ÖRNEKLERİ VERİ DEĞERLENDİRME GİRİŞ Serpme grafiği k: sınıf sayısı, n: örneklem büyüklüğü 2k > n Sınıf f Küm f Rel f Küm Rel f 15-27 28-40 4 5 4 9 .11 .13 .11 .24 41-53 54-66 67-79 80-92 9 12 5 2 18 30 35 37 .24 .32 .13 .05 .48 .80 .93 .98 93-105 1 38 .02 1.00 14 VERİ DEĞERLENDİRME Veriyi gruplara ayırarak anlaşılabilir hale getirmek için Gözlenme sıklıklarını ve olasılıklarını belirlemek için histogramlar çizilir. GİRİŞ Histogramlar 12 10 6 4 2 0 21 34 47 60 Orta Nokta 73 86 99 12 UYGULAMA ÖRNEKLERİ 8 f UYGULAMA ÖRNEKLERİ 13 VERİ DEĞERLENDİRME GİRİŞ VERİ DEĞERLENDİRME Verinin bütününü bir nitelik değerine göre görüntüleme Veri setindeki tüm değerleri görüntüleme „ Veri bir nitelik değerine göre küçükten büyüğe doğru sıralanır „ xi değeri için Fi miktardaki veri xi değerinden küçük ya da eşittir 14 UYGULAMA ÖRNEKLERİ • • • • GİRİŞ Quantile Plot UYGULAMA ÖRNEKLERİ 15 VERİ DEĞERLENDİRME GİRİŞ 16 UYGULAMA ÖRNEKLERİ VERİ DEĞERLENDİRME GİRİŞ Box Plot-Kutu Grafiği 17 UYGULAMA ÖRNEKLERİ VERİ DEĞERLENDİRME GİRİŞ Box Plot-Kutu Grafiği 18 UYGULAMA ÖRNEKLERİ VERİ DEĞERLENDİRME GİRİŞ Box Plot-Kutu Grafiği Yer Ölçüleri Değişkenlik Ölçüleri Çarpıklık Ölçüleri Basıklık Ölçüleri VERİ DEĞERLENDİRME • • • • • Analizlerde kullanılan veri tiplerine (basit, gruplanmış, sınıflanmış) göre hesaplamalarda kullanılacak formüller değişmektedir. 19 UYGULAMA ÖRNEKLERİ • Bir veri setini tanımak veya birden fazla veri setini karşılaştırmak için kullanılan ve ayrıca örnek verilerinden hareket ile frekans dağılışlarını sayısal olarak özetleyen değerlere tanımlayıcı istatistikler denir. GİRİŞ TANIMLAYICI İSTATİSTİKLER 20 UYGULAMA ÖRNEKLERİ VERİ DEĞERLENDİRME GİRİŞ Tanımlayıcı istatistikler GİRİŞ Tanımlayıcı istatistikler 21 UYGULAMA ÖRNEKLERİ VERİ DEĞERLENDİRME Merkezi Eğilim Ölçüleri •Aritmetik ort. •Mod •Medyan •Kartiller VERİ DEĞERLENDİRME Dağılım Ölçüleri •Range •(Değişim Aralığı) •Varyans Standart Sapma •Değişkenlik(Varyasyon) katsayısı 22 UYGULAMA ÖRNEKLERİ Merkezi Eğilim Ölçüleri •Aritmetik ort. •Mod •Medyan •Kartiller GİRİŞ Tanımlayıcı istatistikler Basıklık Ölçüleri VERİ DEĞERLENDİRME Dağılım Ölçüleri Çarpıklık Ölçüleri •Range •(Değişim Aralığı) •Varyans Standart Sapma •Değişkenlik(Varyasyon) katsayısı 23 UYGULAMA ÖRNEKLERİ Merkezi Eğilim Ölçüleri •Aritmetik ort. •Mod •Medyan •Kartiller GİRİŞ Tanımlayıcı istatistikler GİRİŞ Merkezi Eğilim Ölçüleri 24 UYGULAMA ÖRNEKLERİ VERİ DEĞERLENDİRME Veri setinin orta noktası veya merkezinin değeridir. •Aritmetik ort. •Mod •Medyan •Kartiller 25 UYGULAMA ÖRNEKLERİ VERİ DEĞERLENDİRME GİRİŞ Aritmetik ortalama: Veri setindeki elemanların toplanıp veri sayısına bölünmesiyle elde edilen yer ölçüsü. GİRİŞ Data 3 1 2 3 2 1 0 2 5 5 9 2,3 VERİ DEĞERLENDİRME Data 2 1 2 3 2 1 0 2 5 1 9 1,9 26 UYGULAMA ÖRNEKLERİ Data 1 1 2 3 2 1 0 2 5 8 N 9 ortalama 2,7 GİRİŞ n 1 • Veri Setinin Hacmi Tek Sayı İse; 2 nci gözlem değeri medyandır. • Veri Setinin Hacmi Çift Sayı İse; n 2 n 1 2 nci gözlem değerinin aritmetik ortalaması medyandır. 27 VERİ DEĞERLENDİRME • UYGULAMA ÖRNEKLERİ • Medyan (Ortanca): Bir veri setini büyükten küçüğe veya küçükten büyüğe sıraladığımızda tam orta noktadan veri setini iki eşit parçaya ayıran değere medyan adı verilir. Veri setinde aşırı uçlu elemanlar olduğunda aritmetik ortalamaya göre daha güvenilirdir. Medyan, veri setindeki tüm elemanlardan etkilenmez. medyan 2 Data 3 1 2 3 2 1 0 2 5 5 1,9 2,3 2 2 VERİ DEĞERLENDİRME GİRİŞ ortalama 2,7 Data 2 1 2 3 2 1 0 2 5 1 28 UYGULAMA ÖRNEKLERİ Data 1 1 2 3 2 1 0 2 5 8 • GİRİŞ Veri setinin modu olmayacağı gibi birden fazla da modu olabilir. Mod genellikle kesikli şans değişkenleri için oluşturulan gruplanmış verilerde aritmetik ortalama yerine kullanılabilir. Data 1 1 2 3 2 1 0 2 5 8 ortalama 2,7 Data 2 1 2 3 2 1 0 2 5 1 Data 3 1 2 3 2 1 0 2 5 5 1,9 2,3 medyan 2 2 2 mod 2 2 2 29 VERİ DEĞERLENDİRME • UYGULAMA ÖRNEKLERİ Mod: Bir veri setinde en çok gözlenen ( en çok tekrar eden ) değere veya frekansı en fazla olan şans değişkeni değerine mod adı verilir. UYGULAMA ÖRNEKLERİ 30 VERİ DEĞERLENDİRME GİRİŞ GİRİŞ Kartil: Bir veri setini büyükten küçüğe veya küçükten büyüğe sıraladığımızda dört eşit parçaya ayıran üç değere kartiller adı verilir. •%50’lik kısmı içinde bulunduran 2. Kartil (Q2) aynı zamanda veri setinin medyanıdır. 31 UYGULAMA ÖRNEKLERİ VERİ DEĞERLENDİRME •İlk % 25’lik kısmı içinde bulunduran 1. Kartil (Q1), % 50’lik kısmı içinde bulunduran 2. Kartil (Q2), % 75’lik kısmı içinde bulunduran 3. Kartil (Q2), olarak adlandırılır. UYGULAMA ÖRNEKLERİ 32 VERİ DEĞERLENDİRME GİRİŞ GİRİŞ Yayılma (Değişkenlik) Ölçüleri 33 UYGULAMA ÖRNEKLERİ VERİ DEĞERLENDİRME •Bir veri setini tanımak yada iki farklı veri setini birbirinden ayırt etmek için her zaman yalnızca merkezi eğilim ölçüleri yeterli olmayabilir. Dağılımları birbirinden ayırt etmede kullanılan ve genellikle aritmetik ortalama etrafındaki değişimi dikkate alarak hesaplanan istatistiklere yayılma (değişkenlik) ölçüleri adı verilir. GİRİŞ Yayılma (Değişkenlik) Ölçüleri 34 UYGULAMA ÖRNEKLERİ VERİ DEĞERLENDİRME Aşağıdaki iki grafik n = 1500 hacimli iki farklı örnek doğrultusunda oluşturulan histogramlardır. Her iki örnek ortalaması yaklaşık olarak 100 olduğuna göre iki örneğin aynı anakütleden alındığı söylenebilir mi? GİRİŞ Range (Değişim Aralığı): Veri setindeki yayılımı ifade etmede kullanılan en basit ölçü, değişim aralığıdır. Genel olarak az sayıda veri için kullanılır. Range, veri setindeki tek bir gözlemin aşırı derecede küçük veya büyük olmasından etkilendiği için bir başka ifadeyle örnekte yer alan sadece iki veri kullanılarak hesaplanmasından dolayı tüm veri setinin değişkenliğini açıklamak için yetersiz kalmaktadır. 35 UYGULAMA ÖRNEKLERİ VERİ DEĞERLENDİRME En büyük gözlem değeri ile en küçük gözlem değeri arasındaki fark değişim aralığını verir. GİRİŞ Varyans: Veri setindeki her bir gözlem değerinin aritmetik ortalamadan farklarının karelerinin toplamının örnek hacminin bir eksiğine bölünmesinden elde edilen yayılım ölçüsüne örnek varyansı adı verilir. 36 UYGULAMA ÖRNEKLERİ VERİ DEĞERLENDİRME Dağılımları birbirinden ayırt etmede kullanılan yayılım ölçüleri aritmetik ortalama etrafındaki değişimleri dikkate alan tanımlayıcı istatistiklerdir. Bir veri setinde aritmetik ortalamalardan her bir gözlemin farkı alınıp bu değerlerin tümü toplandığında sonucun 0 olduğu görülür. Bu örnekten görüleceği üzere gözlemlerin aritmetik ortalamadan uzaklığı alıp toplandığında 0 elde edildiğinden dolayı bu problem mutlak değer kullanarak veya karesel uzaklık alınarak ortadan kaldırılır. GİRİŞ 37 UYGULAMA ÖRNEKLERİ Örnek: ppm^2gibi. Bu nitelendirme veriler açısından bir anlam taşımayacağından varyans yerine ortalama etrafındaki değişimin bir ölçüsü olarak onun pozitif karekökü olan standart sapma kullanılır. VERİ DEĞERLENDİRME Varyans hesaplanırken kullanılan verilerin kareleri alındığında mevcut ölçü biriminin de karesi alınmış olur. GİRİŞ Station 2 Station 3 Ortalama 4 7 5 St sapma 2 3 2 VERİ DEĞERLENDİRME Station 1 38 UYGULAMA ÖRNEKLERİ ???? Hangi istasyonda daha sık gözlem yapmalıyım??? GİRİŞ Station 2 Station 3 Ortalama 4 7 5 St sapma 2 3 2 Değişkrnlik kts 0,5 0,42 0,4 VERİ DEĞERLENDİRME Station 1 39 UYGULAMA ÖRNEKLERİ ???? Hangi istasyonda daha sık gözlem yapmalıyım??? GİRİŞ s C *100 X V 40 UYGULAMA ÖRNEKLERİ VERİ DEĞERLENDİRME Değişkenlik(Varyasyon) Katsayısı: Standart sapmayı ortalamanın bir yüzdesi olarak ifade eden ve iki veya daha fazla veri setinin varyasyonunu (değişkenliğini) karşılaştırmada kullanılan ölçüye varyasyon(değişkenlik) katsayısı denir. GİRİŞ Çarpıklık Ölçüleri VERİ DEĞERLENDİRME Veri setlerini birbirinden ayırmak için her zaman yalnızca yer ve yayılım ölçüleri yeterli olmayabilir. Aşağıda iki farklı popülasyondan alınmış örnekler için oluşturulan histogramlar verilmiştir. A 0 A B 41 UYGULAMA ÖRNEKLERİ 0 Sağa çarpık dağılım A.O = Med = Mod Sola çarpık dağılım A.O < Med < Mod A.O > Med > Mod İki modlu simetrik dağılım Modu olmayan dağılım Tekdüzen dağılım 42 UYGULAMA ÖRNEKLERİ Simetrik Dağılım VERİ DEĞERLENDİRME GİRİŞ Çarpıklık Ölçüleri GİRİŞ VERİ DEĞERLENDİRME 43 UYGULAMA ÖRNEKLERİ SU KALİTE DEĞERLENDİRME UYGULAMALARINDAN ÖRNEKLER GİRİŞ Q1:Kutunun alt kenarı Q3:Kutunu üst kenarı Q2:Kutunun ortasındaki çizgi Sapan hariç min.: Alt bıyık Sapan hariç max.: Üst bıyık UYGULAMA ÖRNEKLERİ VERİ DEĞERLENDİRME Sapan değer kontrolu Q1 – 1.5(Q3 – Q1) Q3 + 1.5(Q3 – Q1) bu değerleri aykırı (aşan) veriler * ile gösterilir. 45 UYGULAMA ÖRNEKLERİ VERİ DEĞERLENDİRME GİRİŞ Box Plot-Kutu Grafiği 46 UYGULAMA ÖRNEKLERİ VERİ DEĞERLENDİRME GİRİŞ Box Plot-Kutu Grafiği UYGULAMA ÖRNEKLERİ VERİ DEĞERLENDİRME GİRİŞ GİRİŞ “Suppose that a water-quality standard stated that the 90th percentile of arsenic concentrations in drinking water shall not exceed 300 ppb.” “90th percentile!!!!!!! “ 48 UYGULAMA ÖRNEKLERİ VERİ DEĞERLENDİRME Karakteristik değer!!!!!! Faktör analizi Kümeleme (cluster) analizi Diskriminant analizi Çok boyutlu ölçeklendirme (Multi-dimensional scaling) VERİ DEĞERLENDİRME • Parametrik olmayan trend analizi • Bu konuda yapılmış çalışmalar • 2.b.1-liste.docx 49 UYGULAMA ÖRNEKLERİ • • • • GİRİŞ Su kalitesi değerlendirmede çok değişkenli istatistiksel yöntemler UYGULAMA ÖRNEKLERİ 50 VERİ DEĞERLENDİRME GİRİŞ 51 Teşekkür ederim… 52