su kalitesi verilerinin istatistiksel yöntemlerle değerlendirilmesi

advertisement
SU KALİTESİ VERİLERİNİN İSTATİSTİKSEL
YÖNTEMLERLE DEĞERLENDİRİLMESİ
Doç. Dr. Hülya Boyacıoğlu
Dokuz Eylül Üniversitesi
Çevre Mühendisliği Bölümü
[email protected]
1
KAPSAM
• Giriş (Su kalite verilerinin özellikleri)
• Su Kalite verilerinin değerlendirilmesi
•Grafiksel analiz
•Tanımlayıcı istatistikler
• Uygulama örnekleri
2
GİRİŞ
GİRİŞ
3
UYGULAMA ÖRNEKLERİ
VERİ DEĞERLENDİRME
Su kalitesinin izlenmesi ve değerlendirilmesi
• Veri toplama ve değerlendirme amacının ortaya konması ve örneklem tasarımı
• Ön değerlendirme
• İstatistiksel yöntemin belirlenmesi
• İstatistiksel yöntemin tahminlerinin doğrulanması/değerlendirilmesi
• Sonuç çıkarsanması
GİRİŞ
GİRİŞ
Hangi kalite değişkeninin değerlendireceğim.
Veriler hangi zaman aralığında, ne sıklıkta analizlenmiş?
Ortalama su kalite değeri
Su kalitesinin değişimi
Yüksek yüzde değerleri (örneğin %95 değeri)
Gözlem sahaları ortalama değerleri kıyası
Gözlem sahaları yüksek yüzde değerleri kıyası
Su kalitesi ile ilişkiler? (sıcaklık, deşarj)
4
UYGULAMA ÖRNEKLERİ
•
•
•
•
•
•
VERİ DEĞERLENDİRME
Hangi soruya yanıt arıyorum?
• Mevsimsellik gösteren veri setleri (bazı kalite değişkenleri yaz aylarında daha yüksek
değerler alır )
• Otokorelasyon (örn. Akarsu boyunca yer alan yakın istasyonlardan alınan örnekler, aynı
istasyondan kısa zaman aralıklarında alınan örnekler ilişkili olabilir)
5
UYGULAMA ÖRNEKLERİ
VERİ DEĞERLENDİRME
Su Kalite Veri Özellikleri
• Verilerin alt sınır değeri 0. Negatif değer gözlenmez.
• Aykırı (sapan) değerler (outlier). Genellikle yüksek değerler tarafındadır (dikkate
alınmazsa sonuçlar farklı yorumlanır)
• Normal olmayan dağılım. Sağ tarafta yer alan kuyruklar (çarpıklık). Genelde simetrik
olmayan, çarpıklık gösteren veri setleri
GİRİŞ
GİRİŞ
6
GİRİŞ
VERİ DEĞERLENDİRME
UYGULAMA ÖRNEKLERİ
GİRİŞ
Aykırı (Sapan) değerler
• Aykırı değerler (outlier).-Net tanımı henüz yapılmamış ancak veri setinde normal
olmayan değer(ler) olarak değerlendirilebilir.
• Veri setinden değerlendirme başlamadan çıkarılabilir.
• Yazım hatası olup olmadığına bakılabilir
• Örneklem seti düşünülenden daha karmaşık olabilir ve aykırı değer bunun
sonucu olabilir.
• Aykırı değerleri içeren ve içermeyen veri setleriyle analiz yapılıp sonuçlar
kıyaslanır ve sonuç farklı değilse veri setinde değerler kalabilir.
UYGULAMA ÖRNEKLERİ
7
VERİ DEĞERLENDİRME
GİRİŞ
GİRİŞ
8
UYGULAMA ÖRNEKLERİ
VERİ DEĞERLENDİRME
GİRİŞ
Eksik veriler
• Tamamen raslantısal eksiklik (numune şişesinin kırılması vb)
• Raslantısal eksiklik (kötü hava koşulları nedeniyle arazide numune alınamaması)
• Ölçüm cihazı analiz limitlerinin dışında gözlenen konsantrasyonlar
GİRİŞ
VERİLERİN DEĞERLENDİRİLMESİ
Tanımlayıcı istatistikler
9
UYGULAMA ÖRNEKLERİ
VERİ DEĞERLENDİRME
Grafiksel analizler
10
UYGULAMA ÖRNEKLERİ
VERİ DEĞERLENDİRME
GİRİŞ
Zaman serisi grafiği
• Değişkenlerin birbirleri arasındaki ilişkileri gösteren grafiklerdir.
• İlişkinin var olup olmadığını ve yönünün tespit edilmesinde kullanılır.
• Sayısal bir değer ile ifade edilmez.
11
UYGULAMA ÖRNEKLERİ
VERİ DEĞERLENDİRME
GİRİŞ
Serpme grafiği
k: sınıf sayısı,
n: örneklem büyüklüğü
2k > n
Sınıf
f
Küm f
Rel f
Küm Rel f
15-27
28-40
4
5
4
9
.11
.13
.11
.24
41-53
54-66
67-79
80-92
9
12
5
2
18
30
35
37
.24
.32
.13
.05
.48
.80
.93
.98
93-105
1
38
.02
1.00
14
VERİ DEĞERLENDİRME
Veriyi gruplara ayırarak anlaşılabilir
hale getirmek için
Gözlenme sıklıklarını ve olasılıklarını
belirlemek için histogramlar çizilir.
GİRİŞ
Histogramlar
12
10
6
4
2
0
21
34
47
60
Orta Nokta
73
86
99
12
UYGULAMA ÖRNEKLERİ
8
f
UYGULAMA ÖRNEKLERİ
13
VERİ DEĞERLENDİRME
GİRİŞ
VERİ DEĞERLENDİRME
Verinin bütününü bir nitelik değerine göre görüntüleme
Veri setindeki tüm değerleri görüntüleme „
Veri bir nitelik değerine göre küçükten büyüğe doğru sıralanır „
xi değeri için Fi miktardaki veri xi değerinden küçük ya da eşittir
14
UYGULAMA ÖRNEKLERİ
•
•
•
•
GİRİŞ
Quantile Plot
UYGULAMA ÖRNEKLERİ
15
VERİ DEĞERLENDİRME
GİRİŞ
16
UYGULAMA ÖRNEKLERİ
VERİ DEĞERLENDİRME
GİRİŞ
Box Plot-Kutu Grafiği
17
UYGULAMA ÖRNEKLERİ
VERİ DEĞERLENDİRME
GİRİŞ
Box Plot-Kutu Grafiği
18
UYGULAMA ÖRNEKLERİ
VERİ DEĞERLENDİRME
GİRİŞ
Box Plot-Kutu Grafiği
Yer Ölçüleri
Değişkenlik Ölçüleri
Çarpıklık Ölçüleri
Basıklık Ölçüleri
VERİ DEĞERLENDİRME
•
•
•
•
• Analizlerde
kullanılan
veri
tiplerine
(basit,
gruplanmış,
sınıflanmış)
göre
hesaplamalarda
kullanılacak
formüller değişmektedir.
19
UYGULAMA ÖRNEKLERİ
• Bir veri setini tanımak veya
birden
fazla
veri
setini
karşılaştırmak için kullanılan ve
ayrıca örnek verilerinden hareket
ile frekans dağılışlarını sayısal
olarak
özetleyen
değerlere
tanımlayıcı istatistikler denir.
GİRİŞ
TANIMLAYICI İSTATİSTİKLER
20
UYGULAMA ÖRNEKLERİ
VERİ DEĞERLENDİRME
GİRİŞ
Tanımlayıcı istatistikler
GİRİŞ
Tanımlayıcı istatistikler
21
UYGULAMA ÖRNEKLERİ
VERİ DEĞERLENDİRME
Merkezi Eğilim Ölçüleri
•Aritmetik ort.
•Mod
•Medyan
•Kartiller
VERİ DEĞERLENDİRME
Dağılım Ölçüleri
•Range
•(Değişim Aralığı)
•Varyans Standart Sapma
•Değişkenlik(Varyasyon)
katsayısı
22
UYGULAMA ÖRNEKLERİ
Merkezi Eğilim Ölçüleri
•Aritmetik ort.
•Mod
•Medyan
•Kartiller
GİRİŞ
Tanımlayıcı istatistikler
Basıklık
Ölçüleri
VERİ DEĞERLENDİRME
Dağılım Ölçüleri
Çarpıklık Ölçüleri
•Range
•(Değişim Aralığı)
•Varyans Standart Sapma
•Değişkenlik(Varyasyon)
katsayısı
23
UYGULAMA ÖRNEKLERİ
Merkezi Eğilim Ölçüleri
•Aritmetik ort.
•Mod
•Medyan
•Kartiller
GİRİŞ
Tanımlayıcı istatistikler
GİRİŞ
Merkezi Eğilim Ölçüleri
24
UYGULAMA ÖRNEKLERİ
VERİ DEĞERLENDİRME
Veri setinin orta noktası veya merkezinin değeridir.
•Aritmetik ort.
•Mod
•Medyan
•Kartiller
25
UYGULAMA ÖRNEKLERİ
VERİ DEĞERLENDİRME
GİRİŞ
Aritmetik ortalama: Veri setindeki elemanların
toplanıp veri sayısına bölünmesiyle elde edilen
yer ölçüsü.
GİRİŞ
Data 3
1
2
3
2
1
0
2
5
5
9
2,3
VERİ DEĞERLENDİRME
Data 2
1
2
3
2
1
0
2
5
1
9
1,9
26
UYGULAMA ÖRNEKLERİ
Data 1
1
2
3
2
1
0
2
5
8
N
9
ortalama
2,7
GİRİŞ
n  1 • Veri Setinin Hacmi Tek Sayı İse;
2 nci gözlem değeri medyandır.
• Veri Setinin Hacmi Çift Sayı İse;
n
2
n
1
2
nci gözlem değerinin aritmetik
ortalaması medyandır.
27
VERİ DEĞERLENDİRME
•
UYGULAMA ÖRNEKLERİ
•
Medyan (Ortanca): Bir veri setini büyükten küçüğe veya küçükten büyüğe
sıraladığımızda tam orta noktadan veri setini iki eşit parçaya ayıran değere medyan
adı verilir.
Veri setinde aşırı uçlu elemanlar olduğunda aritmetik ortalamaya göre daha
güvenilirdir.
Medyan, veri setindeki tüm elemanlardan etkilenmez.
medyan
2
Data 3
1
2
3
2
1
0
2
5
5
1,9
2,3
2
2
VERİ DEĞERLENDİRME
GİRİŞ
ortalama 2,7
Data 2
1
2
3
2
1
0
2
5
1
28
UYGULAMA ÖRNEKLERİ
Data 1
1
2
3
2
1
0
2
5
8
•
GİRİŞ
Veri setinin modu olmayacağı gibi birden
fazla da modu olabilir.
Mod genellikle kesikli şans değişkenleri için
oluşturulan gruplanmış verilerde aritmetik
ortalama yerine kullanılabilir.
Data 1
1
2
3
2
1
0
2
5
8
ortalama 2,7
Data 2
1
2
3
2
1
0
2
5
1
Data 3
1
2
3
2
1
0
2
5
5
1,9
2,3
medyan
2
2
2
mod
2
2
2
29
VERİ DEĞERLENDİRME
•
UYGULAMA ÖRNEKLERİ
Mod: Bir veri setinde en çok gözlenen ( en çok
tekrar eden ) değere veya frekansı en fazla olan
şans değişkeni değerine mod adı verilir.
UYGULAMA ÖRNEKLERİ
30
VERİ DEĞERLENDİRME
GİRİŞ
GİRİŞ
Kartil: Bir veri setini büyükten küçüğe veya
küçükten büyüğe sıraladığımızda dört eşit
parçaya ayıran üç değere kartiller adı
verilir.
•%50’lik kısmı içinde bulunduran 2. Kartil
(Q2) aynı zamanda veri setinin medyanıdır.
31
UYGULAMA ÖRNEKLERİ
VERİ DEĞERLENDİRME
•İlk % 25’lik kısmı içinde bulunduran 1.
Kartil (Q1), % 50’lik kısmı içinde
bulunduran 2. Kartil (Q2), % 75’lik kısmı
içinde bulunduran 3. Kartil (Q2), olarak
adlandırılır.
UYGULAMA ÖRNEKLERİ
32
VERİ DEĞERLENDİRME
GİRİŞ
GİRİŞ
Yayılma (Değişkenlik) Ölçüleri
33
UYGULAMA ÖRNEKLERİ
VERİ DEĞERLENDİRME
•Bir veri setini tanımak yada iki farklı veri setini birbirinden
ayırt etmek için her zaman yalnızca merkezi eğilim ölçüleri
yeterli olmayabilir.
Dağılımları birbirinden ayırt etmede kullanılan ve genellikle
aritmetik ortalama etrafındaki değişimi dikkate alarak
hesaplanan istatistiklere yayılma (değişkenlik) ölçüleri adı
verilir.
GİRİŞ
Yayılma (Değişkenlik) Ölçüleri
34
UYGULAMA ÖRNEKLERİ
VERİ DEĞERLENDİRME
Aşağıdaki iki grafik n = 1500 hacimli iki farklı örnek doğrultusunda oluşturulan
histogramlardır. Her iki örnek ortalaması yaklaşık olarak 100 olduğuna göre iki örneğin
aynı anakütleden alındığı söylenebilir mi?
GİRİŞ
Range (Değişim Aralığı): Veri setindeki yayılımı ifade etmede kullanılan en basit
ölçü, değişim aralığıdır. Genel olarak az sayıda veri için kullanılır.
Range, veri setindeki tek bir gözlemin aşırı derecede küçük veya büyük
olmasından etkilendiği için bir başka ifadeyle örnekte yer alan sadece iki veri
kullanılarak hesaplanmasından dolayı tüm veri setinin değişkenliğini açıklamak
için yetersiz kalmaktadır.
35
UYGULAMA ÖRNEKLERİ
VERİ DEĞERLENDİRME
En büyük gözlem değeri ile en küçük gözlem değeri arasındaki fark değişim
aralığını verir.
GİRİŞ
Varyans: Veri setindeki her bir gözlem değerinin aritmetik ortalamadan
farklarının karelerinin toplamının örnek hacminin bir eksiğine bölünmesinden
elde edilen yayılım ölçüsüne örnek varyansı adı verilir.
36
UYGULAMA ÖRNEKLERİ
VERİ DEĞERLENDİRME
Dağılımları birbirinden ayırt etmede kullanılan yayılım ölçüleri aritmetik
ortalama etrafındaki değişimleri dikkate alan tanımlayıcı istatistiklerdir.
Bir veri setinde aritmetik ortalamalardan her bir gözlemin farkı alınıp bu
değerlerin tümü toplandığında sonucun 0 olduğu görülür.
Bu örnekten görüleceği üzere gözlemlerin aritmetik ortalamadan uzaklığı alıp
toplandığında 0 elde edildiğinden dolayı bu problem mutlak değer kullanarak
veya karesel uzaklık alınarak ortadan kaldırılır.
GİRİŞ
37
UYGULAMA ÖRNEKLERİ
Örnek: ppm^2gibi.
Bu nitelendirme veriler açısından bir anlam taşımayacağından varyans yerine ortalama
etrafındaki değişimin bir ölçüsü olarak onun pozitif karekökü olan standart sapma
kullanılır.
VERİ DEĞERLENDİRME
Varyans hesaplanırken kullanılan verilerin kareleri alındığında mevcut ölçü biriminin de
karesi alınmış olur.
GİRİŞ
Station 2
Station 3
Ortalama
4
7
5
St sapma
2
3
2
VERİ DEĞERLENDİRME
Station 1
38
UYGULAMA ÖRNEKLERİ
???? Hangi istasyonda daha sık gözlem yapmalıyım???
GİRİŞ
Station 2
Station 3
Ortalama
4
7
5
St sapma
2
3
2
Değişkrnlik kts
0,5
0,42
0,4
VERİ DEĞERLENDİRME
Station 1
39
UYGULAMA ÖRNEKLERİ
???? Hangi istasyonda daha sık gözlem yapmalıyım???
GİRİŞ
s
C  *100
X
V
40
UYGULAMA ÖRNEKLERİ
VERİ DEĞERLENDİRME
Değişkenlik(Varyasyon) Katsayısı: Standart sapmayı ortalamanın bir yüzdesi
olarak ifade eden ve iki veya daha fazla veri setinin varyasyonunu
(değişkenliğini) karşılaştırmada kullanılan ölçüye varyasyon(değişkenlik)
katsayısı denir.
GİRİŞ
Çarpıklık Ölçüleri
VERİ DEĞERLENDİRME
Veri setlerini birbirinden ayırmak için her zaman yalnızca yer ve yayılım ölçüleri yeterli
olmayabilir. Aşağıda iki farklı popülasyondan alınmış örnekler için oluşturulan
histogramlar verilmiştir.
A
0

A
B
41
UYGULAMA ÖRNEKLERİ
0
Sağa çarpık
dağılım
A.O = Med = Mod
Sola çarpık dağılım
A.O < Med < Mod
A.O > Med > Mod
İki modlu simetrik dağılım
Modu olmayan
dağılım
Tekdüzen
dağılım
42
UYGULAMA ÖRNEKLERİ
Simetrik Dağılım
VERİ DEĞERLENDİRME
GİRİŞ
Çarpıklık Ölçüleri
GİRİŞ
VERİ DEĞERLENDİRME
43
UYGULAMA ÖRNEKLERİ
SU KALİTE DEĞERLENDİRME
UYGULAMALARINDAN ÖRNEKLER
GİRİŞ
Q1:Kutunun alt kenarı
Q3:Kutunu üst kenarı
Q2:Kutunun ortasındaki çizgi
Sapan hariç min.: Alt bıyık
Sapan hariç max.: Üst bıyık
UYGULAMA ÖRNEKLERİ
VERİ DEĞERLENDİRME
Sapan değer kontrolu
Q1 – 1.5(Q3 – Q1)
Q3 + 1.5(Q3 – Q1) bu değerleri aykırı (aşan)
veriler * ile gösterilir.
45
UYGULAMA ÖRNEKLERİ
VERİ DEĞERLENDİRME
GİRİŞ
Box Plot-Kutu Grafiği
46
UYGULAMA ÖRNEKLERİ
VERİ DEĞERLENDİRME
GİRİŞ
Box Plot-Kutu Grafiği
UYGULAMA ÖRNEKLERİ
VERİ DEĞERLENDİRME
GİRİŞ
GİRİŞ
“Suppose that a water-quality standard stated that the 90th percentile of arsenic
concentrations in drinking water shall not exceed 300 ppb.”
“90th percentile!!!!!!! “
48
UYGULAMA ÖRNEKLERİ
VERİ DEĞERLENDİRME
Karakteristik değer!!!!!!
Faktör analizi
Kümeleme (cluster) analizi
Diskriminant analizi
Çok boyutlu ölçeklendirme (Multi-dimensional scaling)
VERİ DEĞERLENDİRME
• Parametrik olmayan trend analizi
• Bu konuda yapılmış çalışmalar
• 2.b.1-liste.docx
49
UYGULAMA ÖRNEKLERİ
•
•
•
•
GİRİŞ
Su kalitesi değerlendirmede çok değişkenli istatistiksel yöntemler
UYGULAMA ÖRNEKLERİ
50
VERİ DEĞERLENDİRME
GİRİŞ
51
Teşekkür ederim…
52
Download