enformasyon

advertisement
ENFORMASYON
Enformasyon Teorisi (Bilgi Kuramı) 1940 ‘lı yıllarda telekomünikasyona bağlı
problemlerin çözümü sırasında ortaya çıkmıştır. Bilgi kuramının amacı bilginin elde edilmesi,
aktarılması, işlenmesi ve saklanmasına ilişkin kuralları incelemektir. Bilginin aktarılması
sürecindeki rasgelelik olgusu bu süreçlerin incelenmesinde istatistik yöntemlerin kullanılmasını
kaçınılmaz kılmaktadır.
Önceki derste bir sistemin karasızlık derecesi olarak entropi kavramını tanımladık. Bir
sistemin entropisi sadece mümkün olan durum sayısı ile değil; o durumda bulunma olasılıkları ile
 x , x ,..., xn 
bağlantılıdır. Bir X   1 2
 sistemini göz önüne alalım. Sistemin içinde bulunduğu
 p1 , p2 ,..., pn 
durumun entropisi H(X) olsun. Sistem hakkında bazı “bilgiler” sağlandıkça, örneğin “sistem
x1 , x2 , x3 durumlarından birindedir” gibi bir olayın gerçekleştiği bilindiğinde, sistemin entropisi
düşecektir. Sistem hakkında önceki entropi H(X) ve “bilgi” birikimi sonrası entropi H1(X)<H(X)
olsun. H(X)- H1(X) farkını düşünelim. Eğer edinilen “bilgiler” sistemi kesin belirliyorsa H1(x)= 0
olacaktır. Bir X sisteminin kesin olarak belirlenmesine yarayan bilgi değeri I(X) sistemin söz
konusu bilgiyi sağlamadan önceki entropisi H(X) olarak tanımlanabilir.
Bir maddesel sistemin durumu kesinkes biliniyor yani entropisi sıfırsa, bunun hakkında
aktarılan bilgi değeri sıfırdır. Gelişigüzel (rasgele) durumlarda bulunabilen bir sistem göz önüne
alalım. Örneğin, 18 Mart günü Ankara’da havanın kar yağışlı ( 1 durumu) olması olasılığı %10,
yağmurlu ( 2 durumu) olması olasılığı %40 ve yağışsız ( 3 durumu) olması olasılığının %50
olduğu önceki yıllardan tesbit edilmiş olsun. Bu sistemin entropisi ve bilgi içeriği,
H ( X )  0.40 ln 0.40  0.10 ln 0.10  0.50 ln 0.50  1.361 ln2=1.361(bit)
dir. 18 Mart günü Ankara’da hava (sistem) üç durumdan birinde olacaktır. Aşağıdaki üç haberden
biri sistemi belirlemektedir.
* 18 Mart günü Ankarada hava kar yağışlı.
* 18 Mart günü Ankarada hava yağmurlu.
* 18 Mart günü Ankarada hava yağışsız.
Doğal olarak, bu haberlerin hangisinin bilgi içeriği daha fazladır veya haberlerin hangisi daha
kıymetlidir gibi sorular akla gelmektedir. Bu üç haberin gerçekleşme olasılıkları sırasıyla,
p  0.40 , p  0.10 , p  0.50 olmak üzere,
1
2
3
 ln p   ln 0.40  0.91629
1
 ln p   ln 0.10  2.3026
2
 ln p   ln 0.50 =0.69315
3
değerlerinin kendi olasılıkları ile ağırlıklı ortalaması olan,
 p ln p  p ln p  p ln p  0.40ln 0.40  0.10ln 0.10  0.50ln 0.50
1
1
2
2
3
değeri sistemin bilgi değerini vermektedir.
3
 ln p  ln
1
1
  ln 0.40  0.91629
p
1
 ln p  ln
2
1
p
  ln 0.10  2.3026
2
 ln p  ln
3
1
p
  ln 0.50 =0.69315
3
değerlerine 1 , 2 , 3 durumlarının (haberlerinin) bilgi içeriği denir.
 x , x ,..., xn 
Bir X   1 2
 sistemi ile ilgili,
 p1 , p2 ,..., pn 
I ( xi )   ln pi  ln
1
, i  1, 2,..., n
pi
değerine xi durumunun bilgi içeriği (information content) veya xi durumunun kendi-bilgisi yada
xi durumuna ait münferit-bilgi (self-information) denir. Sistemin bilgi değeri,
n
I ( X )   pi I ( xi )
i 1
sistem durumlarının bilgi içeriklerinin durum olasılıkları ile ağırlıklı ortalamasıdır. X rasgele
değişkeni (sistem) düzgün dağılıma sahip olduğunda, her duruma ait münferit-bilgi eşit ve
I ( xi )   ln pi   ln
1
 ln n , i  1, 2,..., n
n
sistemin bilgi değeri de I ( X ) 
n
pi I ( xi ) = ln n

i 1
 x , x2 
dir. X   1
 sisteminde, durumların
 0.10, 0.90 
münferit bilgileri (bilgi içerikleri)
I ( x1 )   ln 0.10  2ln10
I ( x2 )   ln 0.90  ln10  ln 9
olup, sistemin bilgi değeri (entropisi)
I ( X )  0.10 ln 0.10  0.90 ln 0.90  0.10  2 ln10  0.90(ln10  ln 9)  1.1ln10  0.90 ln 9
dır. Dikkat edilirse, x1 durumunun bilgi içeriği sistemin bilgi değerinden daha büyüktür.
Kesikli bir X rasgele değişkeni (sistemi) için X rasgele değişkeninin aldığı değer x
olduğunda, bu sonucun (durumun) bilgi içeriği
I ( x)   ln P( X  x)  ln
1
P( X  x)
dır. Bir sonucun (durumun) bilgi içeriği sadece sonucun gerçekleşmesi olasılığına bağlı olup, bu
olasılık ne kadar küçükse, bilgi içeriği o kadar büyüktür. Düzgün bir tavla zarının atılması
deneyinde 1 gelmesi sonucunun, başka bir ifade ile 1 geldiğinin söylenmesinin (haberinin) bilgi
içeriği,
1
 ln 6  1.7918=2.585ln2=2.585 (bit)
1/ 6
olup, düzgün bir para atılışında tura geldiği söylenmesinin (haberinin) bilgi içeriği,
ln
ln
1
 ln 2  1 (bit)
1/ 2
dir.
Kesikli bir X rasgele değişkenin olasılık fonksiyonu f X olsun. X  x sonucuna (durumuna)
ait münferit-bilgi,
I ( x)   ln f X ( x)
olmak üzere,
I ( X )  E ( ln  f X ( X )   f X ( x) ln f X ( x)
x
değerine rasgele değişkenin bilgi entropisi (information entropy ) de denmektedir. Bilgi entropisi
kavramına, bilgi içeriği veya münferit-bilgi ile tanımlanan bilgi kavramına dayalı bir entropi
kavramı denebilir. Rasgele değişkenler (sistemler) için bilgi entropisi kavramı ile geçen derste bir
 x1 , x2 ,..., xn 
X 
 sisteminin karasızlık derecesi olarak tanımlanan,
 p1 , p2 ,..., pn 
n
H ( X )   pi ln pi
i 1
entropi kavramları aynıdır.
 x1 , x2 ,..., xn 
 y1 , y2 ,..., ym 
X 
 ve Y  

 p1 , p2 ,..., pn 
 r1 , r2 ,..., rm 
durumlarının kümesi,
( x , y ) : i  1, 2,..., n ,
i
ve
j
gibi iki sistemin bileşkesi olan sistemin
j  1, 2,..., m
f X ,Y ( xi , y j )  P  X  xi , Y  y j   pij , i  1, 2,..., n , j  1, 2,..., m
olmak üzere,
n
I ( X , Y )  H ( X , Y )  
i 1
m
p
j 1
ij
ln pij
değerine ( X , Y ) bileşik sistemin bilgi değeri denir.
Bir X sistemi hakkındaki bilgi (sisteminin bilgi değeri) başka bir Y sisteminin gözlenmesi
sonucu elde edilebilir. X hakkında edinilen bilginin değeri nasıl hesaplanacaktır? Y sistemine
ilişkin verilerden önce X in entropisi H(X) idi. Bu veriler sağlandıktan sonra entropi H(X/Y)
olmuştur. Veriler dolayısıyla entropi düşüşü, Y sisteminin X hakkında sağladığı bilgi miktarı
olacaktır. ( X , Y ) bileşke sisteminde, Y sisteminin X hakkında sağladığı bilgi miktarı
I (Y  X )  H ( X )  H ( X / Y )
ve X sisteminin Y hakkında sağladığı bilgi miktarı
I ( X  Y )  H (Y )  H (Y / X )
olarak tanımlanmaktadır.
I (Y  X )  H ( X )  H ( X / Y )  H ( X )  H (Y )  H ( X , Y )
I ( X  Y )  H (Y )  H (Y / X )  H (Y )  H ( X )  H ( X , Y )
olmak üzere,
I (Y  X )  I ( X  Y )
dır.
Bir ( X , Y ) bileşik sisteminde
I ( X  Y )  I (Y  X )  I ( X  Y )
değerine, X ve Y sistemleri içindeki karşılıklı bilgi (karşılıklı toplam bilgi) miktarı denir.
Bir ( X , Y ) bileşik sisteminde X ve Y sistemleri bağımsız ise H ( X , Y )  H ( X )  H (Y )
olup, I ( X  Y ) dır. Kendisinden bağımsız bir sistem gözlenerek derlenen bilginin, sistem için
bir değeri yoktur.
Bir ( X , Y ) bileşik sisteminde H ( X / Y ) =0 olduğunda Y sistemi X sistemini kesin olarak
belirlemektedir. Genelde H ( X / Y )  H (Y / X ) olmak üzere, Y sistemi X sistemini kesin olarak
belirliyor olmasına rağmen, X sistemi Y sistemini kesin olarak belirlemeyebilir. Eğer, X ve Y
sistemleri birbirini kesin olarak belirliyorsa,
H ( X / Y )  H (Y / X )  0
olup,
I ( X  Y )  I ( X )  I (Y )  H ( X )  H (Y )
dır.
 x1 , x2 ,..., xn 
 y1 , y2 ,..., ym 
X 
 ve Y  

 p1 , p2 ,..., pn 
 r1 , r2 ,..., rm 
durumlarının kümesi,
( x , y ) : i  1, 2,..., n ,
i
ve
j
gibi iki sistemin bileşkesi olan sistemin
j  1, 2,..., m
f X ,Y ( xi , y j )  P  X  xi , Y  y j   pij , i  1, 2,..., n , j  1, 2,..., m
olmak üzere,
I (Y  X )  H ( X )  H (Y )  H ( X , Y )
 E[ ln f X ( X )  ln fY (Y )  ln f X ,Y ( X , Y )]
f X ,Y ( X , Y )
 E[ln
n
f X ( X ) fY (Y )
]
f X ,Y ( xi , y j )
n
  f X ,Y ( xi , y j ) ln
f X ( xi ) fY ( y j )
i 1 j 1
n
n
  pij ln
i 1 j 1
pij
pi rj
dır.
( X , Y ) bileşik sisteminde, Y nin bir y j durumunda olduğu bilindiğinde ( Y nin bir y j
durumunda bulunduğunu bildiren bir haberleşmede) X in koşullu entropisi olan
n
I ( y j  X )  H ( X / y j )   f X / y j ( xi ) ln f X / y j ( xi )
i 1
değerine kısmi bilgi değeri denir. Kısmi bilgi değeri negatif değildir (ispatlanabilir). Y sisteminin
durumlarının kısmi bilgi değerlerinin ağırlıklı ortalaması,
m

j 1
m
fY ( y j )H ( X / y j )  
j 1
m
 
j 1
n

i 1
m
fY ( y j ) f X / y j ( xi ) ln f X / y j ( xi )  
j 1
n
p
ij
i 1
m
ln pij  
j 1
n
p
i 1
ij
ln f X / y j ( xi )
n
p
i 1
ij
ln fY ( y j )
 H ( X , Y )  H (Y )
 H(X /Y)
 I (Y  X )
dır. Buna göre,
m
n
j 1
i 1
I (Y  X )   rj I ( y j  X )  pi I ( xi  Y )
olup, iki sistemim karşılıklı toplam bilgi değeri sistem durumlarının kısmi bilgi değerlerinin
ağırlıklı ortalamalarına eşittir.
I(X  Y )  H (X )  H (X |Y )  0
dır.
Y=yj koşulu altında X=xi ye ait kısmi bilgi değeri,
I ( y j  xi )  ln
P( X  xi / Y  y j )
P( X  xi )
 ln
pij
pi rj
olarak tanımlanmaktadır. Görüldüğü gibi I ( y j  xi )  I ( xi  y j ) dır.
P( X  xi / Y  y j )  P( X  xi )
olduğunda, başka bir ifade ile Y sisteminin y j durumunda olduğu bilindiğinde X  xi olayının
I ( y j  xi ) kısmi bilginin değeri pozitif olur. Aksi halde negatif olur.
koşullu olasılığı artarsa
Özel olarak P( X  xi / Y  y j )  0 yani Y=yj olayı ile
X=xi olayı bağdaşmaz iki olay ise
I ( y j  xi )   dır.
Sürekli Sistemlerde Enformasyon Kavramı
Sürekli sistemlerde (rasgele değişkenlerde) bilgi ile ilgili kavramlar, kesikli rasgele
değişkenlerdeki formüllerde toplam işareti  yerine integral işareti ve olasılık fonksiyonu
değerleri yerine olasılık yoğunluk fonksiyonları yazılması ile oluşturulmaktadır.
Sürekli bir X sisteminin (sürekli bir rasgele X değişkeninin) bilgi değeri,
I(X )  


f ( x)ln f ( x)dx

olarak tanımlanmaktadır.
(X,Y) bileşik sisteminin, başka bir ifade ile (X,Y) rasgele vektörünün olasılık yoğunluk
fonksiyonu f X ,Y olsun. Ayrıca X ile Y bileşenlerinin olasılık yoğunluk fonksiyonları f X , fY ve
koşullu dağılımların olasılık yoğunluk fonksiyonları f X / y , f Y / x olsun.
bilgi değeri,
I ( X , Y )  E[ ln f ( X , Y )]  



 
olarak tanımlanmaktadır.
( X , Y ) bileşik sisteminin
f X ,Y ( x, y) ln f X ,Y ( x, y)dxdy
X ile Y sistemlerinin karşılıklı bilgi değeri,
I (Y  X )  H ( X )  H (Y )  H ( X , Y )
 E[ ln f X ( X )  ln fY (Y )  ln f X ,Y ( X , Y )]
 E[ln
f X ,Y ( X , Y )
f X ( X ) fY (Y )
 


f X ,Y ( x, y ) ln
 
]
f X ,Y ( x, y )
f X ( x ) fY ( y )
dxdy
olarak tanımlanmaktadır.
Sürekli dağılımlarda, rasgele değişkenin belli bir değer eşit olması sıfırdır. Sürekli
dağılımlar (sistemler) için kısmi bilgi değerinden bahsedilemez.
X N (0,  X2 ) rasgele değişkeninin değerleri (sisteminin durumları) N (0,  2 ) dağılımına
sahip bir V
hatası ile Y  X  V olarak gözlensin. Y rasgele değişkeninin (sisteminin
durumlarının) dağılımı Y N (0,  X2   2 ) dır. X sistemi hakkında Y nin içerdiği bilgi değeri
nedir? Esasında, X sistemi hakkında Y nin içerdiği bilgi değeri ile Y sistemi hakkında X in
içerdiği bilgi değeri aynı olup iki sistemin karşılıklı bilgi değerine eşittir ve
I (Y  X )  H ( X )  H (Y )  H ( X , Y )
 E[ln
 E[ln
f X ,Y ( X , Y )
f X ( X ) fY (Y )
]
fY / X ( X )
]
fY (Y )
 E  ln fY / X (Y )   E  ln fY (Y ) 
(Y  X )2
 

2
1
 E ln 
e 2
  2 2
 
 0  ln
dır.
 x2  2

2 2
 ln  x
Y2
 



2
2
1
2(

   E ln 
e X  )  
  2 ( X2   2 )




 
Kullback-Leibler Uzaklığı
 x , x ,..., xn 
Şu ana kadar X   1 2
 gibi kesikli bir sistem veya rasgele değişken için entropi
 p1 , p2 ,..., pn 
ve bilgi içeriği kavramları ( x1 , x2 ,..., xn durumları üzerinde bir p1 , p2 ,..., pn olasılık dağılımının
veya kısaca p1 , p2 ,..., pn olasılık dağılımın entropisi ve bilgi içeriği kavramları) ele alındı.
n
n
i 1
i 1
H ( X )  I ( X )   pi ln pi   f X ( xi ) ln f X ( xi )   E ln( f X ( X ) 
ve sürekli rasgele değişkenler (sistemler) için
H(X )  
ve
I(X )  

 f
X
( x)ln f X ( x)dx  ln x  E ln f X ( X )x 

 f ( x)ln f ( x)dx  E  f
X
( X )
olarak verildi.
Yukarıda, H ( X ) ve I ( X ) gösterimi yerine H ( f X ) ve I ( f X ) gösterimi de kullanılabilir,
yani
H ( f X )  I ( f X )  E   ln( f X ( X )
dır. Şimdi, yukarıdaki kesikli sistemin x1 , x2 ,..., xn durumları üzerinde başka bir
g X ( xi )  P( X  xi )  qi , i  1, 2,..., n
olasılık dağılımının da söz konusu olduğunu düşünelim.Bu dağılımın bilgi içeriği ve entropisi,
n
n
i 1
i 1
I ( g X )  H ( g X )  E   ln( g X ( X )    g X ( xi ) ln g X ( xi )   qi ln qi
dır. Aynı x1 , x2 ,..., xn durumları üzerinde söz konusu olan f X ve g X
karşılaştırmak için tanımlanan,
DKL ( f X
gibi iki dağılımı
 f (X )  n
f X ( xi ) n
p
g X )  E f X ln X

f
(
x
)
ln
  pi ln i
  X i
g X ( xi ) i 1
qi
 g X ( X )  i 1
değerine Kullback-Leibler uzaklığı (Kullback-Leibler bilgi kazancı, göreli entropi) denir.
Sürekli durumda Kullback-Leibler uzaklığı,
DKL ( f X
dır. Genelde, DKL ( f X
değildir.
 f (X )  
f X ( x)
g X )  E f X ln X
dx
   f X ( x) ln
g X ( x)
 g X ( X )  
g X )  DKL ( g X
f X ) olduğundan Kullback-Leibler uzaklığı bir metrik
f X ve g X bir X sistemi (rasgele değikeni) ile ilgili iki hipotez ( H 0 : X f X , H1 : X g X )
f ( x)
altındaki dağılımları gösterdiğinde Kullback-Leibler uzaklığı ln X
karşıtlık oranının
g X ( x)
logaritmasının sıfır hipotezi altında beklenen değeridir (expectation of the log-odds ratio).
(X,Y) bileşik sistemi, başka bir ifade ile (X,Y) rasgele vektörü ile ilgili öne sürülen f X ,Y ve
g X ,Y gibi iki dağılım için Kullback-Leibler uzaklığı,
DKL ( f X ,Y
g X ,Y )  E f
X ,Y
 f X ,Y ( X , Y ) 
ln

 g X ,Y ( X , Y ) 
olarak tanımlanır.
(X,Y) bileşik sisteminin g X ,Y dağılımı altında bileşenleri bağımsız, yani g X ,Y  g X gY ise,
DKL ( f X ,Y
g X ,Y )  E f
 Ef
olup, bu durumda DKL ( f X ,Y
bilgi değeridir.
X ,Y
X ,Y
f X ,Y ( X , Y ) 

ln
  E f X ,Y
g
(
X
)
g
(
Y
)

X
Y

ln f X / Y (Y / X )  H (Y )  H (Y )  H ( X / Y )  I ( X  Y )
g X ,Y ) Kullback-Leibler uzaklığı aynı zamanda I ( X  Y ) karşılıklı
N tane durumu olan kesikli (X,Y)
olduğunda,
DKL ( f X ,Y g X ,Y )  E f
dır.
X ,Y
 f X ,Y ( X , Y ) 
ln
  E f X ,Y  ln gY (Y ) 
g
(
X
)

X

bileşik sistemi için g X ,Y dağılımı düzgün dağılım


 f X ,Y ( X , Y ) 
 f X ,Y ( X , Y ) 
ln
  E f X ,Y ln
  ln N  E f X ,Y ln f X ,Y ( X , Y )   ln N  H ( f X ,Y )
1
 g X ,Y ( X , Y ) 


N


Download