EGE ÜN VERS TES FEN B L MLER ENST TÜSÜ (DOKTORA TEZ ) TÜRKÇE Ç N STAT ST KSEL B R B LG GER -GET R M S STEM Bekir Taner D NÇER Uluslararası Bilgisayar Anabilim Dalı Bilim Dalı Kodu: 619.02.04 Sunu Tarihi: 17/Eylül/2004 Tez Danı manı: Prof. Dr. Bahar KARAO LAN Bornova – ZM R II III Sayın Bekir Taner D NÇER tarafından DOKTORA TEZ olarak sunulan “Türkçe için statistiksel bir Bilgi Geri-Getirim Sistemi” adlı bu çalı ma, “Lisansüstü E itim ve Ö retim Yönetmeli i”nin madde (c) ve (d) bentleri ve Enstitü yönergesinin ilgili hükümleri dikkate alınarak tarafımızdan de erlendirilmi olup yapılan sözlü savunma sınavında aday oy ………….. ile ba arılı bulunmu tur. Bu nedenle Bekir Taner Dinçer’in sundu u metnin doktora tezi olarak kabulüne oy …………. ile karar verilmi tir. …/………../2004 Jüri Ba kanı :............................................... imza .......................... Raportör :............................................... imza .......................... Üye : .............................................. imza.......................... Üye : .............................................. imza .......................... Üye : .............................................. imza .......................... IV V Sevgili e im Zeynep’e...... VI VII ÖZET TÜRKÇE Ç N STAT ST KSEL B R B LG GER -GET R M S STEM D NÇER, Bekir Taner Doktora Tezi, Uluslararası Bilgisayar Enstitüsü Tez Yöneticisi: Prof. Dr. Bahar KARAO LAN Eylül 2004, 379 sayfa Bu tezde, Türkçe dilbilgisi özelliklerinin kullanımı ile BGG (Bilgi Geri-Getirim) sistemlerinde ba arımın artırılması sa lanmı tır. Sınanan dilbilgisi özellikleri, sözcük türleri (isim, sıfat, zamir v.b.), cümle unsurları (fiil, fail/özne, nesne) ve kelime guruplarıdır. Sözcük türlerinin ve cümle unsurlarının ba arımı anlamlı düzeyde arttırdı ı bulunmu , kelime guruplarının ba arımı arttırdı ı konusunda bir delil sa lanamamı tır. Hesaplamalı dilbilim sahası içine giren dört yöntem geli tirilmi tir: 1-) Türkçe yazılı belgelerin tespiti 2-) Cümle sonlarının tespiti 3-) Kelime gövdeleme 4-) Kelimelerin sözcük türü tespiti. lk üç yöntemde, ba arı sa lanmı , ancak kelimelerin sözcük türü tespitinde, kabul edilebilir bir ba arıma ula ılamamı tır. Sadece, kelimelerin sözcük türü tespiti için, önerilen yöntemin rasgelelikten anlamlı düzeyde farklı oldu unu söyleyebilecek delile ula ılmı tır. Türkçe yazılı belgelerle olu turulan derlemlerde, Zipf ve Mandelbrot ifadeleri için en iyi uyumun parametreleri belirlenmi tir. Anahtar kelimeler: Bilgi geri-getirim, hesaplamalı dilbilim. VIII IX ABSTRACT A STATISTICAL INFORMATION RETRIEVAL SYSTEM FOR TURKISH D NÇER, Bekir Taner PhD Thesis, International Computer Institute Supervisor: Prof. Dr. Bahar KARAO LAN September 2004, 379 pages In this thesis, we have shown that an Information Retrival system performance for Turkish can be enhanced by the use of linguistic knowledge. The examined linguistic properties are part-ofspeeches (noun, adjective, etc.), syntactic functions ( verb, subject, object etc.) and two-word phrases. An evidence of significant contribution on the performance is found in the training corpus for the part-of-speeches and syntactic functions. However, no such evidence is found for the phrases. Additionaly, four methods which are considered to be in the field of computational linguistics are developed. These are: 1-) Turkish texts recognizer, 2-) Sentence boundary detector, 3-) A stemming algorithm and 4-) A statistical part-of-speech tagger. Satisfactory (above 95%) results for first three methods are obtained, however the last method, the part-of-speech tagger, did not show the anticipated performance (85%). At this point, we can only say that the proposed method of part-of-speech tagging shows an evidence of significant difference from randomness. The best fit parameters of Zipf and Mandelbrot functions are, also, experimantally evaluated for selected Turkish corpora. X XI TE EKKÜR Bu tezin var olmasını sa layan, bilimde uzmanlı ını, deneyimlerini ve be eri ili kiler konusundaki de erli fikirlerini özveri ile bana aktaran tez yöneticim ve danı manım Bahar Karao lan’a saygı, sevgi ve ba lılı ımı; aynı zamanda ahsıma dü en zorlukların tamamında yanımda olan ve samimiyetle her türlü deste i benden esirgemeyen sevgili e im Zeynep Koro lu Dinçer’e sonsuz te ekkürlerimi ve a kımı sunarım. Özellikle beni var eden aileme ve aralarına kabul eden kayın-aileme gösterdikleri sabır ve sevgiden dolayı bu çalı ma vesilesi ile bir kere daha en içten te ekkürlerimi sunarım. Çalı malarda desteklerini esirgemeyen, Uluslararası Bilgisayar Enstitüsünden sevgili hocalarım: Aydın Öztürk, Mehmet Emin Dalkılıç ve Turhan Tunalı’ya; çalı ma arkada larım Ebru Çelikel, Cengiz Güngör, lker Kocaba , Burak Aydın, Hasan Sait Erinç, Geylani Karda ve Muhammed Cinsdikici’ye; di er tüm arkada larıma ve çalı anlara ükranlarımı sunarım. Ayrıca, Mu la Üniversitesinden sayın hocalarım Mübariz Eminov’a ve Mustafa Dilek’e yardımlarından dolayı, Ba kent Üniversitesinden Hayri Sever’e katkılarından dolayı, Sabancı Üniversitesinden Kemal Oflazer’e ve ayrıca Gökhan Tür’e derlemlerin sa lanması ve yardımlarından dolayı te ekkürü bir borç bilirim Bu tezi, Türkçe’ye ve Türkçe’nin geli mesine emek vermi olan ba ta Gazi Mustafa Kemal Atatürk olmak üzere, bu yolda çalı mı , tüm hayatını adamı ve dilimizi yüceltmi olan herkesin anısına; halen çalı anların ve gelecekte çalı acak olanların onuruna ithaf ediyorum. XII XIII Ç NDEK LER Sayfa ÖZET............................................................................................................................. VII ABSTRACT.................................................................................................................... IX TE EKKÜR ................................................................................................................... XI 1. G R .............................................................................................................................1 2. TÜRKÇE .................................................................................................................... 19 2.1. TÜRKÇE HARFLER VE ALFABE ..................................................................... 21 2.2. HECELER VE KEL MELER .............................................................................. 22 2.2.1. Türkçe Heceleme .................................................................................... 22 EK L YAPISI BAKIMINDAN KEL MELER ...................................................... 23 2.3. 2.3.1. Kökler ve Gövdeler................................................................................. 23 2.4. ANLAM VEYA GÖREV BAKIMINDAN KEL MELER ....................................... 24 2.5. KEL ME GURUPLARI..................................................................................... 26 2.5.1. Aynen Tekrarlar...................................................................................... 28 2.5.2. Ba lama Gurubu .................................................................................... 28 2.5.3. Sıfat Tamlaması ...................................................................................... 29 yelik Gurubu ve sim Tamlaması.......................................................... 30 2.5.4. 2.5.5. Aitlik Gurubu .......................................................................................... 31 2.5.6. Birle ik sim ve Birle ik Kelime............................................................. 31 2.5.7. Birle ik Fiil ............................................................................................. 32 2.5.8. Unvan Gurubu ........................................................................................ 32 2.5.9. Ünlem Gurubu ........................................................................................ 33 2.5.10. Sayı Gurubu ....................................................................................... 33 2.5.11. Edat Gurubu ...................................................................................... 34 2.5.12. snat (yükleme) Gurubu..................................................................... 34 2.5.13. Genetif Gurubu .................................................................................. 35 2.5.14. Datif Gurubu...................................................................................... 35 2.5.15. Lokatif Gurubu................................................................................... 36 2.5.16. Ablatif Gurubu ................................................................................... 36 2.5.17. Kısaltma Gurupları ........................................................................... 36 2.5.18. Akuzatif Gurubu................................................................................. 37 2.6. CÜMLE VE CÜMLE UNSURLARI ................................................................... 37 2.6.1. Fiil Unsuru.............................................................................................. 38 2.6.2. Fail Unsuru............................................................................................. 39 2.6.3. Nesne ....................................................................................................... 39 2.6.4. Yer Tamlayıcısı ....................................................................................... 40 2.6.5. Zarf .......................................................................................................... 40 2.6.6. Cümle Dı ı Unsurlar .............................................................................. 40 3. ENFORMASYON ..................................................................................................... 41 XIV 3.1. ENFORMASYON B L M VE B LG GER -GET R M ......................................... 41 3.2. ENFORMASYON TANIMI VE FARKLI YAKLA IMLAR ................................... 42 3.2.1. Enformasyon-i lem (Anlamsal-Enformasyon)...................................... 43 3.2.2. Çevre-bilimsel Yakla ım......................................................................... 47 3.2.3. Matematiksel Yakla ım........................................................................... 47 3.2.4. Enformasyon Yakla ımlarının Kar ıla tırması..................................... 49 3.3. ENFORMASYONUN LET M – LET M ........................................................ 51 3.4. VER , ENFORMASYON VE B LG TANIMLARI............................................... 54 3.5. ENFORMASYON VE HABER .......................................................................... 55 4. ENFORMASYON KURAMI .................................................................................. 61 4.1. DÜZENS ZL K (ENTROPY) ............................................................................ 62 4.2. B RLE K DÜZENS ZL K VE KO ULLU DÜZENS ZL K .................................. 64 4.3. KAR ILIKLI ENFORMASYON (MUTUAL INFORMAT ON) ............................. 66 4.4. KO ULLU DÜZENS ZL K (COND T ONAL ENTROPY) ................................... 68 4.5. ÇAPRAZ DÜZENS ZL K (CROSS ENTROPY)................................................... 70 ST KRARSIZLIK (PERPLEX TY) .................................................................... 75 4.6. 5. B LG GER -GET R M S STEMLER ............................................................... 77 5.1. GENEL S STEM YAPILANMASI ..................................................................... 82 5.2. GENEL LEY KURGUSU ( Ç YAPILANMA) ............................................... 84 5.3. SAYISAL BELGE TEMS L ............................................................................. 86 6. GER -GET R M MODELLER ............................................................................ 97 6.1. VEKTÖR UZAYI MODEL ............................................................................ 103 6.2. G ZL ANLAM NDEKSLEME MODEL ........................................................ 107 7. NDEKSLEME VE NDEKS TER MLER ........................................................ 115 7.1. ELLE NDEKSLEME ..................................................................................... 117 7.2. DO AL B R D LDE, KEL MELER N DA ILIMI............................................ 120 7.2.1. Zipf Güç Kanunları .............................................................................. 124 7.3. OTOMAT K NDEKSLEME............................................................................ 129 ndekslemenin Kapsamı ve Terim Öznelli i. ...................................... 134 7.3.1. 7.3.2. Kelime Gurupları ile ndeksleme......................................................... 135 7.4. HESAPLAMALI D LB L M YÖNTEMLER ..................................................... 138 8. BA ARIM ÖLÇÜTLER ...................................................................................... 141 8.1. ANMA VE DUYARLILIK ESASINDA ÖLÇÜT TÜRLER . ............................... 141 8.2. ANMA VE DUYARLILIK ESASINDA B A ARIMIN ÖLÇÜMÜ. ....................... 148 8.3. ANMA VE DUYARLILI I ESAS ALMAYAN BA ARIM ÖLÇÜTÜ.................. 157 9. TEZ KAPSAMINDA GEL T R LM YÖNTEMLER ................................ 163 9.1. TÜRKÇE YAZILI BELGELER N TESP T ....................................................... 168 9.1.1. Önceki Çalı malar................................................................................ 169 9.1.2. Önerilen Yöntem ................................................................................... 175 9.1.3. Deneysel Sonuçlar ................................................................................ 175 9.2. TÜRKÇE MET NLER N NORMALLE T R LMES .......................................... 176 9.2.1. Önceki Çalı malar................................................................................ 176 9.2.2. Önerilen Yöntem ................................................................................... 178 9.2.3. Deneysel Sonuçlar ................................................................................ 180 9.3. GÖVDELEME ............................................................................................... 185 XV 9.3.1. Önceki Çalı malar................................................................................ 187 9.3.2. Önerilen Yöntem ................................................................................... 191 9.3.3. Deneysel Sonuçlar ................................................................................ 195 9.4. SÖZCÜK TÜRÜ TESP T ............................................................................... 207 9.4.1. Önceki Çalı malar................................................................................ 208 9.4.2. Önerilen Yöntem ................................................................................... 210 9.4.3. Deneysel ................................................................................ 224 Sonuçlar 10. GENEL STAT ST KLER.................................................................................. 229 10.1. TANIMLAYICI STAT ST KLER .................................................................... 233 10.2. TÜRKÇE Ç N Z PF GÜÇ KANUNLARI NCELEMES .................................... 239 statistiksel ncelemeler için Alt Yapı............................................. 239 10.2.1. 10.2.2. BilTD Derleminin Zipf Birinci Kanun ncelemesi......................... 242 10.2.3. ODTÜ Derleminin Zipf Birinci Kanun ncelemesi........................ 249 10.2.4. OSTAD Derleminin Zipf Birinci Kanun ncelemesi ...................... 251 10.2.5. Birle ik Derlemlerin Zipf birinci kanun incelemesi ...................... 254 NG L ZCE Ç N Z PF B R NC KANUN NCELEMES .................................... 256 10.3. 10.4. TÜRKÇE Ç N KEL ME DA ARCI I (KD) NCELEMES .............................. 260 10.4.1. Kelime Da arcı ı Boyutları– Zipf Birinci Kanun ......................... 260 10.4.2. Kelime Biçimleri – Zipf kinci Kanun ............................................ 265 lev ve çerik Kelimeler ( ndeks Terimler) ................................... 277 10.4.3. 11. NDEKS TER M SEÇ M ................................................................................... 285 11.1. GENEL DA ILIMLAR .................................................................................. 291 11.1.1. Sözcük Türleri .................................................................................. 291 11.1.2. Cümle Unsurları.............................................................................. 299 11.1.3. Sözcük Türü ve Cümle Unsuru Ortak De erlendirme .................. 305 11.1.4. Kelime Gurupları............................................................................. 307 11.2. BGG S STEM B A ARIMI ÜZER NE NCELEMELER. .................................... 311 11.2.1. Türkçe için E ik Ba arım ................................................................ 314 ndeks Terim Seçimi ve A ırlıklandırma........................................ 317 11.2.2. 11.2.3. Dilbilgisi Özelliklerinin Ba arıma Etkisi....................................... 321 12. SONUÇ.................................................................................................................... 333 13. GEL M NOKTALARI VE TARTI MA....................................................... 341 TÜRKÇE- NG L ZCE TER MLER SÖZLÜ Ü.................................................. 345 KAYNAKLAR............................................................................................................. 349 EKLER.......................................................................................................................... 367 ÖZGEÇM ................................................................................................................. 379 EK LLER ekil 1.1 Sayfa Enformasyon bilim ve hesaplamalı dilbilim sahalarının etkile imleri. 10 3.1.1 Enformasyon bilimine katkıda bulunan di er bilimler (Ingwersen, 1992). 41 3.2.1.1 Bireysel bilme eylemi (Soergel, 1985). 44 3.2.1.2 nsanlar arasında Mesaj/Haber letimi. Soergel’den (1985) uyarlanmı tır. Enformasyonun veriye ve verinin tekrar enformasyona dönü üm evrelerini betimler. 46 3.3.1 leti imin klasik modeli. (Shannon, 1949, uyarlama) 52 3.3.2 Anlamsal-enformasyonun yazı ile iletim modeli. 53 3.4.1 Veri, enformasyon ve bilgi arasındaki ili kilerin denklemleri. 54 4.3.1 Kar ılıklı-enformasyon, I ile düzensizlik, H arasındaki ili ki. 67 5.1 Bilgi Ke fi/Madencili i ve Belge/Metin Madencili i u ra larına ait yapısal kurguların kar ıla tırması. “Veri’den Bilgi Ke fi” ve “Belge Madencili i” sahalarındaki alt süreçler, yapısal ve içerik benze imleri nispetinde kar ılıklı e le tirilmi tir. 82 5.1.1 Bilgi geri-getirim sistemlerinin genel kurgusu. 83 5.1.2 Kullanıcı bakı açısından, BGG sistem hizmetleri. 84 5.2.1 Bilgi geri-getirim sistemlerinin iç yapılanma örne i. 85 5.3.1 Bilgi geri-getirim sistemlerinde alt süreçler esasında sayısal belge temsil yordamı. 87 5.3.2 Sayısal belge temsili olu turulması adımlarına örnekler. 88 6.1 Bilgi geri-getirim modellerinin sınıflandırılması. (BaezaYates and Ribeiro-Neto, 1999, uyarlama). 98 ii EK LLER (devam) ekil Sayfa 6.1.1 Bir bj belge vektörü ile, qi sorgu vektörünün, iki boyutlu indeks terim uzayında çizgesel betimlemesi. 104 6.2.1 Örnek belge uzayı için, terim-belge matrisi. 108 6.2.2 Örnek derlem terim-belge matrisi için hesaplanmı , ESA bile en matrisleri. 110 6.2.3 Belgeler arası kar ılıklı ili ki katsayı matrisleri. 113 7.2.1 Kelimelerin frekansları ile muhtemel enformasyonu temsile katkı miktarı arasındaki ili kinin çizgesi (Luhn, 1958, uyarlama). 122 8.1.1 Anma ve duyarlılık ölçümlerini betimleyen çizge. 141 8.1.2 Bir sistem için anma (A) ve duyarlılık (D) ölçütleri arasındaki 143 rekabetin temsili çizgesi. 9.2.1 Anma-duyarlılık e risinin iki örne i. 151 9.4.2.3.1 Örnek cümlenin 6 kelimesi için olası sözcük türleri (a) ve kar ılık gelebilecek sözcük dizisi ihtimalleri (b). 219 9.4.2.3.2 Örnek cümlenin Markov süreci altında, sözcük türü tespit kurgusu. 220 9.4.2.3.3 Sözcük türü tespitinin, Markov zinciri esasındaki kurgusunda, 223 önerilen kelime sonundan belirli sayıda harf birli inin hesaplama birim olarak kullanılması. 9.4.3.1 Sözcük türü tespit, sınama sonuçları. 1. dereceden Markov süreci kurgusu altında, tüm talim derlemi boyutları sondan alınan harf birliklerinin tüm uzunlukları için. 225 9.4.3.2 Sözcük türü tespit, sınama sonuçları. 1. derece, geçmi e bir adım Markov süreci kurgusu altında, tüm talim derlemi boyutları ve sondan alınan harf birliklerinin tüm uzunlukları için. 226 EK LLER (devam) ekil Sayfa 10.1 ODTÜ derlemindeki belge türleri. 230 10.2 OSTAD derlemindeki belge türleri. 230 10.1.1 BilTD, ODTÜ ve OSTAD derlemlerinde bulunan birlik (harf), kelime ve gövde sayılarının toplam üzerinden göreceli oranları. 231 10.1.2 Birle ik derleminin (BirTD), kelime esasında kelime da arcı ını olu turan kaynak derlemler ve oransal katkıları. 233 BilTD ve OSTAD derlemlerinin, gövdeler esasındaki kelime da arcı ına yaptıkları katkılar. 235 10.2.2.1.1 BilTD derleminin, kelime esasında Zipf ifadesi ile uyumu. 243 10.2.2.2.1 BilTD derleminin, gövde esasında, Zipf ifadesi ile uyum çizgesi. 246 10.2.2.2.2 BilTD derleminin, gövde esasında, Mandelbrot ifadesi ile W=1000 parametre de er için uyumu çizgesi. 247 10.2.3.1 ODTÜ derlemin, kelime esasında, Zipf ifadesi ile uyum çizgesi. 248 10.2.4.1.1 OSTAD derlemin, kelime esasında, Zipf ifadesi ile uyum çizgesi. 250 10.2.4.2.1 OSTAD derlemin, gövde esasında, Zipf ifadesi ile uyum çizgesi. 251 10.2.4.2.2 OSTAD derleminin, gövdeler esasında, Mandelbrot (W=100) ifadesi ile uyum çizgesi. 251 10.2.6.1 ngilizce birle ik derlemin, kelime esasında Zipf ifadesi ile uyum çizgesi. 256 10.2.6.2 ngilizce birle ik derlemin, kelime esasında Mandelbrot (W=100) ifadesi ile uyum çizgesi. 256 10.1.3 iv EK LLER (devam) ekil 10.3.2.1.1 Sayfa Kelime esasında Türkçe birle ik derlem için, Zipf ikinci kanun ifadesinin tahmin etti i kelime biçimi adedi ile gözlemlenen kelime biçimi adedinin yayılım çizgesi. 267 10.3.2.1.2 Kelimeler (a) ve gövdeler (b) için kelime da arcıkları. 269 10.3.2.1.3 Gövde esasındaki Türkçe birle ik derlem için, Zipf ikinci kanun ifadesinin tahmin etti i kelime biçimi sayıları ile gözlemlenen kelime biçimi sayılarının yayılım çizgesi. 270 Gövde esasında Türkçe birle ik derlem için, Zipf birinci kanun e im tahminlerinin yayılım çizgesi. 282 OSTAD derlemi, kelime (a) ve gövde (b) esasında kelime da arcı ı içinde sözcük türü oranları. 293 11.1.1.2 OSTAD derlemi, derlem içinde gözlenme sıklı ına göre sözcük türü oranları. 294 11.1.1.1.1 OSTAD derleminde sözcük türlerinin indeks terim da ılımları. 295 10.4.3.1.1 11.1.1.1 11.1.1.1.2 ndeks terimlerin sözcük türü da ılımları. 296 11.1.2.1 OSTAD derlemi, cümle unsurlarının indeks terim da ılımları. 301 11.1.2.2 OSTAD derleminde indeks terimlerin cümle unsuru da ılımları. 302 11.2.1.2 Geri-getirim yöntemlerinin, OSTAD derlemi üzerinde 315 deneysel olarak, üstel-puanlama yöntemi ile ba arım sınaması sonuçları. 11.2.3.4.1 OSTAD derleminde, kelime guruplarının geri-getirim ba arımı üzerine etki sınamasına ait üstel-puanlar. 330 Ç ZELGELER Çizelge Sayfa 3.2.4.1 Enformasyonun çe itli hallerini gruplayan Buckland Matrisi (Buckland, 1991) 50 5.1 Veri geri-getirim ile Bilgi geri-getirim sistemlerinin i levsel özellikleri. 79 5.3.1 Bir milyon ve on milyon kelimelik Türkçe derlemlerin kelime da arcıkları (Hakkani-Tür et. al., 2002). 90 Bilgi geri-getirim modellerinin geri-getirim hizmeti ve sayısal belge temsil ekli eksenlerinde sınıflandırılması. 100 6.1 7.2.1 Zipf birinci kanunun, Tom Sawyer romanı üzerinde deneysel 123 de erlendirmesi (Manning and Schütze, 2003, uyarlama). Seçilmi (S) ve hedef (H) olasılık de i kenlerinin birle ik da ılımının 2x2 olasılık tablosu olarak gösterimi. 142 1000 belgelik örnek bir belge uzayı için anma (A), duyarlılık (D), F-ölçütü ve do ruluk (DO) oranı ölçüm listesi. 146 BGG sistemlerinin sıralama esasına dayalı de erlendirme örne i. Sütunlarda belgelerin farklı üç sıralaması bulunmaktadır. 148 9.1.1.1 Fransızca, spanyolca, ngilizce ve Portekizce için yazılı metinden dil tespit sonuçları (Lins and Gonçalves, 2004). 170 9.1.3.1 Çok dilli belge derleminde Türkçe belgelerin tespitine ait deneysel sonuçlar. 175 9.2.2.1 Cümle sonu yordamını tanımlamada kullanılan simge sistemi. 178 9.2.3.1 Cümle sonu tespiti için kullanılan Türkçe derlemin belirli özellikleri. 180 8.1.1 9.1.2 9.2.1 vi Ç ZELGELER (devam) Çizelge Sayfa 9.2.3.2 Cümle sonu tespit yordamında kullanılan ve üçlü birlikle temsil edilen durumlar için Türkçe derlemden çıkartılan istatistikler. 181 9.2.3.3 Cümle sonu tespitinde, [W*W] durumu için, heceleme önermesi ile meydana gelen hata oranları. 184 9.3.3.1 Gövdeleme yöntemi sınamalarında kullanılan Talim ve Test derlemi özellikleri. 195 9.3.3.2 Önerilen gövdeleme yöntemi ile üretilmi gövdelere örnekler. 199 9.4.2.3.1 Örnek cümlenin, her kelimesinin olası sözcük türleri. 218 10.1 228 BilTD, ODTÜ ve OSTAD derlemlerinin genel özellikleri. “*” karakteri olan hücreler derlemlerin söz konusu özelli inin belli olmadı ını gösterir. 10.1.1 BirTD için kelimelerin geldikleri derlemler üzerinden istatistikleri. 233 10.1.2 Gövde esasında BirTD derlemi için tanımlayıcı istatistikler. 235 10.2.2.1.1 BilTD derlemi için, kelime esasında Zipf ve Mandelbrot ifadeleri ile do rusal ili ki uyum sınamaları. 241 BilTD derlemi için, gövde esasında Zipf ve Mandelbrot ifadeleri ile do rusal ili ki uyum sınamaları. 245 ODTÜ derleminin, kelime esasında, Zipf ve Mandelbrot ifadesi ile do rusal ili ki uyum sınamaları. 248 OSTAD derleminin, kelime esasında Zipf ve Mandelbrot ifadesi ile do rusal ili ki uyum sınamaları. 249 OSTAD derleminin, gövde esasında Zipf ve Mandelbrot ifadesi ile, do rusal ili ki uyum sınamaları. 250 BirTD derleminin, kelime esasında, Zipf ve Mandelbrot ifadesi ile do rusal ili ki uyum sınamaları. 252 10.2.2.2.1 10.2.3.1 10.2.4.1.1 10.2.4.2.1 10.2.5.1.1 Ç ZELGELER (devam) Çizelge 10.2.5.2.1 Sayfa BirTD derleminin, gövde esasında, Zipf ve Mandelbrot ifadesi ile do rusal ili ki uyum sınamaları. 253 10.2.6.1 Time, Cranfield, Medlars ve birle ik derlemlerinin genel özellikleri. 254 10.2.6.1 ngilizce birle ik derlemin, Zipf ve Mandelbrot ifadeleri ile, kelime asasında uyum sınaması. 255 10.3.1.1 Türkçe birle ik derlemin kelime esasında incelenen her Zipf modeli için, kelime da arcı ı büyüme katsayıları. 259 ngilizce birle ik derlemin kelime esasında incelenen her Zipf modeli için, kelime da arcı ı büyüme katsayıları. 259 Türkçe birle ik derlemin gövde esasında incelenen her modeli için, kelime da arcı ı büyüme katsayıları. 260 Kelime esasında Türkçe birle ik derlemin, tüm Zipf modelleri üzerinden kelime da arcı ı boyut (KDB) tahminleri. 260 Kelime esasında ngilizce birle ik derlemin, tüm Zipf modelleri üzerinden kelime da arcı ı boyut tahminleri. 261 10.3.1.2 10.3.1.3 10.3.1.4 10.3.1.5 10.3.1.6 Gövde esasında Türkçe birle ik derlemin, tüm Zipf modelleri 261 üzerinden kelime da arcı ı boyut tahminleri. 10.3.2.1.1 Kelime esasında Türkçe birle ik derlemin, kelime da arcı ındaki farklı kelime biçimleri, gözlenme sıklıkları ve istatistikleri. 265 10.3.2.1.2 Kelime esasında Türkçe birle ik derlemin, Zipf ikinci kanun ifadesine uyum sınamasının sonucu. 266 10.3.2.1.3 Gövde esasında Türkçe birle ik derlemin, kelime da arcı ındaki farklı kelime biçimleri, gözlenme sıklıkları ve istatistikleri. 268 Gövde esasında Türkçe birle ik derlemin, Zipf ikinci kanun ifadesine uyum sınamasının sonuçları. 270 10.3.2.1.4 viii Ç ZELGELER (devam) Çizelge 10.3.2.2.1 Sayfa Kelime esasında Türkçe birle ik derlemin, kelime da arcı ındaki farklı kelime biçimlerinin gözlenme sıklıkları ve tahmin edilen de erleri. 272 Gövde esasında Türkçe birle ik derlemin, kelime da arcı ındaki farklı kelime biçimlerinin gözlenme sıklıkları ve tahmin edilen de erleri. 273 Kelime esasında Türkçe birle ik derlem için Zipf birinci kanun e im tahminleri. 278 Gövde esasında Türkçe birle ik derlem için Zipf birinci kanun e im tahminleri. 281 11.1 OSTAD derleminde elle i aretlenmi belge istatistikleri. 284 11.2 BilTD ve OSTAD derlemlerinde yapılmı olan biçimbirimsel 287 i aretlemede temel sözcük türü kodları. 10.3.2.2.2 10.4.3.1.1 10.4.3.1.2 11.1.1.1 Kelime esasında sözcük türlerinin kelime da arcı ı içindeki oransal da ılımları. 292 Gövde esasında sözcük türlerinin kelime da arcı ı içindeki oransal da ılımları. 292 11.1.1.2 11.1.1.3 Sözcük türlerinin derlem içinde görülme sıklıklarının oransal 294 da ılımları. 11.1.1.1.1 OSTAD derleminde sözcük türlerinin indeks terim da ılımları. 295 OSTAD derleminde, sözcük türü ve indeks terimlerin toplu de erlendirmesi. 297 11.1.1.1.2 11.1.2.1 11.1.2.2 11.1.2.3 OSTAD derleminde cümle unsuru i aretlemesinde kullanılan 299 kodlar. ndeks terimlerin cümle üzerindeki da ılımı. OSTAD derlemi, cümle unsuru ve indeks terim için toplu de erlendirme. 300 303 Ç ZELGELER (devam) Çizelge 11.1.3.1 Sayfa OSTAD derleminde, sözcük türü ve cümle unsuru birlikte indeks terim da ılımı. 305 OSTAD derleminde, kelime guruplarının indeks terim da ılımları. 307 OSTAD derleminde 2 kelimeden olu an kelime guruplarını, sözcük türü kombinasyonlarının indeks terim da ılımları. 308 11.1.4.1 11.1.4.2 11.2.1.2 315 Geri-getirim yöntemlerinin, OSTAD derlemi üzerinde deneysel olarak, üstel-puanlama yöntemi ile ba arım sınaması sonuçları. 11.2.2.1 Örnek paragrafın TFxIDF a ılıkları. 318 11.2.2.2 Örnek paragrafın, TFxIDF a ırlıkları üzerinden duyarlılık de erleri. 319 11.2.3.1.1 Örnek paragrafın, sözcük türü ile atanan a ırlıkları üzerinden 323 duyarlılık de erleri. 11.2.3.1.2 OSTAD derlemi içinde seçilmi belgeler üzerinde, TFxIDF a ırlıklandırması ve sözcük türü a ırlıklandırması ile elde edilen sıralamalar içinde, indeks terimlerin kümelendi i yerlerin kar ıla tırma sonuçları. 324 Örnek paragrafın, cümle unsurları ile atanan a ırlıkları üzerinden duyarlılık de erleri. 326 OSTAD derlemi içinde seçilmi belgeler üzerinde, TFxIDF a ırlıklandırması ve cümle unsuru a ırlıklandırması ile elde edilen sıralamalar içinde, indeks terimlerin kümelendi i yerlerin kar ıla tırma sonuçları. 326 Örnek paragrafın, cümle unsuru ve sözcük türü ile birlikte atanan a ırlıkları üzerinden duyarlılık de erleri. 327 OSTAD derlemi içinde seçilmi belgeler üzerinde, TFxIDF ile sözcük türü ve cümle unsuru birlikte, yapılan a ırlıklandırma ile elde edilen sıralamalar içinde, indeks terimlerin kümelendi i yerlerin kar ıla tırma sonuçları. 328 11.2.3.2.1 11.2.3.2.2 11.2.3.3.1 11.2.3.3.2 x YAYIN L STES Dinçer, B., T. and Karao lan, B., 2004, “Sentence Boundary Detection in Turkish.”, Proceedings of the 3rd International Symposium on Advances in Information Sciences (ADVIS’04), To be published in the Lecture Notes in Computer Sciences (LNCS), Springer-Verlag, 20-22 October, Izmir, Turkey. Dinçer, B., T. and Karao lan, B., 2004, “Effect of part-of-speech tagging on IR performance for Turkish.”, Proceedings of the 19th International Symposium on Computer and Information Sciences (ISCIS’04), To be published in the Lecture Notes in Computer Sciences (LNCS), Springer-Verlag, 27-29 October, Kemer–Antalya, Turkey . Celikel, E. and Dinçer B., T., 2004, "Improving the Compression Performance of Turkish Texts with PoS Tags", International Conference on Information and Knowledge Engineering (IKE’04), published by CSREA Press (ISBN: 1932415-27-0), Las Vegas, Nevada, USA, June 21-24. Dinçer, B., T. and Karao lan, B., 2003, “Stemming in Agglutinative Languages: A probabilistic stemmer for Turkish.”, Proceedings of the 18th International Symposium on Computer and Information Sciences (ISCIS’03), Published in the Lecture Notes in Computer Sciences (LNCS), Springer-Verlag, Vol: 2869, 3-5 November, Kemer–Antalya, Turkey, pp. 244-251. Dinçer, B., T. ve Karao lan, B., 2003, “Bilginin Sosyal Uzantısı : Bili im”, Bilgi Teknolojileri Sempozyumu, B LG -TEK’03, Bildiriler Kitabı (ISBN: 9756992-08-5), Pamukkale Üniversitesi, Denizli, Türkiye, 44-46. xii B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 1 1. G R “Bilgi güç demektir.” (Francis Bacon,1561-1626) Bu tez bilgi geri-getirim veya eri im (BGG veya BE) sistemlerinde birbirini destekleyen iki çalı mayı sunmaktadır: Türkçe yazılı metinler için sayısal belge temsilini dil-bilim özelliklerine dayalı istatistikler ile destekleme yöntemleri ve dil-bilim özellikleri ile desteklenmi sayısal belge temsilinin geri-getirim ba arımı üzerindeki etkilerinin ara tırma sonuçları. Geli tirilen yöntemlerin, Türkçe yazılı metinlere uygulanabilmesi için gerekli, bir ön-i lem a aması olan simgele tirme (Tokenization), cümle sonu tespitini de içerecek ekilde geli tirilmi tir. Tez hedefinde, Türkçe yazılı metinler bulundu u için, çok dilli bir belgeler toplulu u içinden (örne in Internet) Türkçe yazılı metinlerin hızlı ve verimli bir ekilde ayırt edilmesine yönelik yeni bir yordam da ayrıca olu turulmu tur. Bu bölümde öncelikle BGG sahasının tanıtımı, sahadaki u ra ların genel hedefleri ve bu hedeflere ula manın önünde mesele yaratan konular tanıtılacaktır. Tezin kapsamı ve hedefleri genel tanıtımın ardından sunulacaktır. Tez kapsamımız içinde cevapladı ımız ara tırma sorularının özetleri ve tezin genel anlatım akı ı bölüm sonunda yer almaktadır. Bilgi geri-getirimin veya eri imin tanımı en genel hali ile öyledir: “ nsanlar tarafından ihtiyaç duyulan muhtemel, yani potansiyel enformasyonun temsilini, depolanmasını, aranmasını, bulunmasını ve sunulmasını içine alan bir süreç. ...” (Ingwersen, 1992) B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 2 Verilen tanımının sınırları içinde BGG, kullanıcıların belirtti i enformasyon ihtiyaçları do rultusunda belirli bir belge toplulu undan alakalı belgelerin kılavuzlarının (künyelerinin ve eri im bilgilerinin), daha do rusu varlı ının tespit edilmesi i idir. Söz konusu, güncel anlamda sorun olan hedef belge toplulu u Internet’tir. Internet’in günlük ya amın içine girmesi ve yaygınla ması ile insanlık tarihinde imdiye kadar kar ıla ılmamı miktarda ki isel, bölgesel, kurumsal, bilimsel vb. enformasyon’un bir arada bulundu u bir ortam olu mu tur. Dolayısı ile yönetilmesi, depolanması ve organize edilmesi gereken, sayısı milyonlarla ifade edilen metin, resim ve görüntü vardır (Brin and Page, 1998). Internet üzerindeki geli imin ne düzeylerde oldu u ve gelecekte bizi ne tür bir enformasyon hacminin bekledi ine dair bir izlenimi u istatistiklerden rahatlıkla elde edebiliriz1: 1998 yılı için, sadece Amerika’daki tahmin edilen Web sayfası sayısı 320 milyon ve Internet kullanıcısı sayısı 57 milyondur, 81 milyon e-posta kullanıcısı arasında toplam 3,4 trilyon mesaj gönderilmi tir; ngiltere ile rlanda arasındaki yıkıcı (spam) e-posta gönderimini engelleme i inin, 1998 yılı tahmini bedeli 8 milyon dolardır; 1997 yılının ikinci çeyre i itibari ile Internet irketlerine yatırılan risk sermayesi miktarı 561 milyon dolardır; Yahoo arama motorunda günlük görüntülenen sayfa sayısı ortalama 38 milyondur; Web kullanıcılarının %82’si Internet’i vazgeçilmez olarak görmektedir ve “Home Corporation” 1999 yılında, Excite arama motorunu 6.2 milyar dolara satın almı tır ( Aynı yıl Ford motor irketi Volvo’nun araba üretim bölümünü 6.45 milyar dolara satın almı tır !!!). Bu istatistikler elbette Internet ortamının tamamını resmedenler de ildir, ancak u anki durumun ve geli imin ne yönde olabilece i açısından bir fikir vermektedir. Fakat, enformasyon zenginli i açısından geli en Internet’e paralel olarak kullanıcılar: çok 1 http://www.why-not.com/company/stats.htm B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 3 fazla enformasyonla kar ı kar ıya kalmaktadırlar. Bu enformasyonun büyük ço unlu u ihtiyaç duydu umuz enformasyon de ildir. Söz konusu durum, yani aradı ımız enformasyonun bulamayaca ımız kadar çok alakasız enformasyon içinde kalması durumu, fazla enformasyon yüklemesi (Information overload) olarak adlandırılır. Internet’teki fazla enformasyon yüklemesi neredeyse önemli ve ciddi çalı malar için Internet ortamının kullanılamaz hale gelmesine sebebiyet verecek noktalara çıkmı tır. Bir ba ka söyleyi le, alakasız enformasyon miktarı, alakalı enformasyonun düzeylerdedir: bulunmasını imkansız hale getirecek “Web üzerindeki fazla enformasyon yüklemesinin en önemli sebebi, Web’in çift amaç ta ıyan bir ortam olmasıdır: aynı anda hem ki isel hem kamusal enformasyonun, yayınlanması ve ileti imin sa lanması. Ki isel olarak çok önemli olan konular, genelde kamusal anlamda önemli de ildir. Web üzerinde oldu u gibi, e er bir ileti im ortamı üzerindeki arka-plan gürültüsü lüzumlu içeriklerin daha geni kitlelere ula masını engelleyecek düzeye çıkmı sa, o ileti im ortamı geçerlili ini yitirir. ..., Çok ükür ki, ki isel radyo endüstrisinde ya anan kendi kendini yok etme durumuna gelme e ilimi siber-uzayın sayısal alt-yapısı ile önlenebilir. Tabii ki, her yönden gelecek hesaplamaya dayalı yardımlar ile.” (Berghel, 1997) Internet üzerindeki enformasyonun neredeyse tamamı yapısal olmayan ve do al dilde yazılmı belgelerden olu tu u için (bu durum ili kili veri-tabanlarındaki meselelerden farklıdır: Bölüm 6), hesaplamalı dil-bilim (computational linguistics), yani do al dilin (dillerin) hesaplamaya dayalı çözümlemesi fazla enformasyon yüklemesi meselesi kar ısında, enformasyon bilimleri içerisindeki u ra larda (bilgi geri-getirim sistemleri, enformasyon süzme sistemleri B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 4 (information filtering systems) vb. uygulamalar) önemini giderek arttıran bir konu olacaktır2. BGG sahasında genel anlamda ara tırmaya açık konular 6 ana ba lık altında toplanabilir (van Rijsbergen, 1979). 1. Otomatik Sınıflandırma: Çok büyük sayısal belge topluluklarının, yönetilebilir büyüklükte sınıflar altına bölümlenmesidir. • statistiksel bir yöntem olan clustering (kümeleme) çözüm olarak uygulanmakta, fakat sayısal yordam olarak hızlandırılmaya ihtiyaç duymaktadır. 2. Dosya Yapıları: ndeks terimlerin devrik dosya (inverted file) eklinde tutulması yöntemi, küme kuramsal yöntemler için etkin olmasına ra men; di er olasılık kuramsal ve cebirsel yöntemler için çok etkin de ildir. Bu yöntemlerde etkin ekilde kullanılabilecek bir dosya yapısına ihtiyaç vardır. 3. Arama Stratejileri: BGG hızını artırmak için yeni e le tirme/arama yöntemlerinin geli tirilmesine ihtiyaç vardır. 4. Benzetim: Genel anlamda, bir belge toplulu unda, birbirleri ile alakalı belgelerin da ılım simülasyonuna, yani örneksel benzetimlere ihtiyaç vardır. Özelde ise, ara tırma için açık olan ana meselelerden en önemlisi, belge topluluklarındaki anahtar kelime da ılım simülasyonudur. 5. çerik Analizi: Belge içeriklerinin bilgisayar ortamında anahtar kelimelerden veya indeks terimlerden ba ka ne ekilde sayısal olarak temsil edilebilece inin belirlenmesi. Meseleye ba langıç noktası olabilecek yakla ımlarsa; 2 Fazla enformasyon yüklemesi meselesi kar ısında, yapısal olmama durumunu çözümlemek adına anlamsal web (semantic web) tasarımları da bir çıkar yol olarak görülmekte ve geli tirilmektedir. http://www.w3.org/ B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 • 5 Yapay zeka teknikleri kullanan bir bilgisayar yordamı ile do al dilin anla ılması veya • Psiko-dilbilim, yani akıl-dilbilim veya anlam-dilbilim sahasında insan beyninde, do al dilin anla ılması mekanizmalarının incelenmesi ve örneklenmesi olabilir. 6. Metin Sıkı tırma: Sıkı tırma anlamında iki ihtiyaç vardır: birincisi sahip olunan çok büyük miktardaki verinin etkin ve hızlı ekilde sıkı tırılması ve açılmasıdır; ikincisi ise sıkı tırılmı verinin açılmasına gerek duymadan i lem yapabilen yöntemlerin geli tirilmesidir. James ve arkada ları (2003) SIGIR3 kongresinde BGG u ra sahasının kısa (1-5 yıllık) ve uzun (5-10 yıllık) vadeli ara tırma hedeflerini ve ihtiyaçlarını özele indirgenmi ba lıklar halinde bildiri olarak yayınlamı lardır. A a ıda bildirinin belirtti i ara tırma sahalarına ait ana ba lıklar ve kısa açıklamaları vardır. Aslen, van Rijsbergen (1979) tarafından ortaya konan ihtiyaçlarda yakla ık son 35 yılda çok fazla de i iklik olmadı ı görülmektedir. Sahanın kapsam ve uygulama alanı güncel teknolojileri desteklemek/kullanmak için geni lemi , hesaplamalı dil-bilim sahası ile etkile imin zorunlulu u bir kez daha söz konusu geli imi kar ılamak amacıyla ortaya konmu tur. James ve arkada ları (2003) tarafından belirtilen hedefler unlardır: 3 SIGIR, ngilizce “Special Interest Group on Information Retrieval” olan bilgi gerigetirim sahasında u ra veren uluslararası kurum ve kurulu ların düzenledikleri senelik sempozyumunun kısaltmasıdır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 6 1. En genel anlamı ile uzun vadede BGG u ra sahasında iki büyük meseleden bahsedilmi tir: Küresel enformasyon eri imi ve ba lamsal geri-getirim. Küresel enformasyon eri imi olarak, kullanıcının enformasyon ihtiyacını kar ılayacak, özellikle Web esasına dayalı yapısallı ı olan ve genelde de yapısal olmayan tüm belgeleri tahlil eden, kullanıcı ile do al ve etkin bir ileti im kuran sistemler tarif edilmi tir. Ba lamsal geri-getirim olarak, “arama stratejilerini”, “sorguları” ve “kullanıcılar hakkında eldeki bilgileri” tek bir çatı altında birle tiren, kullanıcıya bu sayede daha etkin ekilde cevap verebilecek sistemler tarif edilmi tir. Mobil ileti im vb. teknolojiler, bilgi geri-getirimin kullanıcı odaklı ve ba lam esasında kullanımı için uygulanabilir örnekler olarak ortaya konmu tur. 2. Yeni geri-getirim yöntemlerinin ortaya konması konusunda uzun ve kısa vadeli hedefler ve ihtiyaçlar belirlenmi tir. Genel olarak mevcut sistemlerin 1960’ların kurgularına dayandı ı ve enformasyon ihtiyaçlarının kar ıla ılan karma ıklı ı ile ba edemedi i belirtilmi ; özellikle dil-bilim kuramlarının, modeller içerisinde sadece kelime, kelime gurupları esasında ele alındı ı, bunun yeterli olmadı ı, dilbilim kuramlarına dayalı geri-getirim yöntemlerinin geli tirilmesi gerekti i; kullanıcı bakı açısının mevcut kurgularda ya hiç olmadı ı ya da yetersiz ekilde temsil edildi inden bahsedilmi tir. Bu ihtiyaçları kar ılamak için tek bir modelin olamayaca ı gerçe inden yola çıkarak, kapsamı daraltılmı , yani belirli sahalar için özelle tirilmi modellerin geli tirilmesi ön görülmü tür. 3. Çok dilli bilgi geri-getirim (bir do al dilde yapılan sorgunun di er do al dillerdeki belge uzaylarında da aranması) a ırlıklı konular arasına girmi tir. Dilbilimin, bilgi geri-getirim sahasında kullanılabilirli ini etkin hale getirecek yeni geri-getirim yöntemlerinin ve sayısal belge temsillerinin (içerik analizi) önemine çok dilli geri-getirim amacını etkin ekilde gerçekle tirebilmek adına bir kere daha de inilmi tir. (Bugün dünya üzerinde yakla ık 7000 dil konu ulmaktadır. Bu dillerden 320 tanesi yaygın dillerdir ve dünya nüfusunun %80’ini tarafından konu ulur (Strassel et al, 2003; Oard, 1997)). B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 7 4. Internet üzerindeki enformasyonun geri-getirim etkinli inin arttırılması için, arama stratejilerinin geli tirilmesine yönelik uzun ve kısa vadeli hedefler ve ihtiyaçlar belirlenmi tir. 5. Kullanıcı modellerinin geri-getirim yöntem kurgularında a ırlıklı ö e olarak ele alınması ve verilen kullanıcı hizmetlerinin daha i levsel modellerinin olması gereklili i ortaya konmu tur. Bu yönde ilerleyecek çalı maların kısa ve uzun vadeli hedefleri ve ihtiyaçları belirlenmi tir. 6. Süzme (Filtering), konu tespiti (topic detection) ve sınıflandırma (classification) gibi u ra larda mevcut sistemlerin genele uygulanabilirli inin önünde engel te kil eden hesaplama karma ıklıklarını halledebilmek için yeni tekniklerin ve çözümlerin gereklili i ortaya konmu tur. Özetleme (Summarization) u ra ında geli me kaydedebilmek için yine dilbilimsel yöntemlerin etkin kullanımını ihtiyacı ortaya konmu tur. Aynı ekilde soru-cevaplama (question answering), üstel-arama (MetaSearch), da ıtık gerigetirim (distributed retrieval), çoklu ortam geri-getirim (multimedia retrieval) ve enformasyon özümseme (information extraction) u ra sahalarında da benzer ihtiyaçlara de inilmi tir. 7. Önerilen geri-getirim örneklerinin denenmesi için sınanmı daha büyük belge uzayına, yani külliyatlara/derlemlere ve sorgu kümelerine olan ihtiyaç ortaya konmu tur. Mevcut olan 1000 kadar sorgu için sınanmı deneysel derlemlerin yeterli olmadı ı, sorgu sayısının 100,000 seviyelerine çıkarılması gereklili i ortaya konmu tur. ngilizce dı ındaki di er diller için de sınanmı deneysel belge topluluklarının acil ihtiyacına dikkat çekilmi tir (Gereksinim olan diller için ve ne tür çözümlerin uygulanabilece ine dair geni bilgi için ayrıca Strassel ve arkada ları (2003) çalı masına bakınız.). Bu tezin kapsamı, van Rijsbergen (1979) sınıflandırması içinde içerik analizi veya James ve arkada ları (2003) sınıflandırmasında yeni geri-getirim yöntemleri, yani hesaplamalı dilbilim ile etkile imin arttırıldı ı geri-getirim yöntemlerinin tasarlanması altına girer. ekil 1.1.’de BGG sahasının (Enformasyon bilimin bir alt u ra ı olarak) ve B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 8 hesaplamalı dilbilim sahasının kar ılıklı etkile imi, tez kapsamına giren u ra ları ve ara tırma hedeflerini netle tirecek ekilde, bir çizge halinde verilmi tir. ekilde, tezin ara tırma hedeflerinin ba arılmasında katkı sa layacak temel konuların ba lıkları dolgulu kutular ile gösterilmi tir. ekilde yer almayan, ancak tez kapsamını tamamlayan yan konular da bulunmaktadır. Bu konuların ba lıkları sırasıyla: “Türkçe” (Bölüm 2), “Kavram olarak Enformasyon ve leti im” (Bölüm 3) ve “Enformasyon Kuramı ve Düzensizlik (Entropy)”dir (Bölüm 4). Tezin hedefindeki ara tırma konusu en genel ekli ile öyle tanımlanabilir: Tanım 1.1: (Tezin ara tırma konusu) BGG sistemlerinde, yazılı metinler (belgeler) için kullanılan sayısal belge temsil yönteminin (içerik analizi) Türkçe dil-bilimsel özellikler ile ta ınan enformasyonu içerecek ekilde, Türkçe metinler için istatistiksel yöntemler yardımıyla geli tirilmesi. Tanım 1.1.’de verilen sayısal belge temsilinin geli tirilmesi için tezde kullanılacak dilbilimsel özelliklerin ba lıkları, ekil 1.1.’den de takip edilebilece i gibi sırasıyla unlardır: Sözcük türleri (isim, fiil vb.), kelime gurupları (birden fazla kelimeden olu an anlamsal birlikler) ve cümle unsurları (cümlenin fiili, faili, nesnesi vb.). ekil 1.1.’de bilgi geri-getirim sahası ve hesaplamalı dilbilim sahası iki ayrı çalı ma alanı olduklarını niteleyecek ekilde ayrık sınırlar içine alınmı tır. BGG, enformasyon bilim sahasının bir alt u ra ı olarak di er alt u ra larla birlikte gözükmektedir. Hesaplamalı dilbilim sahasının alt u ra ları da, yalın bir metinden anlamın çıkarılması için kullanılan yöntemlerin dilbilimsel çözümleme seviyelerine göre silsile eklinde olan sınıflandırması ile gösterilmi tir. Dilbilimsel çözümleme B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 9 seviyelerinin tez çalı mamız içine girenleri “Hedef” etiketi ile gösterilen ve “kesikli çizgi” ile kesi enlerdir. BGG sahası ile hesaplamalı dilbilim sahasının ili kisi geleneksel sistemler esas alındı ında içerik analizi üzerinden olmaktadır. ekilde geleneksel sistemlerde içerik analizi için kullanılan mevcut yöntemler koyu bir çerçeve içine alınmı tır ( ekilde “Mevcut” etiketi ile i aret edilen). çerik analizinde, bu tez hedefleri do rultusunda yapılacak katkının ba lıklarıysa, “Hedef” etiketi ile i aret edilen kesikli çerçeve içinde dolgulu olarak gösterilmi tir. Ayrıca hedeflere ula abilmek için tezin her iki saha içinde kapsamına giren konuların ba lıkları da, dolgulu olarak gösterilmi tir. ekilde dolgulu olmayan ba lıklar tez kapsamının dı ındadır. Her ne kadar, hesaplamalı dilbilim içinde a ırlı ı olan bir konu olmasa da, yalın metinleri hesaplama birimlerine (kelimeler, sayılar, noktalama i aretleri vb.) ayrılması meselesi, yani simgeleme (tokenization) de tezin ara tırma kapsamına dahil edilmi tir. Ayrıca, tezin hedefinde Türkçe metinler oldu u için, herhangi bir “çok dilli” belge toplulu undan Türkçe metinlerin otomatik olarak ayrı tırılması da ara tırma kapsamındadır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 10 Mevcut Hesaplamalı Dilbilim 3 Enformasyon Bilim Alt U ra lar Enformasyon Yönetimi Sıkı tırma E Anlam Sınıflandırma Geri-Get. Mod. Kelime Gurubu Sözdizim Cümle Unsuru 6 Anlam Enformasyon Ölçütleri Sözlük Birlikte Gözükme Göz-Atma Hiz. Enformasyon Geri-Getirim Etkile imi Biçim Sözcük Türü Durma Listesi Simgeleme Gövdeleme Dilbilimsel analiz sıralaması Simülasyon Bilgi Geri-Getirim Alt U ra lar Ara tırma Sah. 5 çerik Anal. Söylev, Pragmatic Dosya Yap. BGG Sistemi ( Çekirdek Bile enler ) 5 7 çerik Analizi HEDEF Ba arı Ölçüm 8 ekil 1.1: Enformasyon bilim ve hesaplamalı dil-bilim sahalarının etkile imleri. Dolgulu ekiller tez kapsamını göstermektedir. ekillerin sa üst kö esinde yıldız içindeki sayılar, konunun tez akı ında anlatıldı ı bölüm numarasıdır. Alt u ra lar sadece hesaplamalı dil-bilim için, yalın bir metnin analiz sırasını verecek ekilde betimlenmi tir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 11 Bu tezde, ara tırma konusu kapsamında yapılan çalı malar maddeler halinde u ekilde sıralanabilir: 1. Türkçe yazılı metinlerin otomatik tespiti. Herhangi bir çok dilli yazılı belge toplulu undan, Türkçe belgelerin otomatik olarak tespit edilmesi. 2. Türkçe belgelerin simgele tirilmesi (tokenization). Yazılı Türkçe belgelerin yalın halinden, hesaplamalı dil-bilim uygulamaları için uygun olan hesaplama birimlerine (kelime, sayı, v.b.), yani hesaplama simgelerine dönü türülmesi ve cümle sonlarının tespiti. 3. Sözcük-türü enformasyonunun sayısal belge temsili içinde kullanılabilmesi, yazılı belgelerden elde edilen simgelerin, özellikle kelimelerin dil-bilimsel temel türlerinin belirlenmesi ile elde edilen enformasyonun sayısal belge temsilinde içerilmesidir. Tez kapsamında ele alınan dokuz temel sözcük/kelime türü unlardır: isim (noun), özel isim (proper noun), fiil (verb), sıfat (adjective), zarf/belirteç (adverb), zamir/adıl (pronoun), ba laç/rabıt (conjunction), soru (Question), edat/ilgeç (preposition). Temel kelime türlerinin yanı sıra simge olarak ele alınan di er birlikler de unlardır: rakamlar, kısaltmalar (abbreviations) ve noktalama i aretleri (punctuations). 4. Türkçe için Gövdeleme Yöntemi (stemming): Türkçe yazılı metinlerde, aynı anlamı ta ıyan ancak yazımda dilbilgisi kuralları gere i çe itli i levsel ili kilerin kurulması için ek alarak farklı ekillerde gözlenen kelimelerin, ortak bir biçim, yani ekil birli i altında toplanması. Bu ekilsel birlik, genel olarak dilbilimde kelime gövdesi olarak kabul edilir. Ancak, bilgi geri-getirim uygulamalarında ortak eklin her zaman anla ılır bir kelime olması artı olmadı ı da burada belirtilmesi gereken bir durumdur: örne in n-gramlar cinsinden metinlerin indekslenmesi veya tüm kelimelerin yazılı ekillerinin ba tan itibaren belirli sayıda bir harf uzunlu una kadar alınması ve geri kalan kısmın atılması durumlarında, anlamlı birlikleri söz konusu de ildir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 12 5. Kelime/Sözcük Türlerinin Tespiti (Part-of-Speech Tagging): Türkçe metinlerde, her kelime için, o kelimenin olası kelime türleri içinden, bir cümlenin söz-dizimsel akı ı içinde i levsel görevlerine uygun olanının seçimi. Örne in, bir ismin bir ba ka ismi vasıflandırmak için önüne geldi i durumlarda, isim görevi yerine sıfat görevi gördü ünün belirlenmesi. 6. Kelime gurubu enformasyonunun sayısal belge temsili içinde kullanılabilmesi. Kelime gurupları, yazılı belgelerde birden fazla kelimeden olu an ve bütün halinde kar ılanan bir anlam birli ini temsil eder. Yazılı Türkçe’de kelime guruplarının çe itleri oldukça zengindir. Ancak bu tez kapsamında “kelimelerin gurup halinde dilbilimsel tutarlılık içinde bulunması” enformasyon olarak kabul edilmekte, grubun dil-bilimsel açıdan alt tanımlamaları ayrı ımına gidilmemektedir. 7. Cümle unsuru enformasyonunun sayısal belge temsili içinde kullanılabilmesi. Türkçe’de cümle unsurları fiil, fail (özne), nesne, yer tamlayıcısı ve zarftır. Fiil ve fail bir cümlenin esas unsurları, nesne, zarf ve yer tamlayıcısı da cümlenin yardımcı unsurlarıdır. Yazılı bir cümlede bu temel unsurlardan ba ka bir de edatlar bulunabilir. 8. Genel statistikler: Bu çalı ma, 5., 6. ve 7. maddelerde öngörülen dilbilgisi enformasyonun kullanımını mümkün hale getirecek alt yapıyı hazırlamaktadır. Genel istatistikler aslen Zipf birinci ve ikinci ilkesinin Mandelbrot yorumları ile birlikte, elimizdeki derlemler üzerinden incelemesini içermektedir. nceleme iki ana bölümden olu mu tur: 8.1. Zipf ve Mandelbrot incelenmesi. üzerinden birinci güç kanunun 8.2. Zipf ikinci kanunu üzerinden, kelime da arcı ı incelemeleri ve frekans esasında indeks terim seçimi. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 13 9. Deneysel Derlem hazırlama: Türkçe için bilgi geri-getirim ba arımının ölçümünde kullanılacak, dilbilgisi özellikleri i aretlenmi bir derlem bulunmamaktadır. Hesaplamalı dilbilim sahası için Orta Do u Teknik Üniversitesi (ODTÜ) ve SABANCI üniversitelerinin ortak çalı ması ile gerçekle tirilmi bir derlem, sadece dilbilgisi özellikleri kodlanmı olarak mevcuttur. Kısaca OSTAD olarak adlandırdı ımız bu derlemde: kelimelerin biçimbirimsel analizi (morphology), dolayısı ile kelime türleri ve ayrıca cümle unsurları i aretlenmi tir. Tez çalı mamızda kullanılmak üzere, derlem içinde indeks terim olan kelimelerin i aretlenmesi de, yazar tarafından “elle” yapılmı tır. Tezde dilbilimsel özelliklerin sınanması amacı ile iki Türkçe deneysel derlemden faydalanılmı tır. Birinci derlem, Bilkent Üniversitesinde hesaplamalı dil-bilim çalı malarının “sonucu” olarak otomatik ekilde i aretlenmi yakla ık 850,000 simge-birli i içerendir (Hakkani-Tür et. al, 2002). Tez içinde bu derlem BilTD kısa adıyla geçmektedir (Bilkent Türkçe Derlemi) kinci derlem ise hesaplamalı dilbilim ara tırmalarını desteklemek amacına yönelik ODTÜ ve Sabancı üniversitelerinin ortak çalı masıdır (Atalay et al., 2003; Oflazer et al., 2003). Bu derlem tamamı elle i aretlenmi 7262 cümleden olu maktadır. Tez içinde derlem, OSTAD (ODTÜ Sabacı Türkçe A aç Yapılı Derlemi) kısa adıyla geçmektedir. Genel istatistikler ba lı ı altında kullanılan bir üçüncü derlem daha vardır: ODTÜ derlemi. ODTÜ derlemi yakla ık 2.5 milyon birlikten olu maktadır. Aslen OSTAD, bu derlemden seçilmi bazı paragraflarla olu turulmu tur. Fakat, ODTÜ derleminde hiçbir dilbilgisi özelli i i aretli de ildir. Bu yüzden sadece genel istatistiklerin alınması a amalarında kullanılabilmektedir. Bilgi geri-getirim uygulamalarının merkezinde bulunan konu, sorgu ile belgeler arasında sistemin kurmak zorunda oldu u alakadır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 14 Alaka kavramı ise do asında öznellik ta ır (Baeza-Yates and RibeiroNeto, 1999). BGG sistemlerinin ana hedefi kullanıcının, yani ki ilerin enformasyon ihtiyaçlarını kar ılamaktır. Bu yüzden bir ki inin kendi ihtiyaçları ile alakalı buldu u enformasyon, bir ba ka ki i için pek o kadar da alakalı olmayabilir. Dahası, ki iler sıklıkla verilen bir sorgu ile geri-getirilen belgelerin alakalı oldukları konusunda anla mazlık gösterirler (Hersh et al., 1995). Ki iler arasındaki anla mazlı ın ortaya çıkması ihtimali, belgeler ile sorgular arasındaki alakanın mutlaklıktan, bir derece alakalı olu a do ru gidi i yönünde artı gösterir. Ayrıca, alaka sadece sorgu ve eldeki belge toplulu una ba lı da de ildir; alakaya karar veren ki inin o anki istekleri, yani ihtiyaç ba lamı ile de yakından ili kilidir. Belirtildi i gibi “BGG sistemlerinin hedefinde insanların enformasyon ihtiyacını kar ılamak” oldu u için, söz konusu öznellikten kurtulmanın bir yolu da yoktur. Bu yüzden bilgi geri getirim sistemlerinin ba arımlarının ölçülmesi sorunlu bir durum te kil eder. BGG sistemlerinde kullanılan genel ba arım ölçütleri (Bölüm 8): Anma (recall) ve duyarlıktır (precision). Anma ve duyarlılık ile ba arım ölçümünde iki temel mesele kar ımıza çıkmaktadır: 1. Ölçütlerin kullanılabilmesi için, derlemdeki her belge ile ba arım ölçümünde kullanılacak tüm sorgular arasındaki alaka kararının önceden verilmesi gerekir; ancak bu kararı sadece insanlar verebilmektedir. 2. Sorgular ve belgelerin alakalı olu ları ile ilgili insanlar tarafından verilen kararlar ki iseldir; dolayısı ile bir BGG sisteminin ba arım ölçümünün nesnel (objektif) olması için alaka kararını birden fazla ki inin vermesi gerekir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 15 James ve arkada ları (2003) tarafından SIGIR kongresinde BGG sistemlerinin geli tirilmesi için daha büyük derlemlerin olu turulmasının neden mesele olarak gündeme getirildi i de böylece netli e kavu maktadır. BGG u ra ları için derlem hazırlamak, ba arım ölçütleri anma ve duyarlılık oldu u sürece, çok maliyetli ve kalabalık çalı ma guruplarının uzun zaman üzerinde u ra ması gereken bir konu olarak kalacaktır. Türkçe için nesnelli ine güvenilebilecek, eri imi serbest, standart olmu bir BGG sistem ba arım ölçüm derlemi, ne yazık ki yoktur! Mesele aslında sadece Türkçe’nin de ildir, üzerinde az u ra ılmı di er diller içinde geçerlidir (Çok çalı ılmı ngilizce ile orta-Avrupa dillerini çıkardı ımızda, geriye kalan üzerinde az çalı ılmı yakla ık 300 dil). Bir bakıma ba arım ölçütlerinin bu hali ile kalmasının bir ekonomi yarattı ı da dikkat çeken bir gerçektir! Fakat ekonomisi bir yana, BGG sistemlerinin ba arımlarını daha dü ük maliyetlerle ve nesnel olarak ölçmek için bir yol daha vardır, o da matematiksel/istatistiksel bir ölçüm yöntemi örne i geli tirmektir. Bu tezde ba arım ölçütü olarak kullanaca ımız yöntem olan üstel-puanlama (Meta-Scoring) matematiksel/istatistiksel yöntemler sınıfına girmektedir ve ne yazık ki tektir (Jin, 2001). Carnegie Mellon üniversitesinde, dilbilim teknolojileri enstitüsü ve bilgisayar bilimleri bölümünün ortak çalı ması ile geli tirilen bu yöntem, anma ve duyarlılık ölçütlerinin tüm olumsuz yönlerinden arındırılmı tır (Bölüm 7.3). Yöntem saklı-anlam-indeksleme (LSI-Latent Semantic Indexing, Bölüm 5.2) geri-getirim yönteminin esas aldı ı matematiksel kurguya göre biçimlendirilmi tir. Tezin anlatım akı ı genel olarak iki parçaya ayrılmı tır: Parça-1 içinde kuramlar, yöntemler v.b. teze esas olu turan temel konular yer almaktadır. Parça-2 içinde ara tırma konusu kapsamındaki çalı malar B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 16 ve sonuçları vardır. Okuyucu Parça-1’i atlayıp, Parça-2’ye geçebilir. Parça-2’deki ara tırmaların akı ı içinde, Parça-1’e yapılan atıf noktalarından geriye dönerek de Parça-1’den faydalanabilir. Bu durum, anlatım akı ını bozmaz. Her iki parçayı olu turan bölümler ve içerikleri a a ıdaki gibidir: PARÇA-1 BÖLÜM-2 : BÖLÜM-3 : Türkçe: Türkçe’nin teze esas olan dilbilgisi özelliklerinin tanıtımı. Enformasyon: BGG sahasında ve enformasyon bilim altında ele alınan di er sahalarda, uygulamaların temelini olu turan enformasyon fikrinin kavram olarak çok yönlü tanımı. Enformasyon Kuramı: Enformasyon fikrinin matematiksel kuramı, enformasyon ileti im modeli ve ili kili konular: düzensizlik (entropy), istikrarsızlık (perplexity) v.b. kavramlar. BGG Sistemleri: BGG sahasının detaylı kapsamı ve tanıtımı. BGG sistemlerinin genel kurgusu ve yapı unsurlarının tanıtımı. Geri-getirim Modelleri: BGG sistemlerinde kullanılan geri-getirim modellerinin sınıflandırması ve teze esas te kil eden gerigetirim yöntemlerinin detaylı tanıtımları. ndeks terim a ırlıklandırma yöntemleri. BGG sistemlerinde kullanılan “çıktı” sıralama yöntemleri. ndeksleme ve ndeks terimler: Enformasyonun temsil yolu olarak indeksleme u ra ının genel tanıtımı, elle indeks terim seçimi ve BGG sahasında otomatik indeks terim seçimi konuları, kelimelerin kuramsal da ılımları ile ilgili yakla ımlar ve ili kili olarak belge içeri ini temsilde “önem” belirleme yöntemleri. BGG sistemleri için sayısal belge temsili ve olu turulmasında kullanılan alt süreçlerin tanıtımı. BÖLÜM-4 : BÖLÜM-5 : BÖLÜM-6 : BÖLÜM-7 : B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 BÖLÜM-8 : 17 Ba arım Ölçütleri: BGG sistemlerinin ba arım ölçümünde kullanılan anma ve duyarlılık kavramlarının tanıtımı ve bu kavramları esas alan ba arım ölçütleri. Anma ve duyarlılık kavramını esas almayan ve tezde ba arım ölçütü olarak kullanılan üstel-puan (Meta-Score) yöntemi. PARÇA-2 BÖLÜM-9: Geli tirilmi Yöntemler: Tez konusu kapsamında geli tirilmi genel amaçlı yöntemlerin (Türkçe tespiti ve simgeleme) ve hesaplamalı dilbilim yöntemlerinin (gövdeleme ve sözcük türü tespiti) tanıtımı, ba arım sonuçları. Genel statistikler: Tezin ara tırma konusu kapsamına giren u ra lara esas olu turacak kavramlarla ilgili tüm istatistikler: Zipf ve Mandelbrot denklemleri ile Türkçe derlemlerin uyum sınamaları; Türkçe derlemlerin kelime da arcı ının açık/kapalı olu una dair kabullenmenin deneysel sınamaları. Sözcük-türü, cümle unsuru ve kelime guruplarının derlem içinde genel da ılımsal istatistikleri. ndeks Terim Seçimi: Sözcük türü, cümle unsuru ve kelime gurupları ile ta ınan enformasyonun, indeks terimler üzerindeki olasılık da ılımları. Dilbilgisi özellikleri ile sa lanan katkıların a ırlıklandırma için kullanım yöntemleri. Sonuç: Tez konusu kapsamında yapılan ara tırmaların özet sonuçları. Geli im Noktaları ve Tartı ma: Tez kapsamında ele alınan konularda, geli im için açık olan konular ve genel tartı malar. BÖLÜM-10: BÖLÜM-11: BÖLÜM-12: BÖLÜM-13 18 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 19 2. TÜRKÇE4 Dünya üzerinde konu ulan dillerin, aynı men eden gelenleri bir gurup altında toplanır. Bu guruplama ile diller, birbirleri ile ili kili ve yakın olanları bir aile kabul edilerek, bir dil aileleri sınıflandırması te kil ederler. Dünya üzerinde konu ulan dillerin aileleri unlardır: 1. Hint – Avrupa dilleri ailesi: Bu dil ailesinin içine Macarca, Fince ve di er bazı küçük ülkelerin dilleri dı ında kalan bütün Avrupa dilleri ile Asya dillerinden Farsça ve Hindistan’da mevcut bir çok dil girer. Adından da anla ılaca ı gibi Hint – Avrupa dilleri ailesi biri Avrupa’da, di eri Asya’da olmak üzere iki büyük kola ayrılır. 1.1. Avrupa kolu: Germen dilleri, Roman dilleri ve slav dilleri olmak üzere üç büyük kol vardır. 1.2. Germen dilleri kolu: Almanca, Felemenkçe, skandinav dilleri girer. ngilizce ve 1.3. Roman dilleri kolu: Ana dil Latince’dir. Bugün ya ayan ba lıca diller ise Fransızca, spanyolca, Portekizce, talyanca ve Rumence’dir. 1.4. slav dilleri kolu: Rusça, Bulgarca, Sırpça, Lehçe gibi diller. 1.5. Yunanca, Arnavutça, Keltçe, Litvanca ve Hititçe de Avrupa koluna ait dillerdir. 1.6. Asya kolu: Hint dilleri, Sanskritçe, Farsça ve Ermenice bu kola giren dillerdendir. 2. Sami dilleri ailesi: Akadca, branice, Arapça gibi diller bu aile içine girer. 4 Bu bölümde yer alan tüm konular ve içerikleri, Muharrem Ergin (1999) tarafından yazılmı olan “Türk Dil Bilgisi” kitabından alıntıdır. Alıntılarda, içerik tez kapsamına uygun ekilde özetlenerek yazılmı tır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 20 3. Bantu dilleri ailesi:Afrika’daki en büyük dil ailesidir ve orta ve güney Afrika’da konu ulan Bantu dilleri bu aileyi te kil eder. 4. Çin – Tibet dilleri ailesi: Çin ve Tibet dilleri. Diller yapı bakımından da guruplara ayrılmaktadır. Dünya üzerindeki diller yapı bakımından da üçe ayrılırlar: 1. Tek heceli diller : Bu guruptaki dillerde, her kelime tek heceden olu ur. Kelimelerin çekimli halleri yoktur. Cümle bir çekimsiz ve tek heceli kelimeler silsilesinden ibarettir. Cümlenin ifade etti i mana genelde kelime sırasından anla ılır. Kelimelerin di er dillerde çekimli halleri ile ifade edilen halleri ya hiç ifade edilmez veya ayrı bir kelime ile ifade edilir. Çin – Tibet dilleri bu guruba girer. 2. Eklemeli diller : Eklemeli dillerde tek veya çok heceli kelime kökleri ile ekler vardır. Kelimelerden yeni kelimeler veya kelimelerin geçici halleri yapılırken köklere ekler getirilir. Bu ekleme sırasında kökler de i mez, köklerle ekler açık ekilde belirlenebilir. Bu diller ön-ekli veya son-ekli olabilir. Türkçe, Macarca gibi diller eklemeli dillerdendir. Türkçe son ekli, eklemeli bir dildir. 3. Çekimli diller : Çekimli dillerde de tek veya çok heceli kökler ve bir takım ekler vardır. Yeni kelimeler yaparken ve çekim sırasında genellikle köklerde bir de i iklik olur. Hint – Avrupa dilleri böyle dillerdir. Sami dilleri, örne in Arapça da bu guruba girmektedir. Dünya dilleri arasında Türkçe’nin içine girdi i gurup Ural-Altay dilleri gurubudur. Ural – Altay dilleri yukarıda bahsedilen dil aileleri gibi sa lam bir aile özelli i göstermezler. Mesela Hint – Avrupa dilleri arasındaki yakınlık bu dillerde yoktur. Ural – Altay dilleri arasındaki yakınlık bir men e birli inden daha çok bir yapı birli idir. Onun için bu diller bir dil ailesi olarak de il, bir dil gurubu olarak ele alınmaktadır. Ural – Altay dilleri için bir aile olmak için gerekli olan men e birli i kuvvetli bir ihtimal olmakla beraber, henüz kesinle mi de ildir. Ural – B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 21 Altay dilleri eklemeli dillerdir. Ayrıca, hepsinde aynı derece de olmasa da, bir sesli uyumu vardır ve Hint – Avrupa dilleri etkisinde kalmamı olanlar dı ındakilerde, kelime sırası genel olarak aynıdır. Ural – Altay dilleri, Ural ve Altay olmak üzere iki kola ayrılır. 1. Ural kolu: Fin – Ugur ve Samoyed olmak üzere ikiye ayrılır. 1.1. Fin – Ugur kolunda: Fince, Macarca, Ugurca ve Permce vardır. 1.2. Samoyed kolunda ise çe itli kolları ile Samoyedce vardır. 2. Altay kolu: Mançuca, Mo olca ve Türkçe’dir. Özetle Türkçe, Ural – Altay dil gurubunun Altay koluna ba lı, sondan ekli, eklemeli bir dildir. Altay dilleri içinde Türkçe’ye en yakın olan Mo olca’dır. 2.1. Türkçe harfler ve Alfabe Türkçe alfabe toplam 29 harften olu mu tur ve genel sırası ile u ekildedir: a b c ç d e f g h ı i j k l m n o ö p r s t u ü v y z. Bu harfler ses özellikleri bakımından iki guruba ayrılırlar: sesliler/vokaller ve sessizler/konsonantlar. Türkçe alfabede bulunan harflerden 8 tanesi seslidir (vokal): a e ı i o ö u ü. Geriye kalan 21 tanesi de sessizdir (konsonant): b c ç d f g j k l m n p r s t v y z. h B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 22 2.2. Heceler ve kelimeler Dildeki sesler birbiri ardına gelerek anlamlı veya bir dilbilgisi i levi görevinde kendilerinden daha büyük birlikler meydana getirirler. Daha büyük birlikleri meydana getirmek üzere yan yana gelen seslerin birle meleri, onların müstakil olarak, birbirlerinden ayrı arka arkaya gelmeleri eklinde olmaz. Bir kenetlenme, bir silsile halinde ortaya çıkarlar. Dilbilimsel birlikteki sesler, aralarında bo luklar olmayacak ekilde ba lanırlar. Bu kayna ma ve zincirleme birle meler vokal etrafında toplanır. Bir vokal ile birle en veya bir vokal etrafında toplanan di er sesler sıkı bir ekilde birbirleri ile kayna ır. te böyle, bir vokal etrafında meydana gelen ses birle melerine hece denir. Hece tek vokalden meydana gelmedi i durumlarda, bir vokal ve bir veya birden fazla konsonant tarafından meydana getirilir. Bir kelime e er bir heceden olu muyorsa hecelerin arka arkaya gelmesi ile te kil edilir. Fakat böyle daha büyük dilbilimsel birlikleri meydana getirmek için birle en heceler içinde kayna ma sıkı; ancak heceler arasında daha zayıftır. Heceler arasındaki bu eklenti, sa lam bir birle meden çok arka arkaya bir söyleyi ten ibarettir. Bir benzetme ile anlatacak olursak; “Heceler içinde sesler birbiri ile bir zincirin halkaları gibi, fakat heceler birbiri ile bir tespihin taneleri gibi birle irler.” 2.2.1. Türkçe Heceleme Türkçe’de bir hece içinde en az bir, en çok dört ses bulunur. Bir ve dört sesli olarak birer tip, iki ve üç sesli olarak da iki er tip hece vardır. Böylece, Türkçe’deki hece tiplerinin sayısı altıdır. “V” vokal için, “K” konsonant için gösterim olarak kullanılacak olursa bu hecelerin ekilleri öyledir; V, VK, KV, KVK, VKK, KVKK. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 23 Türkçe’nin de i ik heceleme desenleri için verilebilecek örnekler: o, a (V); ol-, al- (VK); bu, u (KV); bal, kal- (KVK); art, erk (VKK); kalk-, sarp (KVKK). 2.3. ekil yapısı bakımından kelimeler ekil yapısı bakımından ele alınınca kelimelerin bünyesinde, anlamlı veya vazifeli bir takım ekiller vardır: göz-lük, gör-ü , aç-ı-k, ev-i-m kelimelerinin parçaları gibi. Anlamlı ekiller tek ba larına kullanılabilirler ve bir anlam ifade ederler. Vazifeli ekiller ise anlamlı ekillerle birle erek kullanılan ve ancak o zaman anlam ile ilgili bir vazife gören, fakat tek ba larına anlamı olmayan ve kullanılmayan kelime parçalarıdır. Kelime yapısında tek ba ına anlamlı olan sesbirimsel ekillere kök adı verilir. Tek ba ına manası olmayan ve kullanılmayan, ancak köklerle birle mek suretiyle mana ile ilgili bir vazife gören ekillere ise ek denir. Kök, bir kelimenin anlamı ve yapısı bozulmadan parçalanamayan ekli, manalı en küçük dil birli idir. Kökler tek ba larına veya eklerle birle mek suretiyle kullanılır. Mesela göz-lük kelimesinde göz kök, -lük ektir. 2.3.1. Kökler ve Gövdeler Kökler anlamları bakımından ikiye ayrılırlar: isim kökleri ve fiil kökleri. sim kökleri evrendeki canlı cansız varlıkları ve kavramları kar ılayan köklerdir. Fiil kökleri ise, bu varlık ve kavramların hareketlerini kar ılar. Nesneler kendi kendilerine var olan, ba ımsız B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 24 unsurlardır. Hareketler ise kendi kendilerine var olmayıp nesnelerden do an, nesnelere ba lı bulunan, varlıkları nesnelerle kaim olan unsurlardır. sim ve fiil kökleri arasındaki bu mana farkı onların dildeki kullanı larına da etki eder. sim kökleri tek ba larına kelime olarak kullanılabilirler. Fiil kökleri ise, tek ba larına kullanılı sahasına çıkamazlar. Mutlaka nesnelere, ahsa, zamana v.s. ‘ye ba lanarak vazife görürler ki, bu ba lanı ta fiil köklerine bir takım ekler getirmek suretiyle olur. Dilde nesnelerin ve hareketlerin hepsi için ayrı kökler bulunmaz. Birbiriyle ilgili bir gurup nesne veya hareket için bir kökten türemi bir kelime ailesi bulunur. Kökler kendileri ile ilgili yakın nesne ve hareketler için geni letilip, yeni kökler meydana getirirler. Köklerden türeyen bu geni köklere kelime gövdesi adı verilir. Gövde de bir çe it kök oldu u için, mana veya kullanı bakımından tamamı ile kök gibidir. Yalnız ekil bakımından kökten farklı ve ondan büyük bir dil birli idir. Gövdeler, hem isim köklerinden hem de fiil köklerinden yapılabilirler. sim köklerinden hem isim gövdeleri, hem de fiil gövdeleri, fiil köklerinden hem fiil hem de isim gövdesi olu turulabilir. Yani, yapı bakımından dört çe it kelime gövdesi vardır: simden yapılmı isim, isimden yapılmı fiil, fiilden yapılmı yapılmı fiil. isim, fiilden 2.4. Anlam veya Görev Bakımından Kelimeler Türkçe’de anlam veya görev bakımından üç çe it kelime vardır: isimler, fiiller ve edatlar. Türkçe’deki her kelime muhakkak bu üç B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 25 kelime çe idinden birine girer. Bunlardan isimler ve fiiller anlamları olan, edatlar ise görevleri olan kelimelerdir. simler, nesneleri kar ılayan kelimelerdir. Burada nesne kavramını, eylem dı ında kalan her ey için kullanıyoruz. Nesneler de kendi içinde bir takım sınıflara ayrılırlar. Çe itli nesneler vardır. Bu çe itli nesneleri kar ılamak için kullanılan isimler de kendi aralarında, kar ıladıkları nesnelerin anlamlarına uygun olarak kelime çe itlerine ayrılır. Varlıkların ve kavramların adı olarak nesneleri kar ılayan isimlere dar anlamı ile isim, vasıflandırmak veya belirtmek suretiyle nesneleri kar ılayan isimlere sıfat, temsil veya i aret etmek suretiyle nesneleri kar ılayan isimlere zamir, hal ve durumları kar ılayan isimlere zarf denir. Dolayısı ile geni anlamda isim adı altında topladı ımız kelimeler, kendi içinde dörde ayrılır: isimler, sıfatlar, zamirler ve zarflar. Fiiller hareketleri kar ılayan kelimelerdir. Hareket kelimesini de tabii geni anlamda kullanıyor ve nesnelerin zaman ve mekan içindeki her türlü olu ve yapı ları veya olmayı ve yapmayı ları kar ılı ı olarak alıyoruz. Evrende bir nesne, bir de eylemler, yani hareketler vardır. Nesne dı ında kalan her ey harekettir. Edatlar tek ba larına hiçbir eyi kar ılamayan kelimelerdir. Yani edatların tek ba larına anlamları yoktur. Edatlar ancak isimler ve fiillerle birlikte kullanılırken bir anlam kazanırlar. Edatlar anlamlı kelimelerin, yani isimlerin ve fiillerin ili kileri sırasında onlara yardım eden, dilbilgisi içinde görevleri olan kelimelerdir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 26 2.5. Kelime Gurupları sim ve fiil cinsinden bütün kelimeler nesneleri ve hareketleri kar ılayan, onların adları olan dil birlikleridir. Tek bir kelimenin kar ıladı ı nesnenin ve hareketin çe itli vasıfları, özel durumları, cepheleri, artları vardır. Nesneleri ve hareketleri bu çe itli yönleri ile daha geni olarak ifade etmek için tek kelimeden daha geni dil birliklerine ihtiyaç duyulur. Ayrıca tek kelimenin kar ıladı ı nesnelerden ve hareketlerden daha büyük, daha geni nesneler ve hareketler vardır ki onlar tek bir kelime ile kar ılanamazlar. Onların tek kelime olarak kar ılıkları, adları yoktur; ancak tek kelimeden daha geni dil birlikleri ile ifade edilebilir, adlandırılabilirler. te tek kelime ile kar ılanan nesneleri ve hareketleri daha geni olarak ifade etmek veya tek kelimenin kar ıladı ı nesnelerden ve hareketlerden daha geni nesneleri ve hareketleri kar ılamak için, kelimeden daha geni dil birlikleri olan kelime guruplarına ba vurulur. Kelime gurubu birden fazla kelimeyi içine alan, yapısında ve anlamında bir bütünlük bulunan, dilde bir bütün olarak i lem gören bir dil birli idir. Kelime gurubu için birden fazla kelime bir takım kurallarla belirli bir düzen içinde yan yana getirilir. Böylece, belirli bir düzenle kuruldu u için, kelime gurubunun yapısında bir bütünlük olur. Bütünlük, özellikle gurubun anlamında göze çarpar. Kelime gurubunun kullanılı ında da bu bütünlük korunur. Kelime gurubu kelimelerle ve di er kelime gurupları ile bir bütün halinde ili kiye geçer. Cümlelere bir bütün halinde katılır. Kullanımında tek bir kelime gibi çekime tabi tutulur, sona gelen i letme eki bütün gurubu ümulü içine alır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 27 Kelime gurupları nesneleri ve hareketleri daha geni olarak veya geni nesneleri ve hareketleri belirtmek için kullanıldıklarına göre bunlar birer belirtme gurupları’dır. Tek bir nesneyi veya hareketi belirtmek için, bu guruplar içinde yan yana gelen, birbirine ba lanan kelimeler, bir i birli i yapar, birbirine yardım eder, birbirlerini tamamlarlar. Bir belirtme, bir yardım, bir tamamlama esası üzerine kurulan kelime guruplarında genellikle belirten-belirtilen, tamamlayantamlanan, tabi olan-tabi olunan, asıl-yardımcı olmak üzere iki unsur bulunur. Türkçe’de kelime gurupları içinde yan yana gelen kelimelerin sırasını tayin eden temel kanun udur: Türkçe’de yardımcı unsur asıl unsurdan önce gelir. Türkçe söz-dizimin bütün yapısı bu ana kanun üzerine kurulmu tur. Bütün kelime gurupları ve cümlede belirtilen, tamlanan, tabi olunan, asıl unsur sonda; belirten, tamamlayan, tabi olan, yardımcı unsur ba ta bulunur. Türkçe’de yalnız ki’li birle ik cümle bu kuralın dı ında kalır. Çünkü ki’li birle ik cümle yabancı asıllıdır. Türkçe’ye girmekle beraber, Türkçe söz-dizimine dahil sayılmaz. Türkçe’nin bu ana kanuna dayanan kelime sırası ancak, o da kelime guruplarının bir kısmı ile cümlelerde olmak üzere, nazımda ekil bakımından geçici olarak yerlerini de i tirebilir. Vezin, kafiye ve ahenk gere i, nazımda ekil bakımından geçici olarak yerlerini de i tiren unsurlar, kelime gurupları ve cümlelerdeki asıl çekim ekillerini ve asıl sıra içindeki anlam ve i levlerini yine de korurlar. Hangi sırada olursa olsunlar, iir okurken yine asıl normal sıraları içinde idrak edilirler. Çünkü, Türkçe dü ünme sisteminde kelime sırasının temelini olu turan kanun de i mez. Dil dü üncenin aynasıdır. Türkçe de, Türkçe dü ünü ün aynasıdır. Onun için kelime sırası geçici olarak ne ekle girerse girsin, asıl normal sırası ile idrak edilir. Dü ünme sırası ile kelime sırası birbirinden ayrılamaz. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 28 Türkçe’nin ekler sistemi de tamamen bu kelime sırasına uygun, bu kelime sırasını destekler bir bünyeye sahiptir. Bu durum özellikle, isimlerle fiillerin ili kisinde açıkça görülür. Türkçe’de ili ki ekleri, isim i letme ekleri olan iyelik, hal ve soru ekleridir. Bu ekler bazen ismi isme, fakat çok defa ismi fiile ba ladıklarına göre, isim-fiil münasebetinde daima isim önce, fiil sonra gelir. Soru eki de hal ekleri gibidir. Kelime guruplarının büyük bir kısmında kelime sırası Türkçe’nin ekler sistemiyle de sıkı sıkıya ba lıdır. Türkçe’de bulunan kelime gurupları a a ıdaki ba lıklar altında toplanır. 2.5.1. Aynen Tekrarlar Tekrarlar aynı cinsten iki kelimenin arka arkaya getirilmesi ile meydana gelen kelime guruplarıdır. Türkçe’de hemen her çe it kelimeden tekrar yapılabilir. Tekrarların ba lıca dört i levi vardır: kuvvetlendirme, çokluk, devamlılık ve ortalama/beraberlik. 2.5.2. Ba lama Gurubu Ba lama gurubu sıralama ba lama edatları ile yapılan kelime gurubudur. Bugün sıralama edatları ve, ile ve bir de ara ( ...’den ...’e kadar) ifade eden Arapça ila kelimeleridir. Bu edatlarla birbirine ba lanan iki unsur hep beraber ba lama gurubu te kil eder. Edat iki unsurun arasına girer. Unsurlardan her biri, bir kelime veya kelime gurubu olur. Unsurlar eklen ve e it olarak birbirine ba lanır. Sıralanan unsurlar ikiden fazla ise ba lama edatı son iki unsurun arasına girer. Bu B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 29 edat da ancak ve olabilir. Di erleri ancak sıralanan iki unsur arasında olabilirler. Bunlardan ila, “kadar” anlamında oldu u için yalnız sayılar arasına girer. le ve ila genellikle isim unsurlarını ba larlar. Araya girerek iki unsuru birbirine ba layan ve edatı ise her çe it kelime ve kelime guruplarını, bu arada çekimli fiilleri ve cümleleri de birbirine ba lar. Leyla ile Mecnun, Alinin babası ile Ahmet bey, yetmi ila seksen, bin yüz ila bin iki yüz, sen ve ben; su, hava, ate ve toprak, geldi ve gitti, ancak ve ancak gibi. 2.5.3. Sıfat Tamlaması Sıfat tamlaması bir sıfat unsuru ile bir isim unsurunun meydana getirdi i kelime gurubudur. Sıfat unsuru isim unsurunu vasıflandırmak veya belirtmek için getirilir. Sıfat tamlaması eksiz bir birle medir. Her iki unsurda ek almadan yan yana gelirler. Sıfat bu birle mede daima teklik halde bulunur, sıfatların çoklukları yapılmaz. Sıfat tamlamasında sıfat isim ba ına gelir; yani sıfat önce, isim sonra gelir. Tamlamanın sıfat unsuru bir sıfat veya sıfat olarak kullanılan bir kelime gurubudur. sim unsuru ise bir isim veya isim vazifesi gören bir kelime gurubudur. En basit halde bir sıfat ve bir isim sıfat tamlaması olu turur. Sıfat tamlamasında gurubun vurgusu sıfat üzerinde kalır: güzel yazı, üç ki i, canım stanbul, güzelim bahar rüzgarı, büyük bir i , çok i lek bir cadde, bahçede oynayan kom u çocu u, bu gün Karadeniz’den gelecek olan vapur, arkada ları ile gezmeye giderken bindi i trenden dü üp kolu kırılan orta okul ö rencisi, demir kapı, dolma kalem, altın saat, evin önündeki a aç gibi. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 30 2.5.4. yelik Gurubu ve sim Tamlaması Bu gurup iki isim unsurunun meydana getirdi i bir kelime gurubudur. Bir ismin anlamının iyelik sistemi içinde ba ka bir isimle tamamlanması esasına dayanır. Bir nesnenin ba ka bir nesnenin parçası oldu unu, bir nesnenin ba ka bir nesneye ait oldu unu veya bir nesnenin ba ka bir nesne ile tamamlandı ını ifade etmek için bu kelime gurubuna ba vurulur. Gurubu meydana getiren iki unsurdan biri tamlayan, di eri tamamlanandır. Bu gurup ekli bir birle medir. Tamamlanan unsur daima iyelik eki ta ır. Tamamlayan unsur ise daima genetif (ismin ilgi hali) halinde bulunur, fakat bu genetif bazen ekli, bazen eksiz olur: stanbul ehr-i, ta -ın üst-ü gibi. Özetle iyelik gurubu iyelik ekli bir isim unsuru ile genetif ekli bir isim unsurunun meydana getirdi i kelime gurubudur. yelik gurubunun bu ekilde her iki unsurunun da isim oldu u durumlara isim tamlaması adı verilir. sim tamlaması iyelik gurubunun üçüncü ahıs ile yapılan eklidir. Tamlaması ekli olan isim tamlamasına belirli isim tamlaması, tamlayanı eksiz olan isim tamlamasına da belirsiz isim tamlaması denir. Belirsiz tamlamanın birle ik isim hükmünde olması dolayısı ile bir çok yer, makam, müessese, memuriyet, kitap, e ya v.s. nesne isimleri bu tamlama eklindedir: stanbul ehri, ordu kumandanı, çalı ma bakanı, Edebiyat Fakültesi, Saraço lu, ipek böce i, kahverengi, çama ır makinesi gibi. Böyle isimler ekli tamlayanla yapılamamaktadır. Demek ki ekli tamlayan bir isim tamlamasını bir isim haline gelmekten alı koymaktadır. Bunun sebebi ise tamlayanın belirli olmasıdır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 31 2.5.5. Aitlik Gurubu Bu gurup aitlik ekine dayanan bir kelime gurubudur. –ki aitlik eki ile ondan önceki bir kelime gurubunun yalın hali, genetif veya lokatif hali ile kurulur: tarihten önceki, ya lı adamınki, Anakara ile stanbul arasında sefer yapan otobüslerinki örneklerinde oldu u gibi. Son kelimesinin yalın, genetif veya lokatif hali –ki’yi kabul eden her kelime gurubundan aitlik gurubu yapılabilir ve bu gurup, yapıldı ı kelime gurubuna göre her geni likte olabilir. Kelime gurubu olarak tek ba ına zamir olan aitlik gurubu, di er kelime guruplarında veya cümlede zamir veya sıfat vazifesi görür. 2.5.6. Birle ik sim ve Birle ik Kelime Birle ik isim, bir nesnenin ismi olmak üzere yan yana gelen birden fazla ismin meydana getirdi i kelime gurubudur. Bir nesnenin çok defa adı olan isimler, aynı nesneyi kar ılama, aynı nesneye beraber ad olmak için do rudan do ruya, eksiz olarak yan yana gelirler ve birle ik isim yaparlar. Birle ik isimler, Türkçe’de hep özel isimlerdir. Bazı yer adları ile ikili, üçlü bütün ahıs adları Türkçe’nin birle ik isimlerini meydana getirir: Afyon Karahisar, Mehmet Kaplan, Ahmet Hamdi Tanpınar, Halide Edip Adıvar, Orhan Veli, Faruk Nafiz Çamlıbel, Ta demir, Timurta , Demitta örneklerinde oldu u gibi. Örneklerde de görüldü ü gibi, cins isimlerden yapılan birle ik isimler birle ik kelime durumuna geçmektedir. Zaten cins isimlerden birle ik isim yapmak, Türkçe’de yok gibidir. Onlar da, ancak özel isim haline geçmi cins isimlerden yapılanlardır. Birle ik isim, aynı zamanda Türkçe’de yalnız özel isimlerden yapılan kelime gurubudur da diyebiliriz. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 32 2.5.7. Birle ik Fiil Birle ik fiil bir yardımcı fiille bir isim veya bir fiil eklinin meydana getirdi i kelime gurubudur. sim veya fiil unsuru önce, yardımcı fiil sonra gelir. sim unsuru ile birle erek, birle ik fiil olu turulması: yok et-, alay et-, kabul et-, reddet-, mahvet-, telefon et-, sabreyle- var eyle-, yok ol-, mahvol-, hasta ol-, dost ol-, banyo yap-, spor yap-, almı ol-, müteessir bulun-, yapmı bulun-, olmu bulun-, gitmi bulun-. Fiil unsuru ile birle erek, birle ik fiil olu turulması: gele bil-, saklaya bil-, konu a bil-; alı ver-, kaybolu ver-, yakalayı ver-, isteyi ver-; kullanıla gel-, süre gel-, ola gel-; dü meyi gör-, yalvarı gör , isteyi gör-, istemeyi gör-; yapa dur-, gide dur-, oynaya dur-; baka kal, kala kal-, a a kal-; gide koy-, otura koy-, alı koy-; durup dur-, gezip dur-, ko up dur-. 2.5.8. Unvan Gurubu Unvan gurubu bir ahıs ismi ile bir unvan veya akrabalık isminden meydana gelen kelime gurubudur. ahıs ismi önce, unvan veya akrabalık ismi sonra gelir. Her iki unsur da hiç ek almaz : Ahmet bey, Hasan efendi, Mustafa Kemal Pa a, Nuri Çavu , Bayındır Han, Babür ah, Fatma nine gibi. Türkçe’de bir de unvan ve akrabalık isimlerinin ba a getirilmesi vardır. Bu takdirde birle ik isim meydana gelir. Unvan veya akrabalık ismi ahısın bir ismi durumuna geçer: Ba bakan Rü tü Saraço lu, Vali Fahrettin Kerim, General Kazım Karabekir, Profesör Ahmet Cafero lu, Binba ı Seyfi, Dede Korkut, Hoca Nasreddin, Molla Kasım, B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 33 Sultan Fatih, Kraliçe Elizabet, Katil örneklerindeki gibi. brahim, Hırsız Hüseyin 2.5.9. Ünlem Gurubu Ünlem gurubu bir seslenme edatı ile bir isim unsurundan meydana gelen kelime gurubudur. Seslenme edatı önce, isim sonra gelir. Eksiz bir birle me olur. Edat tek kelime halinde, isim unsuru ise bir isim veya isim yerine geçen bir kelime gurubu halinde bulunur: a beyim, be birader, be adam, bre kız, ey karde , hey Allah’ın kulu, ya Ali, ey bu topraklar için topra a dü mü asker örneklerinde oldu u gibi. 2.5.10. Sayı Gurubu Türkçe’de sayılar üç ekilde kar ılanmaktadır: 1. tek kelime ile, 2. sıfat tamlaması, 3. sayı gurubu. Tek kelime ile kar ılanan sayılar bir, iki, üç, dört, be , altı, yedi, sekiz, dokuz, on, yirmi, otuz, kırk, elli, altmı , yetmi , seksen, doksan, yüz, bin, milyon, milyar v.s.’dir. Sıfat tamlaması ile kar ılanan sayılar iki yüz, üç yüz, iki bin, bir milyon, bir milyar v.s.’dir. Burada dikkat edilecek tek ey yüz ve bin’in aksine milyon ve milyar’ın tek ba ına kullanılamaması, tek milyon ve milyar için de bir milyon ve bir milyar denilmesidir. Sayı gurubu ile kar ılanan sayılar ise i te bu tek kelimelik sayıların ve on’dan sonrakilerinin ve sıfat tamlaması halindeki sayıların ara yerlerindeki sayılardır: on bir, yirmi iki, otuz dört, yetmi be , bir milyon dört yüz, bin altı yüz yirmi üç gibi. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 34 2.5.11. Edat Gurubu Edat gurubu bir isim unsuru ile bir son çekim edatının meydana getirdi i kelime gurubudur. sim unsuru önce, son çekim edatı sonra getirilir. sim unsuru zamir veya isim olmasına ve edatın cinsine göre çe itli hallere girer ve çe itli ekler alır. Edat ise, gurubun eksiz, de i mez unsurudur. Edat unsuru daima tek kelimedir. sim unsuru tek kelime olabilece i gibi isim yerine kullanılan bir kelime gurubu da olabilir. u örnekler edat gurubudur: benim için, senin gibi, ta için, onun güzel hatırı için, eve do ru, ye il gözleri ile, Ankara’dan bildirildi ine göre, sessiz akan bir su gibi, on be gün kalmak üzere, bundan dolayı, dün geceye dair, ko up oynamaktan ba ka. 2.5.12. snat (yükleme) Gurubu snat gurubu biri di erine isnat edilen, yani biri di erine yüklenen, dayanan, bindirilen, yaslanan iki isim unsurundan meydana gelir. snat edilen unsur isnat olunandan, kendisine isnat yapılandan sonra gelir. Kendisine isnat yapılan unsur ya yalın halde bulunur veya iyelik eki almı olur. Bu unsur tek bir isim olabilece i gibi isim yerine geçen bir kelime gurubu da olabilir. snat unsuru ise bir sıfat veya sıfat yerine kullanılan bir kelime gurubu olur. u örnekler isnat gurubudur: ba açık, ayak yalın, göz kapalı, üst ba peri an, omuzlar dü ük, gözü açık, karnı tok, sırtı pek, etrafı yıkık, ba rı yanık, saçı uzun, aklı kısa, alnı açık, ekeri az, sütü bozuk, canı tez, bütün duvarları ya lı boya, bahçesinin dört yanı tellerle çevrili, ba ı bo , eli açık, baldırı çıplak, geli igüzel, karnıyarık. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 35 2.5.13. Genetif Gurubu Genetif eki ile birbirine ba lanan iki isim unsurunun meydana getirdi i kelime gurubudur. Genetif ekli unsur önce, onun ba landı ı yalın isim sonra gelir. Gurubun anlamı genetif ekinin ilgi i levine dayanır. Gurup iyelik eki dü mü bir iyelik gurubu gibidir: bizim kız, senin ev, benim at, Ahmet dayının o lan, sizin av köpe i gibi. Genetif gurubunun her iki unsuru da tek bir isim olabilece i gibi, isim yerini tutan bir kelime gurubu da olabilir. Gurubun vurgusu ikinci unsur üzerinde bulunur. Bir yandan iyelik gurubuna yakla an genetif gurubu, bir yandan da sıfatı kli ele mi bir genetif olan bir sıfat tamlamasına benzemektedir. Aynı tipte guruplar olan datif, ablatif ve lokatif gurupları da bu ekilde sıfat tamlamasında benzemektedir. Hepsinin ikinci unsurda bulunan vurguları da bunu göstermektedir. Yalnız bütün bu gurupları kısaltma gurubu olarak da saymak mümkündür. Genetif gurubu kısalmı bir iyelik gurubu, datif, lokatif ve ablatif gurupları ise kısalmı , kli ele mi birer fiil gurubu gibidirler. Zaten datif, lokatif ve ablatif gibi eklerin normal i levleri ismi fiile ba lamaktır ve bulundukları yerde bir fiil yoksa bir fiil ifadesi muhakkak bulunur. Özellikle ikinci unsuru fiilden yapılmı bir isim olanlarla, –ma, -me ekli olanlar aynı zamanda birer fiil gurubu durumundadırlar. 2.5.14. Datif Gurubu Datif halindeki bir unsur ile ondan sonra gelen bir isim unsurunun meydana getirdi i kelime gurubudur. Datifli unsur da, unsurda ya tek bir isim veya isim yerini tutan bir kelime gurubu olur: dile kolay, ba a bela, cana yakın, ate pahasına bir ö len yeme i, aslına uygun, keyfine dü kün, ba ına buyruk, ana babasına ba lı gibi. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 36 2.5.15. Lokatif Gurubu Lokatif eki almı bir isim unsuru ile ondan sonra gelen bir isim unsurunun meydana getirdi i kelime gurubudur. Her iki unsurda ya tek bir isim ya da isim yerine geçen bir kelime gurubu olur: geçmi te bugün, dam üstünde saksa an, elde bir, yükte hafif, pahada a ır, i inde usta, i inde usta, i inde gücünde adam, üçte iki, dörtte bir, be te üç, onda bir, yüzde be , binde bir örneklerinde oldu u gibi. 2.5.16.Ablatif Gurubu Ablatif eki almı bir unsurdan sonra gelen bir isim unsurunun meydana getirdi i kelime gurubudur. Her iki unsurda ya tek bir isim veya isim yerine geçen bir kelime gurubu olur: kafadan kontak, do u tan sakat, yandan çarklı, anadan do ma, sonradan görme, sıradan adam, gözden uzak, a ızdan dolma, candan arkada , yalandan dostluk, içinden pazarlıklı, kendisinden çok emin, bunlardan biri, e lencesine dü kün olanlardan hiç biri, içlerinden ço u, gençlerden üçü gibi. Bu son örneklerde ikinci unsurun iyelikli olması dolayısı ile iyelik gurubu i levinde bir gurupla kar ıla ıldı ı görülmektedir. Birbirine çok benzeyen, i levleri bir gibi olan (bunların biri, bunlardan biri) bu iki gurubun birbirine karı tırılmaması gerekir. 2.5.17.Kısaltma Gurupları Bunlar kelime gurupları ve cümlelerin kısalması, yıpranması neticesinde ortaya çıkan kelime guruplarıdır. Her hangi bir kuralları yoktur. Daha geni bir guruptan kısalmı ve kli ele mi guruplardır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 37 Sayıları pek fazla de ildir: gün aydın, güle güle, günden güne, ba tanba a, o gün bugün, yan yana, sırt sırta, omuz omuza, ba ba a, el ele, ha a huzur, git gide, ba a a ı, eller yukarı, ileri mar , sola çark, ba üstüne gibi. 2.5.18.Akuzatif Gurubu Akuzatif gurubu akuzatif halindeki bir isim ile onun arkasından gelen bir isim unsurundan meydana gelir. kinci unsur isimle yapılan bir birle ik fiilin isim kısmı olur ve dolayısı ile geçi li fiil ifadesi ta ır: her eyi borçlu, seni istikbal, yapılanı tenkit, kitabı birine ithaf gibi. Görülüyor ki akuzatif gurubu partisip gurubu veya fiil gurubunun kısalmı , yardımcı fiili dü mü eklidir. Onun için akuzatif gurubu da bir kısaltma gurubu sayılabilir. Bu yüzden birinci unsurdan sonra araya yer tamlayıcısı ve zarf unsurları da gelebilir: seni istasyonda istikbal, kitabı her gün orada birine hediye, her eyi olur olmaz tenkit gibi. 2.6. Cümle ve Cümle Unsurları Cümle bir fikri, bir dü ünceyi, bir hareketi, bir duyguyu, bir hadiseyi tam olarak bir hüküm halinde ifade eden kelime gurubudur. Yukarıda bahsedilen kelime gurupları belirtme gurupları idi. Cümle ise hüküm gurubu’dur. Cümlenin temel fonksiyonu “hüküm” ifade etmektir. Onun için cümle en tam, en geni kelime gurubudur. Cümlenin varlı ı için asgari art bir çekimli fiilin varlı ıdır. Çekimli fiil cümlenin varlı ı için gerekli ve yeterdir. Demek ki, çekimli fiil olmak artı ile tek kelime de cümle olmaktadır: Geliyorum.; B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 38 Güzeldir. gibi. Çekimli fiilde, eklerin ahıs da ifade etmesi dolayısı ile fiilden ba ka fail ifadesi de vardır. Onun için çekimli fiilden ibaret tek kelimelik bir cümlede de, biri kapalı olmak üzere, fiil ve fail olarak iki unsur var demektir. Bu iki unsur zaten cümlenin temel unsurlarıdır. Varlıkları tam bir cümlenin varlı ı için yeterlidir. Hükmü daha geni , daha etraflı, çe itli artları ile daha belirli olarak ifade etmek için, cümle birden fazla cümle unsurundan meydana getirilir. Cümle unsurları fiil, fail, nesne, yer tamlayıcısı ve zarf’tır. Yani cümlede fiil ile onun gerektirdi i unsurlar bulunur. Hükmün geni li ine göre cümlede, cümle unsurlarından biri, bir kaçı veya hepsi bulunur. Fiil ve fail cümlenin esas unsurları, nesne, zarf ve yer tamlayıcısı da cümlenin yardımcı unsurlarıdır. Bir cümlede ancak bir fiil unsuru bulunur. Di er unsurların ise cümlede aynı cinsten bir veya birkaç tanesi bulunabilir. Yani bir cümlede birkaç fail, birkaç nesne, birkaç yer tamlayıcısı ve birkaç zarf bulunabilir. 2.6.1. Fiil Unsuru Cümlenin ana unsurudur. Cümlenin bütün yapısı onun üzerine kurulur. Di er unsurların tamamı fiilin etrafında toplanan, onu destekleyen, onu tamamlayan unsurlardır. Türkçe’de asıl unsurun, yardımcı unsurdan sonra gelmesi ilkesi gere ince, esas unsur olan fiil daima sonda bulunur. Kendisinden önce gelen unsurların kesin bir sırası yoktur. Belirtilmek istenme derecelerine uygun olarak fiile yakla tırılarak kullanılırlar. Genellikle fiile en yakın unsur, yani fiilden önceki unsur en üzerinde durulan unsurdur. Cümlenin normal vurgusu da fiilin önünde, bu unsur üzerinde bulunur. Fiil cümlede hareketi, B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 39 olu u, yapı ı, olayı, hükmü kar ılayan unsurdur. Daima çekimli fiil halinde bulunur. 2.6.2. Fail Unsuru Cümlenin fiilden ba ka iki ana unsurundan biridir. Fail, fiili yapan veya olan unsurdur. Fiile en yakın, fiilden ayrılmaz bir cümle unsurudur. Ayrıca söylenmese bile fiilin içinde genel olarak ahıs halinde ifade edilmek suretiyle, varlı ı cümlede daima hissedilir. Fail, isim cinsinden bir kelime veya kelime gurubu olur. Daima yalın halde bulunur. Cümlenin çekimsiz bir unsurudur. Fiile yalın halde, eksiz ba lanır. Fail, yalnız meçhul fiilli cümlelerde bulunmaz. Yalnız teklik üçüncü ahısları kullanılan meçhul fiiller fail istemezler. Gereklilik kipinin teklik üçüncü ahısının ahıssız, genel kullanı ında da fail bulunmaz: “Gitmeli.” ; “Yazmalı.” örneklerinde oldu u gibi. 2.6.3. Nesne Fiilin etki etti i nesneyi, ahsı kar ılayan cümle unsurudur. Fiillerin bir kısmı geçi li, bir kısmı geçi sizdir. Yani bir kısmı yapma, bir kısmı olma ifade eder. Yapma ifade edenlerin hareketi fiilden ba ka bir nesneye yönelir, ona etki eder. Olma ifade edenlerin hareketi ise faile yönelir, onun üzerinde kalır. Dolayısı ile, geçi li fiiller etki edecek bir nesne isterler. Bu durumu kar ılayan cümle unsuru nesnedir. O halde nesne, yalnız fiili geçi li cümlelerde bulunur. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 40 2.6.4. Yer Tamlayıcısı Fiilin mekanını ve yönünü gösteren cümle unsurudur. Her hareketin zaman ve mekan içinde bir yeri ve bir yönü vardır. Yer tamlayıcısı hareketin meydana geldi i bu yeri ve yönü ifade eder. Bu unsur da, isim cinsinden bir kelime veya kelime gurubu olur. 2.6.5. Zarf Fiilin çe itli artlarını ve zamanını gösteren cümle unsurudur. Hareketin nasıl, niçin, ne ekilde, hangi vasıtalarla, hangi sebeple, yani özetle hangi artlarla yapıldı ını veya oldu unu ve hangi zamanda cereyan etti ini göstermek için zarf unsuru kullanılır. Bu unsur zarf olarak kullanılan isim cinsinden bir kelime veya kelime gurubu olur. Zarf da çekimsiz bir cümle unsurudur, fiile oldu u gibi, do rudan do ruya ba lanır. 2.6.6. Cümle Dı ı Unsurlar Cümlede bu unsurlardan ba ka bir de ba lama ve ünlem edatları veya ünlem gurupları bulunabilir. Fakat bunlar esas hareketle, fiille ilgili olmayan ve cümleye sadece ilave edilmi durumda bulunan unsurlardır. Genellikle cümlelerin ba larında, sonlarında ve cümleler arasında bulunurlar. Parantez eklinde cümle içine girdikleri de görülür. Bunlara cümle dı ı unsurlar denir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 41 3. ENFORMASYON 3.1. Enformasyon Bilim ve Bilgi Geri-Getirim Enformasyon bilim en genel anlamda, u ra ı alanı enformasyon olan bir bilim dalı olarak tanımlanabilir. Enformasyon bilim aslen, çok disiplinli bir u ra sahasıdır ve bir çok farklı bilim dalının katkı sa ladı ı do al meseleleri incelemektedir. Enformasyon bilime katkı sa layan di er bilim dalları ekil 3.1.1.’de çizge halinde gösterilmi tir. leti im (Communication) Enformasyon Teorisi Yöntem-bilim (Epistemology) Bili sel Bilimler (Cognitive Sciences) Matematik ( statistik) Bilgisayar Bilimleri Yapay Zeka Enformasyon Bilimleri Sosyoloji SosyoDilbilim Psikoloji PsikoDilbilim Dilbilim ekil 3.1.1: Enformasyon bilimine katkıda bulunan di er bilimler (Ingwersen, 1992). B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 42 Ingwersen (1992) tarafından, enformasyon bilim içindeki u ra lar 4 ba lık altında sınıflandırılmı tır: 1. Enformasyon-ölçütleri (Informetrics): Enformasyon ileti iminin nicel çalı maları. Örnek: Çapraz atıflar (co-citations). 2. Enformasyon Yönetimi (Information Management): Metin ve di er medya içerikli Bilgi geri-getirim dizgelerinin de erlendirilmesini ve kalite kriterlerini belirlemeyi de kapsayacak ekilde enformasyon yönetimi. 3. Enformasyon (geri-getirim) sistemleri kurgusu (Information (Retrieval) Systems Design). Bir Bilgi geri-getirim sistemi veya sadece Bilgi sistemi tasarlama, altyapısını kurgulama çalı maları. 4. Enformasyon geri-getirim etkile imi (Information Retrieval Interaction): Bilgi geri-getirim dizgeleri ile kullanıcı (esas ki iler, vekil yazılımlar veya di er Enformasyon geri-getirim dizgeleri) arasında gerçekle en etkile imi yönetme ve faydalanma çalı maları. Örnek olarak Bilgi geri-getirim dizgelerinin uygulamada kullanacakları ara-yüz tasarımları, kullanıcıların yaptıkları sorguların kayıtlarının tutulup tarihsel olarak kullanıcı profillerini çıkartmak ve geri-getirim ba arımlarını kullanıcı esasına dayalı olarak iyile tirmek gibi u ra lar. Tez çalı mamız Ingwersen’in yaptı ı enformasyon bilim u ra sahaları sınıflandırması içinde Enformasyon (geri-getirim) sistemleri kurgusu ba lı ı altına girmektedir. 3.2. Enformasyon Tanımı ve Farklı Yakla ımlar Enformasyon kavram olarak en geni anlamda, insanlar arasındaki ileti imin her hacminde (asgaride iki insan genelde ikiden fazla ki i arasında) ve her eklinde (yazılı, sesli, görüntülü, e zamanlı B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 43 veya farklı zamanlı) taraflar arasında nakledildi i dü ünülen olguyu kar ılar. Thagard (1990) enformasyon kavramının tanımına yönelik matematik, bili sel psikoloji ve felsefe bilimleri kökenli 3 farklı yakla ımın oldu unu bildirmi tir: 1. Enformasyon-i lem yakla ımı (Information-processing). 2. Çevrebilimsel yakla ım (Ecological). 3. Matematiksel yakla ım (Mathematical). 3.2.1. Enformasyon-i lem (Anlamsal-Enformasyon) Enformasyon-i lem yakla ımı bili sel psikoloji (cognitive phychology – bilme veya kavrama psikolojisi, anlambilim) için genel bakı açısıdır. Bili sel psikoloji’de enformasyon soyut bir kavramdır ve ancak insan zihninde bilme eyleminin5 idrak, yani anlayabilme alt süreci içinde var olur ve anlamsal-enformasyon’dur (veya anlambilimsel-enformasyon). Psikoloji’de, enformasyon fikri sadece bilgi kavramı ile, yani ayrıca belirtilmeden içine dahil edilmi tanımlanır. Enformasyon-i lem yakla ımda, enformasyon ekilde zihnin tasvirine ait bir mesele olarak, daha do rusu dü ünen ki inin zekasında/aklında hesaplama ile ilgili yapılar olarak ele alınır. Soergel (1985) anlamsal-enformasyonun bir ki inin bilme eylemi içindeki var olu noktasını ekil 3.2.1.1’de oldu u gibi, dı dünyadaki veriden ba layarak davranı a kadar ki zihinsel süreçler içinde resmetmi tir. 5 Bilme eylemi algı, idrak (anlama, kavrayı ) ve karar verme olarak 3 alt süreçten meydana gelir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 44 Veri, enformasyon’a Dönü ür Veri Algılama Bilgi Mevcut Durum stenilen Durum leme ve Yorumlama Karar Verme Davranı ın Planlanması Davranı ekil 3.2.1.1: Bireysel bilme eylemi (Soergel, 1985). Soergel’in anlamsal-enformasyon tasviri bili sel psikoloji bakı açısını tam olarak yansıtmaktadır. Bu genel enformasyon betimlemesi, özelde disiplinler arasında küçük farklar olmasına ra men insanın bilme eylemi ile u ra an tüm bilim dallarında da geçerlidir. Ancak enformasyon her ne kadar ki inin bilgi edinme süreci içinde var olabilen bir olgu olsa da; bilgi ile enformasyon arasındaki farkı uygulamalı sahalarda belirleme ihtiyacı vardır. Böyle belirleyici bir anlamsal-enformasyon tanımı da ancak enformasyon, bilgi ve veri kavramları üzerinden “i levsel tanımlar ve ili kiler” kapsamında ortaya konabilir. Bili sel psikoloji bakı açısından veri, bilgi ve enformasyon kavramlarının tanımları Fosket (1996) tarafından u ekilde verilmi tir: B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 45 “Veri (Data) do rudan, hiçbir aracı olmaksızın gözlemlenen her türlü gerçek veya gerçekler; Bilgi (Knowledge) benim bildi im ey, yani ki i olarak bildi imiz ey veya eyler; Enformasyon (Information) ise bizim bildi imiz eyler, yani payla ılmı bilgidir.” (Fosket, 1996) Fosket’in tanımlarında belirleyicilik adına altı çizilmesi gereken husus: sadece enformasyonun insanlar arasında nakledilebildi i ve bilginin insana has oldu udur. Bilgisayar bilimleri için daha belirleyici ve i levsel veri, bilgi ve enformasyon kavramları, bili sel psikoloji bakı açısından sapmadan Creaven (2002) tarafından u ekilde uyarlanmı tır: “Veri (Data), insanlar veya bilgisayarlar tarafından alınabilen, depolanabilen, i lenebilen ve iletilebilen her türlü sayı, harf ve harf dizileri, resimler ve benzeri eyler; Bilgi (Knowledge) ise algı, ö renme ve usa vurmanın psikolojik sonucudur. …; Enformasyon (Information) ise alan ki inin belirsizli ini azaltan, alınabilen ve anlanabilen bir mesajdır.” (Creaven, 2002) Creaven’ın tanımlarında da, Fosket’inkinde oldu u gibi bilgi insana ait bir olgu olarak tanımlanmı ; ancak enformasyonun payla ım özelli i farklı olarak soyut bırakılmamı , alınabilen ve anlanabilen bir mesaj olarak nesnele tirilmi tir. Mesaj veya ileti ise, sözle veya yazılı olarak insanlar arasında gönderilen haber olarak tanımlanır. Enformasyon fikrinin bu tanımı, aslen bili sel psikoloji bakı açısından enformasyonun var olu noktasını de i tirmez, yine insanın bilme eyleminin soyut bir parçasıdır. Ancak, enformasyon olgusunun tasvirini, bilmeye kaynak te kil eden somut, yani nesnel olgulardan ba langıçla, insana do ru, yani bili eyleminin gerçekle mesine do ru yapar. Bir ba ka söyleyi le, öncelikle somut bir nesne ile, daha do rusu veri ile temsil edilmi bir mesaj vardır (ki bu mesajın da kayna ı aslen yine bir ba ka insandır!). E er bu mesaj bir ki i tarafından alınabiliyor, B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 46 anla ılıyor ve o ki inin belirsizli ini gideriyor, yani bir durum hakkında o ki inin kararsızlı ını ortadan kaldıran bir bilgiyi olu turuyorsa enformasyondur. Ki iler arası mesaj iletimini olu turan alt süreçler ekil 3.2.1.2.’de resmedilmi tir. Bilgi leme ve Yorumlama Mesaj Olu turma A Ki isi Enformasyon Veri’ye leti im Ortamı Mesaj ≅Enformasyon Veri Veri, enformasyon’a Algıma B Ki isi Bilgi leme ve Yorumlama ekil 3.2.1.2 : nsanlar arasında Mesaj/Haber letimi. Soergel’den (1985) uyarlanmı tır. Enformasyonun veriye ve verinin tekrar enformasyona dönü üm evrelerini betimler. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 47 3.2.2. Çevre-bilimsel Yakla ım Çevrebilimsel yakla ım enformasyonun dünyada hazır bulunu u, daha do rusu varlık fikrine dayanır. Çevrebilimsel yakla ım içinde enformasyon gerçek olguların veya mahallerin özellikleridir. 3.2.3. Matematiksel Yakla ım Matematiksel yakla ım, enformasyon fikrinin tanımına yönelik olarak Thagard’ın verdi i son yakla ımdır. lk defa Shannon6 (1949) tarafından ortaya konmu tur. Aynı yakla ım literatürde ileti im-teorik ve enformasyon-teorik olarak da anılır. Bu yakla ım açısından enformasyon bir kaynak ve hedef arasında kurulmu herhangi bir ileti im hattı üzerinden gönderilen veya alınan sinyale ait bir özelliktir, yani sinyal-enformasyon’dur (veya öz-enformasyon). Sinyal ile enformasyon arasındaki ili ki istatistik esaslıdır, daha do rusu ileti im ekli içinde söz konusu sinyalin gözlenme olasılı ına dayanır. En çok enformasyon içeren sinyal en az olasılı a sahip olandır ve aralarında Denklem 3.2.3.1.’de verildi i gibi ters orantı vardır. I ( s ) = log 2 1 veya I(s) = − log 2 P( s) P( s ) (3.2.3.1) Denklem 3.2.3.1.’de; bir sinyal üzerinden ta ınan sinyal enformasyon miktarı I(s), söz konusu sinyalin s, gözlenme olasılı ının P(s), -1. dereceden kuvvetinin 2 tabanına göre logaritması alınarak elde 6 Claude Elwood Shannon, 1916-2001 yılları arasında ya amı Amerikalı bir bilim adamıdır. 1940 yılında MIT’den matematik dalında doktorasını almı ve 1941 yılında AT&T adına çalı maya ba lamı tır. 1948 yılında enformasyonun nicel olarak nasıl ölçülebilece ine dair kuramını yayınlamı tır. Enformasyon teorisi, sayısal mantık ve matematiksel ileti im modeli için kuramsal alt yapıyı olu turan ki idir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 48 edilen sayısal de erdir. Denklem’den elde edilen sayısal de er sinyalenformasyon miktarını nicel ekilde “ikili sayıları” (binary digits) cinsinden ifade eder, daha do rusu ikilleri (bits) birim alarak ölçeklendirmektedir. Bili sel psikoloji bakı açısına dayalı anlamsal-enformasyon fikrinin bir özelli i olan anlam, yani idrak edebilen bir zihin tarafından anla ılma özelli i sinyal-enformasyon fikrinde yoktur (Weaver, 1949). Sinyal-enformasyonun nicel olarak ölçülebilmesinin kökeninde, Türkçe kar ılı ı düzensizlik olan, ngilizce entropy kavramı vardır. Düzensizlik kavramı fikir olarak termodinamikten gelmektedir ve tanımı öyledir: “E er verilen bir durum son derecede organize bir haldeyse, yüksek dereceli rasgele olu larla veya seçeneklerle nitelenemez, yani söz konusu durumda enformasyon az miktarda bulunmaktadır.” (Weaver, 1949) Aslen, Denklem 3.2.3.1.’den belirli bir sinyal için elde edilen sayısal ifade, hem sistem içinde gözlemlenebilecek farklı durumlar nispetinde olu an toplam düzensizli in bu sinyale ait kısmını, hem de sinyalin söz konusu sistemdeki sinyal-enformasyon de erini ikil adedi cinsinden nicel olarak temsil eder. Örne in, belirli bir sinyalin gözlenme olasılı ı “1” ise bu sinyalin hem sinyal-enformasyon de eri hem de sistemde yarattı ı düzensizlik miktarı ikil adedi cinsinden 0 (sıfır) olur. Bir ba ka söyleyi le, e er kayna ın hedefe iletebilece i tüm mesajların farklı olanlarının her birini temsil için tek bir sinyale ihtiyaç oldu u kabul edilirse: Gönderilecek tek bir mesaj oldu u durumda, zamanın herhangi bir kesitinde iletim hattı üzerinde gözlemlenecek sinyal hep aynı kalacak, yani tam bir düzen olacaktır. Dolayısı ile hat üstünde gözlemlenebilecek farklı durumları kodlamak için gerekecek asgari ikil sayısı ve söz konusu sinyalin sinyal-enformasyon de eri 0 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 49 olacaktır; Ancak nakledilmek istenen mesaj sayısı 2 olursa, zamanın herhangi bir kesitinde sistem içinde farklı iki sinyalden herhangi birisi gözlemlenebilir. Dolayısı ile hat üstünde gözlemlenebilecek farklı durumları kodlamak için gerekecek asgari ikil sayısı ve söz konusu sinyallerden her birinin sinyal-enformasyon de eri 1 olacaktır; Aynı ekilde 3 mesaj için, 3 farklı durumu kodlamak gerekecek dolayısı ile gözlemlenebilecek farklı durumları kodlamak için gerekecek asgari ikil sayısı ve sinyal-enformasyon de eri 2 olacaktır. Genellersek, n farklı durum için log2(n) ikil gerekecektir. 3.2.4. Enformasyon Yakla ımlarının Kar ıla tırması Lyons (1977) terminoloji açısından sinyal-enformasyon ile anlamsal-enformasyon arasında karma ık bir ili ki oldu una da dikkat çekmi tir. Lyons bu iki farklı enformasyon kavramı arasında, duyusal olarak beklenmedik olma, yani a kınlık yaratma ölçüsünde bir ba lantı oldu undan bahseder. Bu ba lantı, bir sinyalin gözlenme olasılı ı arttıkça ta ıdı ı sinyal-enformasyon azalır ilkesi üzerinden kurulur. Örne in “Adam köpe i ısırdı.” cümlesi “Köpek adamı ısırdı.” cümlesinden duyusal olarak a kınlık yaratma ölçüsünde bir bakıma daha büyük anlamsal-enformasyon de eri ta ır denebilir. Bu ba lamda söz konusu iki cümlenin duyusal olarak a kınlık yaratma miktarı sinyal-enformasyon de erleri olarak da dü ünülebilir: Duyusal olarak a kınlık yaratma miktarı yüksek olan “Adam köpe i ısırdı” cümlesi beklenmedik bir durumdur, yani gözlenme olasılı ı dü üktür dolayısı ile sinyal-enformasyon de eri yüksektir; Benzer ekilde bir sinyalin gözlenmesi olasılı ı e er “1” ise, bu sinyal hiç sinyal-enformasyon ta ımaz. Yani, e er bir ki i tamamen tahmin edilebilir bir ey söylüyorsa, “Köpek adamı ısırdı” cümlesi gibi duyusal açıdan a kınlık B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 50 yaratma ölçüsünde söyledi i eyin hiçbir anlamsal-enformasyon de eri yoktur denebilir. Anlamsal-enformasyonun verilen tanımından da anla ılaca ı gibi enformasyon, ba langıç olarak veri ile temsilinden dü ünen bir zihinde bilgiye dönü mesine kadar geçen süreçte, tekbir halde bulunmaz. Çizelge 3.2.4.1.’de enformasyonun, içinde bulundu u süreçler açısından hangi hallerde oldu u verilmi tir. Çizelge 3.2.4.1: Enformasyonun çe itli hallerini gruplayan Buckland Matrisi (Buckland, 1991) Soyut (Intangible) Somut (Tangible) Varlık (Entity) Bilgi-olarak-Enformasyon: Ki isel, bireysel bilgi Nesne-olarak-Enformasyon: Kayıtlı her türlü veri: belge vb. Süreç (Process) Süreç-olarak-Enformasyon: Edinilmi enformasyon. lem içindeki enformasyon: Veri i leme, belge i leme v.b. Buckland (1991) enformasyonun söz konusu hallerini kavramsal (soyut veya somut) ve nesnel (varlık veya süreç) olmak üzere iki boyut üzerinden 4 gruba ayırır ve söz konusu sınıflandırma Buckland Matrisi olarak anılır: 1. Bilgi olarak enformasyon: “Soyut varlık” olarak enformasyon sadece insanda bulunur ve ki isel, daha do rusu bireye ait bilgidir. 2. Bir ey olarak enformasyon: “Somut varlık” olarak enformasyon gündelik hayatta kar ıla ılan ve nesnel olan her türlü veridir: belge, ses, görüntü v.b. eyler. 3. Süreç olarak enformasyon: “Soyut süreç” olarak enformasyon bili sel olarak verinin dü ünen bir zihinde enformasyona dönü mü hali, yani edinilmi enformasyondur. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 51 4. Enformasyonu i leme: “Somut süreç” olarak enformasyon, yani i lemin hedefinde bulunan nesnel enformasyon; mekanik olarak semboller (yazılı belgelerdeki alfabe, sayılar vb. ) veya ba ka eklindeki gösterimler üzerinde i lem yapmak, örnek olarak veri i leme (data processing), belge i leme (document processing) ve bilgi mühendisli i (Knowledge engineering). Tez kapsamında yaptı ımız çalı malar anlamsal enformasyonun somut hallerini esas almaktadır. 3.3. Enformasyonun letimi – leti im Enformasyon fikrine Thagard (1990) tarafından verilen yakla ımların içinde anılan önemli bir di er husus da, enformasyonun nakledilmesi, daha do rusu genel adı ile ileti im, haberle medir. Aslen Shannon (1949) tarafından sinyal-enformasyon fikrinin ortaya atıldı ı çalı mada, sadece sinyal-enformasyon iletimi için tasarlanmı olan ekil 3.3.1.’deki ileti im modeli, insanlar arasındaki anlamsalenformasyon nakli içinde kullanılabildi inden, literatürde ileti imin klasik modeli olarak anılır ve her iki enformasyon fikri kapsamındaki uygulamalarda genel-geçer model kabul edilir. ekil’de, kaynak, daha do rusu enformasyonun kayna ı telefonda konu mayı yapan ki idir. Verici sesi elektrik sinyaline çeviren birimdir. ekilde etiketsiz olarak bulunan kutu ise sinyal gönderip alınabilen herhangi bir iletim ortamıdır (örne in telefon hattı). Alıcı, iletim ortamından aldı ı sinyali tekrar sese çeviren birimdir. Hedef ise telefonun kar ı tarafında konu mayı dinleyen ki idir. Gürültü kayna ı bu ileti imi bozacak her türlü ek uyarımdır (örne in telefon hatlarında yo unluk). B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 52 Anlamsal-enformasyon Sinyal-enformasyon Kaynak Verici Mesaj Alıcı Sinyal Hedef Mesaj Alınan Sinyal Gürültü Kayna ı ekil 3.3.1: leti imin klasik modeli. (Shannon, 1949, uyarlama) Shannon’un, enformasyonun iletimi için verdi i modelle ilgili altı çizilmesi gereken en önemli husus: kaynak ile hedef arasında anlamsalenformasyon naklinin; alıcı ve verici arasında sinyal-enformasyon gönderiminin söz konusu olmasıdır. Çünkü, ileti im fikri, daha do rusu anlamsal-enformasyonun nakli sadece iki insan arasında var olmaktadır. leti imin klasik modelinde, genel olarak anlamsalenformasyon naklinin her ekli için bir betimleme verilmi tir, özelde tez kapsamı içinde ele aldı ımız yazılı metinlere uyarlanmı ileti im modeli de ekil 3.3.2.’deki gibidir. Anlamsal-enformasyonun genelde her eklinde, özelde de yazı ile naklinde enformasyonun muhtemelli i (potansiyel) söz konusudur. Yazı ile ileti imde, anlamsal-enformasyon simgesel göstergeler ile temsil edilen anlamlar silsilesi halinde metne dönü türülür. Söz konusu iletilmek istenen anlamsal-enformasyonun tekrar elde edilebilir olması adına kullanılan simgesel göstergelerin “dü ünen bir zihin tarafından idrak edilebilme, yani anla ılabilir” olma özelli ini ta ıması gerekir. Temsil edilen anlamlar, bütün halde kaynak ile hedef arasında nakledilmek istenen mesaj içeri ini, yani muhtemel enformasyonu B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 53 olu turur. Muhtemellik ise ileti imin hacim özelli i ile izah edilir, yani hedef durumunda mesajı okuyan herhangi bir ki i, enformasyonu edinebilirken, herhangi bir ba ka ki i edinemeyebilir, yani nakledilmeye çalı ılan enformasyonu anlamayabilir. Enformasyonun muhtemelli i ba lamında, ifrelenmi metinlerin herkes için; hedef ki inin bilmedi i bir do al dilde yazılmı metinlerin sadece söz konusu ki i için, “enformasyon” olu turmayaca ı örnek olarak verilebilir. Anlamsal-enformasyonun muhtemellik özelli ini, yazılı metinler için genellersek, tanım öyle olur: Yazılı bir metinde, anlamlar bütünü ile temsil edilen muhtemel bir enformasyon vardır; bir ki i söz konusu metni okur ve idrak ederse, bu muhtemel enformasyon sadece o ki i için anlamsal-enformasyona dönü ür. = leti im anlamsal enformasyonun nakli Mesaj içeri i (anlamlar bütünü) Muhtemel Enformasyon Enformasyon Kayna ı Bilgi Olu ur Anlamlar silsilesi okurken yazarken metin Yazan Enformasyonu Nakleder Kaynak Anlamlar ile ifade eder Anlamları algılar Enformasyonu edinir ekil 3.3.2: Anlamsal-enformasyonun yazı ile iletim modeli. Okuyan Hedef B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 54 3.4. Veri, Enformasyon ve Bilgi Tanımları Tez kapsamında geçerli veri, enformasyon ve bilgi tanımları anlamsal-enformasyon yakla ımı esasına göre öyledir: Tanım 4.4.1: Veri, insanlar veya bilgisayarlar tarafından alınabilen, depolanabilen, i lenebilen ve iletilebilen her türlü sayı, harf ve harf dizileri, resimler ve benzeri olgulardır; Tanım 4.4.2: Enformasyon, alınabilecek ve anla ılabilecek bir mesajın içeri ini te kil eden verilerin temsil edebilece i her muhtemel anlam ile olu turulabilecek “anlam bütünleri” toplulu undan, dü ünen bir zihin tarafından idrak edilebilir özellikteki her “anlam bütünü”; Tanım 4.4.3: Bilgi genel anlamda algı, ö renme ve usa vurmanın psikolojik sonucunda (her tür edinilmi enformasyon yorumlanarak), özelde ise deneyim, ya anmı lık, tecrübe etme (ki inin a ina oldu u, malum olmu eylere ait bilgi) veya tanımlama, tasvir, betimleme (ki inin okuyarak veya olgular üzerinden edindi i bilgi) sonucunda olu ur ve sadece ki inin zihninde soyut olarak var olur. Tanımlanan veri, enformasyon ve bilgi arasındaki ili kiler de ekil 3.4.1.’de özetlenmi tir. Enformasyon = Veri + Anlam Bilgi = Enformasyon + lem ekil 3.4.1: Veri, enformasyon ve bilgi arasındaki ili kilerin denklemleri. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 55 3.5. Enformasyon ve Haber Bu bölümde, ngilizce information terimi için Türkçe kar ılık olarak haber kelimesinin kullanılması ve bilgi kelimesinin sadece ngilizce knowledge terimi ile kar ılanan anlamı içerecek ekilde daraltılması hususu tartı ılmaktadır. Türkçe kaynaklarda (TBD 2004; TDK 2004a) hem knowledge hem de information terimi için bilgi kar ılı ı verilmektedir. Tartı malı ve mesele olan konu udur: Türkçe bilgi kelimesi ile, kökeninde kavramsal tanımları farklı olan iki olgunun birden, yani ngilizce information ve knowledge kavramlarının kar ılanmaya çalı ılması, dolayısı ile enformasyon bilim adına: bir, “Türkçe” için yapılacak çalı malarda hedeflerin belirlenmesi; iki, ara tırmalardan elde edilen sonuç ve ürünlerin yerinde kullanılması; ve son olarak geni kitlelere özü bozulmadan aktarılması gibi esasa dayalı üç hususta disiplinler arası birikimsel katkıyı kısmen engellemektedir. Bu sebeple, Türkçe’de bilgi kelimesi, sadece ngilizce knowledge kavramını kar ılamak için kullanılmalıdır. Information terimi ile kar ılanan kavram içinse, uygun olan farklı bir Türkçe kelime olmalıdır. Bizim önerimiz, bili im’deki anlamıyla enformasyon kavramını kar ılamak için haber kelimesinin kullanılmasıdır. Türkiye Bili im Derne i (TBD) Terimler Sözlü ünün (2004) ve Türk Dil Kurumu (TDK) Bilgisayar Terimleri Kar ılılar Kılavuzunun (2004a) sayısal uyarlamaları information terimini, Türkçe’ye bilgi olarak aktarmı tır. Bilgi kelimesinin Türkçe’de kar ıladı ı kavramlar ise, bili im için verilen kar ılık hariç, Fosket (1996) ve Creaven (2002) tarafından ngilizce knowledge kavramı için verilen tanımla örtü ürken (TDK, 2004b); bili im için verilen tanımda, information kavramına verilen tanımla örtü mektedir: B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 56 “ Bilgi: 1-) nsan aklının erebilece i olgu, gerçek ve ilkelerin bütününe verilen ad, malûmat. … 3-) nsan zekâsının çalı ması sonucu ortaya çıkan dü ünce ürünü, malûmat, vukuf. … 6-) (bili imde) Kurallardan yararlanarak ki inin veriye yöneltti i anlam.” (TDK, 2004b) Yine Türk Dil Kurumu güncel Türkçe Sözlü ün sayısal uyarlamasında (2004b), haber kelimesi için u tanımlar verilmektedir: “1-) Bir olay, bir olgu üzerine edinilen bilgi, salık. 2-) leti im veya yayın organlarıyla verilen bilgi. 3-) Bilgi. 4-) (eskimi , gramer ) Yüklem.” (TDK, 2004b) Haber kelimesinin kar ıladı ı Türkçe kavramları detaylı inceledi imizde, ilk dikkati çeken husus, Creaven’ın enformasyon tanımı için yaptı ımız tespitin, yani “...enformasyonun var olu noktasını de i tirmez, yine insanın bilme eyleminin bir parçasıdır; ancak olgunun tasvirini bilmeye kaynak te kil eden somut olgulardan ba langıçla, insana do ru yapar.” hükmünün haber olgusu içinde geçerli oldu udur. Bu ba lamda haber, alan ki inin belirsizli ini azaltan, alınabilen ve anlanabilen bir mesajdır, yani somut halde simgesel gösterimler ile temsil edilen bir anlamlar bütünüdür. Haber’i içeren mesaj bir ki iye ula ınca, o ki i tarafından simgeler algılanır, anlamlar tekrar yüklenir ve olu an anlamlar bütününden haber idrak edilir (bir anlamda geri-getirilir). Bu noktadan itibaren haber yorumlanarak edinilmi bilgiye dönü mü tür, yani artık söz konusu olgu, gerçek veya mekan’a ait mevcut durum, o insana mal olmu tur, o insan için malum durumdadır. Bu bakı açısı, somut nesnellikten, insan zihnindeki soyut varlı a, yani bilgiye do ru enformasyon tarifidir ve somut nesnellik içinde haber enformasyonun kar ılı ıdır. Ancak bir de insan cephesinden, yani bilgi olgusundan ba layarak enformasyon tasvir edilebilir. Bu ekilde yapılan bir tanımda, enformasyon olgusu: B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 57 algı, ö renme ve usa vuruma (idrak) ile insana mal olabilecek her türlü soyut veya somut nesnelere ait özellikleri ta ıyan malumat olarak da tanımlanabilir. Bir ba ka söyleyi le, soyut veya somut nesnelere ait özellikler ile temsil edilen belirli bir durumun, bir insan için malum bir durum olmasına, bilinmesine sebebiyet veren olgudur. Her iki bakı açısından yapılan tasvirler kullanım sahalarına göre geçerli olabilirler. Anacak söz konusu bili im, yani “enformasyon bilim” ise insan kökenli tanım pek i levsel de ildir; somut nesnellik ba lamında bir tanım u ra lar açısından i levsel olacaktır. lk anda haber ile information kelimesinin kavramsal olarak örtü medi i dü ünülebilir. Bunun sebebi haber kelimesinin, Türkçe’de yaygın olarak ngilizce news kelimesi için kullanılması, daha do rusu bu anlamının di er anlamlarını bastıracak kadar yaygın kullanılmasıdır. Aslen, news terimi ile ngilizce’de kar ılanan olgu da, Türkçe’deki haber’dir, fakat güncel, yani “yeni” olan information anlamında kullanılır. Bir ba ka söyleyi le, information kavramının, news terimi ile kar ılanan halinde, duyusal olarak beklenmedik olma, enformasyonu alan ki ide bir a kınlık yaratma durumu söz konusudur. Türkçe’de bu ekilde bir ayrım yoktur, daha do rusu haberin “eskisi” ve “yenisi” diye ayrı kavramlar olu turulmamı , farklı terimlerle kar ılanmamı tır. Bu yüzden bili imde bir kar ılık aranırken, information olgusu için en uygun terimin, bilgi oldu u dü ünülmü olmalıdır. Fakat, haber kelimesi, information kelimesinin bili im için kavramsal çeviri açısından e , yani köken olarak aynı, ancak Türkçe güncel kullanımda daraltılmı kar ılı ıdır. Önerimizin temelinde, bilgi kelimesi ile Türkçe’de kar ılanan soyut kavramın sınırları bozularak, ngilizce information kavramı ile kar ılanan bir bakıma somut olguyu da içine alacak hale getirilmesi yerine, daha do rusu insan dı ındaki nesneleri de içine almaya zorlanması yerine, haber kelimesi ile kar ılanan B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 58 kavramın güncel dar anlamından geni letilmesi yatmaktadır. Bu yakla ımın enformasyon bilim göz önüne alındı ında, i levsel tanımlara ula ma hedefini daha rahat kar ıladı ı da söylenebilir. Önerimizi güçlendirmek adına, son olarak dilbilim’de e anlamlı iki kelimeyi do rulamak amacı ile kullanılan yöntemi information ve haber için uygulayarak tartı mamızı bitiriyoruz. Dilbilimde “E er farklı biçimlere sahip iki kelime aynı cümlede birbiri yerine kullanılır ve cümlenin anlamı de i mezse, söz konusu iki kelime e anlamlıdır.” önermesi, biçimsel olarak farklı ekillere sahip kelimelerin e anlamlılı ının sınanması için kullanılan, geçerli bir yöntemdir. Haber kelimesini Fosket (1996) ve Creaven (2002) tarafından verilen enformasyon tanımlarında kullanarak e anlamlılıklarını sorgulayalım. “… Bilgi (Knowledge) benim bildi im ey, yani ki i olarak bildi imiz ey veya eyler; Haber (Information) bizim bildi imiz eyler, yani payla ılmı bilgidir.” (Fosket, 1996) “…Bilgi (Knowledge) ise algı, ö renme ve usa vurmanın psikolojik sonucudur. …Haber (Information) ise alan ki inin belirsizli ini azaltan, alınabilen ve anlanabilen bir mesajdır.” (Creaven, 2002) Görüldü ü gibi aynı cümlede haber kelimesinin enformasyon kelimesi ile de i tirilmesi; Türkçe anlam birli inin bozulması bir yana, verilen tanımları daha belirleyici kılmı , algılanmasını ve anla ılmasını kolayla tırmı tır. Ancak alınan bu müspet sonucun aksine, tezde bilgi geri-getirim terimi Türkçe literatürle bütünlü ü bozmamak amacı ile biçimsel olarak aynen kullanılacaktır. Fakat okuyucu, yukarıda izah edildi i gibi aslen haber geri-getirim terimi ile kar ılanması gereken kavramsal sınırları anlamalıdır. Ek olarak, süre geldi i ekilde, ngilizce information ve knowledge kavramları arasındaki farkı B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 59 belirtebilmek için information terimi yerine enformasyon kelimesi kullanımı, knowledge terimi yerine de bilgi kelimesi kullanımı devam edecektir. 60 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 61 4. ENFORMASYON KURAMI Enformasyon kuramı Shannon (1949) tarafından ortaya konmu olan sinyal-enformasyon fikrini esas alır (Aynı yakla ım literatürde ileti im-teorik ve enformasyon-teorik olarak da anılır). Sinyal enformasyon bir kaynak ve hedef arasında kurulmu herhangi bir ileti im hattı üzerinden gönderilen veya alınan sinyale ait bir özelliktir, yani öz-enformasyon’dur. Shannon aslen, mükemmel olmayan bir ileti im hattı üzerinden, örne in gürültülü bir telefon hattı üzerinden gönderilecek enformasyonun, miktarını en yüksek seviyeye çekme amacındaydı. Shannon, bu amaç do rultusunda, herhangi bir enformasyon kayna ı ve ileti im hattı için iki etmenin kuramsal en yüksek de erlerini tespit etmi tir: 1-) düzensizlik, H de eri ile elde edilen veri sıkı tırma miktarı, 2-) letim hızı, yani ileti im kanalı kapasitesi, C ile verilen de er. Shannon’a gelinceye kadar, iletilmek istenen mesajın hızı ne kadar arttırılırsa, mesajın iletimindeki hatanın da o kadar artaca ı dü ünülüyordu. Ancak Shannon, mesaj ile ta ınmak istenen enformasyonun, kanal kapasitesinden daha küçük bir hızla iletilmesi durumunda, mesajın iletiminde hata olması olasılı ının istendi i kadar küçültülebilece ini ispatlamı tır. Shannon’un ortaya koydu u kuramda, mesaj iletiminde kullanılan sinyal ile enformasyon arasındaki ili ki istatistik esaslıdır, daha do rusu ileti im ekli içinde söz konusu sinyalin gözlenme olasılı ına dayanır. Sinyal enformasyonun nicel olarak ölçülebilmesinin kökeninde ise olasılık kuramını esas alan düzensizlik (entropy) kavramı vardır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 62 4.1. Düzensizlik (Entropy) E er X olasılık de i keninin, bir ayrık simgesel de erler kümesi A (örne in alfabe) üzerinden tanımlanan fonksiyonunun, p(x) oldu unu kabul edilirse: p( x) = P( X = x), olasılık x∈ A yo unluk (4.1.1) Örne in, iki demir parayı havaya atıp yere dü tüklerinde gelen turaları sayarsak, p(0) = ¼, p(1) = ½ ve p(2) = ¼ olasılıklarına sahip bir olasılık de i keni tanımlamı oluruz. Bir olasılık de i keninin düzensizli i (Entropy), yani özenformasyonu sahip oldu u ortalama belirsizliktir: H ( p) = H ( X ) = − p( x) log 2 p ( x ) x∈A 1 p( x) log 2 = p ( x) x∈A (4.1.2) Düzensizlik, bir olasılık de i kenindeki enformasyon miktarıdır. Denklem 4.1.2.’de verilen e itlik, yalın bir ekilde p ( x) log(1 / p ( x)) de erleri için toplamı olarak x∈A p( x) , ∀x terimi bir kalıptır ve her x ∈ A de eri için log(1 / p( x)) de erinin, yani sinyal-enformasyon miktarının de erlerinin tüm yorumlanmamalıdır. toplam üzerindeki etkisini a ırlıklandırır. Ayrıca, p(x) tanımı gere i p( x) = 1 , ∀x . statistiksel olarak p( x) , ∀x kalıbı bir olasılık de i keni için beklen de er, yani tahmini de er tanımlar. Örne in bir olasılık de i keni Z ve olasılık yo unluk fonksiyonu p(z) olsun. Z olasılık de i keninin beklenen de eri E(Z): B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 E(Z ) = ∀z 63 p( z) ⋅ z = z (4.1.3) E(Z) beklenen de eri, Z olasılık de i keninin tanım kümesinin ortalamasının µ z , tahmini, yani z de erine e ittir. Beklenen de er tanımı kullanılarak, Denklem 4.1.2.’de verilen düzensizlik e itli i Denklem 4.1.4.’deki biçimde yazılabilir. H ( X ) = E log 2 Denklem 1 1 = p( x) log 2 p ( x) p ( x) ∀x (4.1.4) 4.1.4.’ün Denklem 4.1.3.’den elde edili inde belirtilmesi gereken bir nokta vardır. Denklem 4.1.3.’e göre gerçekte düzensizlik p(log (1 / p ( x) )) log(1 / p ( x) ), ∀x olmalıdır. Bir ba ka söyleyi le, log(1 / p( x)) ile betimlenen olasılık de i kenine ait olasılık yo unluk fonksiyonunun de erleri ile a ırlıklandırmak gerekmektedir. Ancak, p(log(1 / p ( x)) ) = p( x) = 1, ∀x ve log fonksiyonunun bir do rusal ta ıma olmasından ötürü X ile log(1 / p( x)) olasılık de i kenlerinin olasılık yo unluk fonksiyonları özde , yani p(x) olacaktır. Düzensizli in 3 (üç) temel özelli i vardır; 1. H ( X ) ≥ 0 ; ∀x ⇔ X ~ p( x) . 2. H ( X ) = 0 ; ∀x ⇔ X = c . Yani X olasılık de i keni sabit bir c de erine e itse, bir olasılık da ılımına göre de er almıyorsa. 3. Düzensizlik mesaj uzunlu u ile orantılı olarak artar. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 64 4.2. Birle ik Düzensizlik ve Ko ullu Düzensizlik Ayrık iki olasılık de i keni X,Y ~ p(x,y) çiftinin birle ik düzensizli i, ikisinin de erini birlikte belirtmek için gereken ortalama enformasyon miktarıdır. H (X ,Y ) = − ∀x ∀y p ( x, y ) log 2 p( x, y ) (4.2.1) Bir ayrık Y olasılık de i keninin, X olasılık de i keni verilmi ken ko ullu düzensizli i (X,Y ~ p(x,y)), kar ı taraf X’i bilirken Y’yi iletmek için sa lamak gereken, fazladan ortalama enformasyon miktarını verir. H (Y X ) = p ( x) H (Y X = x) p ( x) − p ( y x) log p ( y x) ∀x ∀y =− p ( x, y ) log p( y x) = ∀x (4.2.2) ∀x ∀y Olasılık kuramında oldu u gibi, düzensizlik için de bir zincirleme kuralı vardır. H ( X , Y ) = H ( X ) + H (Y X ) H ( X1, , X n ) = H ( X1) + H ( X 2 X1) + + H ( X n X1, (4.2.3) X n−1 ) Olasılık kuramı içindeki zincirleme kuralında, olasılıkların çarpımları, düzensizlikte log fonksiyonu sebebi ile toplam olmu tur. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 65 H ( X , Y ) = − E p ( x , y ) (log p ( x, y ) ) = − E p ( x , y ) (log ( p( x) p( y x) )) = − E p ( x , y ) (log p( x) + log p( y x) ) (4.2.4) = − E p ( x ) (log p ( x) ) − E p ( x , y ) (log p ( y x) ) = H ( X ) + H (Y X ) Bir mesaj içinde bulunan enformasyon miktarı, mesajın boyutuna ba ımlı oldu u için, genellikle bir harf için veya bir kelime için düzensizlikten bahsedilir. Bir mesajın, n uzunlu unda olması durumunda düzensizlik hızı (entropy rate) olarak da bilinen bir harf/kelime hesaplanır. için düzensizlik H rate = verildi i Denklem 4.2.5.’de 1 1 H ( X 1n ) = − p ( x1n ) log p( x1n ) n n x1n gibi (4.2.5) Denklem 4.2.5.’de, X1n simgesi, genel hali X ij = ( X i , olan gösterimin, özelidir ve ( X 1 , ,X j) , X n ) olasılık de i kenlerinin sıralı silsilesini temsil eder. E er do al bir dili, simgelerin sıralı diziliminin olu turdu u bir silsile süreci (stochastic process) olarak kabul edersek, L=(Xi), örne in bir haber kanalından gönderilen her haber yazısının meydana getirdi i bir derlem olabilir, do al dilin L, düzensizli ini söz konusu silsile sürecinin düzensizlik hızı olarak tanımlayabiliriz. 1 H ( X 1, X 2 , n →∞ n H rate ( L) = lim , Xn) (4.2.6) B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 66 Denklem 4.2.6. ile do al bir dilin, yani aktif kullanımı olan ve iç-devinimli olarak de i en bir dilin düzensizli ini hesapladı ımız için, elimizdeki örnek derlem boyutu sonsuza giderken düzensizlik hızını hesaplamamız gerekmektedir. Denklemde bu yüzden limit i levi kullanılmı tır. 4.3. Kar ılıklı Enformasyon (Mutual Information) Düzensizli in zincirleme kuralına göre, iki ayrık olasılık de i keninin X,Y ~ p(x,y) birle ik düzensizli i H(X,Y), Denklem 4.3.1.’de gösterildi i biçimde hesaplanabilmektedir. H ( X , Y ) = H ( X ) + H (Y X ) = H (Y ) + H ( X Y ) (4.3.1) Denklem 4.3.1.’den de, Denklem 4.3.2.’de bulunan e itlik elde edilmektedir. H ( X ) − H ( X Y ) = H (Y ) − H (Y X ) (4.3.2) Denklem 4.3.2.’de verilen düzensizlikler arasındaki fark kar ılıklı-enformasyon olarak adlandırılmaktadır. Sözle ifadesi edecek olursak: bir olasılık de i kenini (Y) bilmekle bir di er olasılık de i keninin (X) düzensizli indeki azalı miktarıdır. Bir ba ka söyleyi le, bir olasılık de i keninin (Y), di er bir olasılık de i keni (X) hakkında içerdi i enformasyon miktarıdır. Kar ılıklı-enformasyon ve düzensizlik arasındaki ili kinin çizge olarak ifadesi verilmi tir (Cover and Thomas, 1991). ekil 4.3.1.’de B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 67 H(X,Y) H(X|Y) H(Y|X) I(X;Y) H(X) H(Y) ekil 4.3.1: Kar ılıklı-enformasyon, I ile düzensizlik, H arasındaki ili ki. Kar ılıklı-enformasyon, iki de i ken tarafından içerilen ortak enformasyon miktarının simetrik ve pozitif nicel de eridir. Kar ılıklı enformasyon iki de i kenin ba ımsızlık ölçütüdür ve u özelliklere sahiptir: 1. Kar ılıklı-enformasyon, iki de i ken ba ımsızken 0 (sıfırdır). 2. ki ba ımlı de i ken için, kar ılıklı-enformasyon miktarı sadece ba ımlılı ın derecesi oranında artmaz, aynı zamanda de i kenlerin düzensizli i nispetinde de artar. Kar ılıklı-enformasyon için biçimsel tanımlama Denklem 4.3.3.’de verilmi tir. Denklem, hem düzensizli in neden öz enformasyon (self-information) olarak adlandırıldı ını, hem de tamamen ba ımlı iki de i kenin kar ılıklı-enformasyonunun neden sabit olmayıp, de i kenlerin düzensizli ine ba lı oldu unu da açıklamaktadır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 68 I ( X ; Y ) = H ( X ) − H (Y X ) = ∀x + = 1 1 + p ( y ) log p ( x) ∀y p( y ) p( x) log (4.3.3) p ( x, y ) log p( x, y ) ∀x , y ∀x , y p( x, y ) log p ( x, y) p ( x) p ( y ) Denklem 4.3.4.’de ko ullu kar ılıklı-enformasyon ve Denklem 4.3.5.’de de zincirleme kuralı verilmi tir. I ( X ; Y Z ) = I (( X ; Y ) Z ) = H ( X Z ) − H ( X Y , Z ) I ( X 1n ; Y ) = I ( X 1 ; Y ) + = + I ( X n ;Y X1, (4.3.4) , X n−1 ) n i =1 I ( X i ;Y X1 , (4.3.5) , X i −1 ) 4.4. Ko ullu Düzensizlik (Conditional Entropy) ki olasılık yo unluk fonksiyonu p(x) ve q(x) için göreceli düzensizlik Denklem 4.4.1.’de verilmi tir. D( p q ) = ∀x p ( x) log p ( x) q( x) (4.4.1) Denklem 4.4.1.’de 0 ⋅ log( 0 / q ) = 0 olarak, p ⋅ log( p / 0) = ∞ olarak kabul edilmektedir. Aynı zamanda Kullback-Leibner (KL) ıraksaklı ı (Kullback-Leibner divergence) olarak da anılan göreceli düzensizlik, aynı örneklem uzayında tanımlı iki olasılık da ılımının ne B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 69 kadar farklı oldu unu gösterir. Beklenen de er olarak tanımlaması Denklem 4.4.2.’de verilmi tir: D( p q ) = E p p ( x) log q( x) (4.4.2) Dolayısı ile, p ve q arasındaki KL yakınsaklı ı, p da ılımdaki olayları, q da ılımını esas alan kodlarla kodlanması ile fazladan ortaya çıkan ortalama düzensizlik miktarını, bir ba ka söyleyi le kodlama için fazladan harcanan ikil (bit) sayısını verir. Göreceli düzensizlik miktarı daima pozitif bir sayıdır ve 0 (sıfır) olması ancak q da ılımın, p da ılımına e it olması ile gerçekle ir. Göreceli düzensizlik matematiksel anlamda bir ölçüt de ildir, yani p ve q için simetrik de ildir ve saç aya ı e itsizli ini7 (triangle inequality) sa lamaz. Kar ılıklı-enformasyon aslında, bir birle ik da ılımın ba ımsızlıktan ne kadar uzak oldu unun da bir ölçütüdür ve Denklem 4.4.3.’de verildi i ekli ile betimlenir. I ( X ; Y ) = D ( p ( x, y ) p ( x ) ⋅ p ( y ) ) (4.4.3) Ko ullu göreceli düzensizlik, Denklem 4.4.4.’de ve göreceli düzensizlik için zincirleme kuralı da Denklem 4.4.5.’de verilmi tir. 7 Herhangi üç nokta X, Y ve Z için saç aya ı e itsizli i (triangle inequality) udur: d(x,y) <= d(x,z) + d(z,y). (d(x,y) iki nokta arasındaki mesafedir) B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 70 ( ) D p ( y x) q ( y x) = ∀x p ( x) ∀y p ( y x) log ( p ( y x) (4.4.4) q( y x) D( p ( x, y ) q ( x, y ) ) = D( p( x) q ( x) ) + D p ( y x) q ( y x) ) (4.4.5) 4.5. Çapraz düzensizlik (Cross Entropy) Düzensizlik (entropy) bir de i kenin alaca ı de erlerdeki belirsizli i nicel olarak ölçer. Bir ey hakkında daha çok ey bildikçe, düzensizlik dü ecektir, çünkü yapılacak bir denemenin sonucu bizi a ırtmayacaktır. Öyleyse, düzensizli i ne kadar a ıraca ımızın bir ölçüsü olarak da dü ünebiliriz. Örne in, yazılı bir metinde cümle içinde bir sonraki kelimenin ne oldu unu tahmin etmeye çalı tı ımızı dü ünelim. Bu durumda cümlenin ba ından itibaren okudu umuz, yani bildi imiz kelimelerden h, bir sonraki kelimenin w, ne olaca ının tahmin edilmesi P(w | h) biçiminde, ekilsel olarak gösterilebilir. Dolayısıyla, ne kadar a ıraca ımızın bir ölçüsü olarak, söz konusu dile ait geli tirilmi bir model, m ile bir sonraki kelimeye, w’ye atanan ko ullu olasılı ı alabiliriz. a ırma, noktasal düzensizlik (pointwise entropy) olarak adlandırılan H ( w | h) = − log 2 m(w | h) denklemi ile ölçülebilir. E er tahmin edici, verilmi bir, h ile ifade edilen kelimelerin akı tarihini, w kelimesinin izleyece inden eminse ve bu da do ruysa, tahmin edicinin w kelimesini görmesi ile w kelimesinden elde edece i enformasyon miktarı − log 2 1 = 0 olacaktır. Bir ba ka söyleyi le, tahmin edici w kelimesini gördü ünde hiç a ırmayacaktır. Ancak di er taraftan, model w kelimesinin verilen, h tarihini izlemeyece ini öngörüyorsa, dolayısı ile m( w | h) = 0 olacaktır ve tahmin edicinin, w kelimesini görmesi ile elde edece i enformasyon miktarı − log 2 0 = ∞ olacaktır. Son durum, kullandı ımız dil modelinin m, sonsuz derecede a ırması demek olur, bu da model için çok kötü bir B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 71 eydir. Genelde dil modelleri, her olay için söz konusu iki uç noktaya kar ılık gelen aralık içinde, yani [0,1] kapalı aralı ında bir olasılık üretirler, böylece bir sonraki kelime w, belli oldu unda bir miktar enformasyon kazanırlar, yani bir miktar a ırırlar. Amaç bu a ırma düzeyini, mümkün oldu unca dü ük seviyede tutmaktır. Tahmin edici modelin, tüm kelimeler üzerinden a ırma miktarlarının toplamı, bize modelin toplam a ırma miktarını verir: H toplam = − n log 2 m( w j | w1 , w2 , j =1 = − log 2 m( w1 , w2 , , w j −1 ) (4.5.1) , wn ) Denklem 4.5.1.’de, e itli in son satırdaki hali, zincirleme kuralı kullanarak çıkartılır. Genelde bu ölçüt metnin uzunlu una ba ımlı olmaması için normalle tirilir. Ölçütün normalle mi hali, bir kelime için ortalama a ırma miktarını vermektedir. Düzensizli in, a ırmanın bir ölçüsü olarak verildi i yukarıdaki tanımı biçimsel bir halde verecek olursak, çapraz düzensizli in tanımına kolayca ula ılacaktır. Do al dili, gerçek bir olgu olarak modellemeye çalı tı ımızı farz edelim. Ayrıca do al dilde yapılan bir konu ma içindeki her bir sözü (yazıdaki kar ılı ı kelime), modellemeye çalı tı ımız do al dilin hesaplama birimleri olarak alalım. Sözler kümesini, gerçek sayılar kümesine ta ıyan bir olasılık de i keni X, tanımlarsak, X de i keninin sözler kümesi üzerinde tanımlı bir da ılımı olacaktır, yani X ~ p(x). Fakat, ne yazık ki bu gün gerçek bir olgu olarak, hiçbir dil için p(.) da ılımının ne oldu u bilinmemektedir. Ancak, örneklere bakarak, belirli konu maları kapsayan bir sözler derlemi olu turup, de erlendirme altındaki do al dilin, söz konusu p(.) da ılımının neye benzedi ini deneysel olarak bulmaya çalı abiliriz. Bir B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 72 ba ka söyleyi le, gerçek da ılımın bir modelini m, elimizdeki en iyi tahminleri kullanarak olu turabiliriz. Bu modeli olu tururken, yanlı sız bir olasılık da ılımı elde etme amacımıza ula mak için gerçek da ılımla, model arasındaki göreceli enformasyon D( p m) mümkün oldu unca küçük olmalıdır. Ne yazık ki, yine bu göreceli enformasyon da gerçek da ılımın p(.) ne oldu u bilinmedi i için hesaplanamaz. Ancak, bununla ili kili bir ba ka nicelik daha vardır, o da çapraz enformasyondur. Bir olasılık de i kenine X, ait gerçek olasılık da ılımı, p ve bir ba ka olasılık da ılımı, q (genelde modelimizi temsil eder) arasındaki çapraz enformasyon, Denklem 4.5.2.’de verildi i gibi hesaplanır. H ( X , q ) = H ( X ) + D( p q) =− ∀x p ( x) log q( x) (4.5.2) = E p log Denklem 4.5.2.’de, 1 q( x) do al bir dil için düzensizli i tanımladı ımız gibi, do al bir dil L(Xi) ~ p(x) için geli tirilmi bir model m üzerinden çapraz düzensizlikte, Denklem 4.5.3.’de oldu u gibi tanımlanabilir. 1 p ( x1n ) log m( x1n ) n →∞ n x1n H ( L, m) = − lim (4.5.3) Denklemde, do al dile ait gerçek olasılık da ılımı, p(.) halen yer almaktadır. Dolayısı ile, bu durumda da do al dile ait çapraz düzensizlik hesaplanamaz. Ancak, do al dille ilgi bazı basitle tirici B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 kabullenmeler yapacak olursak, hesaplanabilir haline getirebiliriz. Denklem 73 4.5.4.’de 1 log m( x1n ) n→∞ n H ( L, m) = − lim verilen (4.5.4) Çapraz düzensizli in verilen bu biçiminde, sadece kendi olu turdu umuz model m, ve yeterince büyük bir söz kümesi ile hesaplama yapmamız mümkündür. Yani, gerçekte söz sayısının sınırı sonsuza giderken hesaplama yapmak yerine, yeterince büyük olan bir miktar söz kümesi ile hesaplama yapabilmek mümkün olmaktadır: H ( L, m) ≈ 1 log m( x1n ) n (4.5.5) Bu ölçüt, sadece ortalama a ırmayı vermektedir. Amaç bu sayıyı mümkün oldu unca küçük tutmaktır. E er H(X) sabitse (yani bilinmiyorsa), ölçüt göreceli düzensizli i küçültme e e de er olmaktadır, yani modelimizdeki olasılık da ılımının gerçek olasılık da ılımından farklılı ının mümkün olan en küçük de ere çekilmesi ile e olmaktadır. Bu noktadan sonra, geriye kalan tek gereksinim modeli sınamak için kullanaca ımız deney metninin ba ımsız olmasıdır, yani modelin parametrelerini tahmin etmek için kullandı ımız talim derlemi, deney metnin bir parçası olmamalıdır. Çapraz düzensizlik, modelin deney metnindeki kelimelere atadı ı ortalama olasılık ile ters orantılıdır. Genellikle, dü ük çapraz düzensizlik de erlerine sahip dil modelleri, uygulamada daha iyi sonuçlara sebep olur, ancak her zaman böyle olması gerekmez. Örne in, çapraz düzensizli in dü mesine sebep olacak ekilde, modelin kelimelere atadı ı olasılıkların büyümesi fakat B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 74 kelimelerin göreceli olarak sıralanmasına atanan olasılıkların aynı kalması, dil modelinin uygulamada ba arımını arttırmaz. Denklem 4.5.4.’den Denklem 4.5.5.’e geçi i sa layan sebep, çapraz düzensizlik denklemi içinde olan beklenti fikridir: 1 1 H ( L, m) = lim E log n→∞ n m( x1n ) (4.5.6) Beklenti tüm olası sıralamalar üzerinden elde edilen a ırlıklı ortalamadır. Ancak, Denklem 4.5.6.’da sınır de erlerde hesaplama yapılmaktadır, yani söz konusu a ırlıklı ortalamanın do al dilde olu turulabilecek en uzun sıralamaya bakarak olu turulması gerekmektedir. Denklem 4.5.5.’e geçi te kullanılan fikir, yeterince büyük uzunlukta bir sıralamaya bakarak hesaplanacak a ırlıklı ortalamanın çok fazla de i meyece idir. Yani, “dilde olu turulabilecek tüm sıralamalara bakmak gerekmez, yeterince uzun bir sıralamadan genel a ırlıklı ortalamanın ne oldu u tahmin edilebilir” fikrini esas almaktadır. Sebeplenmenin biçimsel tanımı ise öyle yapılabilir: E er do al dilin L(Xi) ~ p(x), dura an (stationary) ergodik bir süreç oldu u kabul edilirse, Kuram 4.5.1.’e (Cover and Thomas, 1991) göre Denklem 4.5.4., Denklem 4.5.5.’e e it olur. Kuram 4.5.1: (Shannon-McMillian-Breiman Kuramı) E er Hrate , sonlu sayıda de ere sahip dura an ergodik bir sürecin (Xn) düzensizlik hızıysa, 1 P − log p ( X 1 , , X n ) → H = 1 . n B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 75 Ergodik süreçler, alt süreçlerinden biri içinde sonsuz döngüye girmeyen süreçlerdir. Dura an süreçler, sürecin bir adımından, di er bir adıma geçi i için atadı ı olasılı ın, sürecin ayrık zaman noktaları ile indekslenmi akı ı içerisinde, iki farklı zaman indeksinde de i iklik göstermemesidir, yani P(wi|wi-1) = P(w2|w1), i = 1,2, ...n olmasıdır. 4.6. stikrarsızlık (Perplexity) Düzensizlik kuramı ile ili kili olarak bahsedece imiz son konu istikrarsızlık’tır. Bu kavram, düzensizlik ile sıkı sıkıya ba ılıdır. Hesaplamalı dilbilim sahasında düzensizlik yerine bu ifade için elde edilen de erler dil modellerinin kıyaslaması için kullanılır. Bir olasılık silsile sürecinde Xn, her adımda tercih edilebilecek e it olasılı a sahip ortalama seçenek sayısı, söz konusu sürecin istikrarsızlı ı olarak tanımlanır ve Denklem 4.6.1.’deki ifade ile düzensizlik üzerinden hesaplanır. Per ( x1n , m) = 2 H ( x1n ,m ) = m( x1n ) − 1 n (4.6.1) 76 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 77 5. B LG GER -GET R M S STEMLER 21. yüz yılın ortalarından itibaren bilimsel, sanatsal, siyasal, ekonomik, güncel vb. i sahalarında yapılan birikimli çalı malar bizleri yönetilmesi, depolanması ve geri-getirilmesi gereken külliyetli bir potansiyel enformasyon yı ını ile kar ı kar ıya bırakmı tır. Bilgisayar dünyasındaki geli melere paralel olarak bu ihtiyaçlardan yönetim ve depolama sayısal kütüphanelerde örnekleri gözlemlendi i ekilde kataloglama ve indeksleme açısından kısmen de olsa çözümlere kavu turulmu tur. Fakat ihtiyaçlardan biri olan geri-getirim, daha do rusu bir ki inin ihtiyaç duydu u bilgi ile ili kili/alakalı olan belgelerin geri getirimi ara tırma için açık olan bir konudur. Bilgi gerigetirim i i bir sorgu veya konu ba lı ı talebine kar ılık tanımlı bir yapıya sahip olmayan alakalı kayıtların özellikle metin içerikli belgelerin geri getirimi ile ilgilenen bir disiplin olarak tanımlanabilir. Söz konusu talebin nasıl yapılaca ına dair önceden tanımlı bir yapı olabilir veya olmayabilir, örne in do al dilde yazılmı olan bir soru cümlesi de olabilir veya boole8 ifadesi eklinde yapısal bir biçimde de sorgu olu turulabilir. Günümüzde bilgi geri-getirim dizgeleri yalnızca yazılı metinler için kurgulanmazlar, yapısal tanımlamaya sahip olmayan di er verilerde kullanılabilir: Foto raflar, ses, görüntü vb. Ancak bu tez kapsamında Bilgi geri-getirim (BGG) yalnızca yapısal olmayan Türkçe yazılı metinler hedef alınaca ından tez kapsamını belirlemek amacı ile verilebilecek en iyi tanım bilgi geri-getirim disiplini öncülerinin, isim verecek olursak Cleverdon, Salton, Sparck Jones ve di erlerinin çizgisini özetleyen Lancaster’ın (1968) tanımı olacaktır: 8 TBD, Bili im Terimleri Sözlü ü B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 78 “… Bir bilgi geri-getirim sistemi ki iyi aramakta oldu u konu hakkında bilgilendirmez (veya ki inin aramakta oldu u konu ile ilgili bildiklerini de i tirmez). Ki iyi sadece aramakta oldu u konu ile alakalı belgelerin var olup olmadı ı ve nerelerde bulunabilece i hakkında bilgilendir.” (Lancaster, 1968) BGG tanımının en genel halini ise Kochen (1983) yapmı tır: öyle “Bilgi geri-getirim enformasyon bilimin bir alt disiplinidir. Enformasyon bilimi ise geni tanımı ile enformasyon, bilgi ve anlama ile, yani yazılı metinlerde (belgeler) gömülü ve idrak eden bir zihin tarafından algılanan anlam ile u ra ır.” (Kochen, 1983) BGG sistemleri için Ingwersen (1992) tarafından verilen, bilgisayar bilimleri içindeki u ra ların hedeflerini belirleyen tanım da öyledir: “ nsanlar tarafından ihtiyaç duyulan muhtemel, yani potansiyel enformasyonun temsilini, depolanmasını, aranmasını, bulunmasını ve sunulmasını içine alan bir süreç. Muhtemel enformasyon ancak bir ki i tarafından anla ılırsa, yani idrak edilirse o ki i için enformasyon olur. Muhtemel enformasyon e er bir ki i tarafından anla ılmıyorsa, yani idrak edilemiyorsa o ki i için veri olarak kalmaya devam eder.” (Ingwersen, 1992) Ingwersen’in BGG sistemleri için verdi i tanımda “... e er bir ki i tarafından anla ılmıyorsa, o ki i için veri olarak kalmaya devam eder.” hükmünden, BGG sistemlerinin veri ile u ra an bir sistem oldu u sonucuna varılmamalıdır. BGG sistemleri ile veri geri-getirim (VGG) sistemleri, örne in ili kilendirilmi veri-tabanı uygulamaları (relational database applications) arasında ciddi farklar vardır. VGG ve B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 79 BGG sistemlerinin i levsel özellikleri kar ıla tırmalı olarak Çizelge 5.1.’de özetlenmi tir. Çizelge 5.1: Veri geri-getirim ile Bilgi geri-getirim sistemlerinin i levsel özellikleri. Veri geri-getirim Bilgi geri-getirim Tam e le tirme Kısmi/en iyi e le tirme Tümden-gelim Tüme-varım Belirli Olasılıklı Tek-hal Çok-hal Yapay Do al (dil) Tam Eksik E le tirme Alakalı Duyarlı Duyarsız E le tirme Çıkarsama Model Sınıflandırma Sorgu Dili Sorgu Belirtme Aranan Kalemler Hataya Tepki Aslen herhangi bir ki i, Çizelge 5.1.’de i levsel özellikleri verilen iki geri-getirim ekli arasındaki sınırların pek de net olmadı ını dü ünebilir. Zaten genel anlamda da öyledir; ancak söz konusu iki geri getirim ekline ait uygulamada kar ıla ılan güçlüklerin belirlenmesi, sınırları e olsa dahi u ra sahalarının birbirinden çok farklı oldu unu ortaya koyacaktır. Bu yüzden listelenen belirli i levleri biraz detaya inerek tanımlayaca ız. VGG’de e le tirme tamdır, yani aranan bir kalemin belirli bir sayısal dosyada var olup olmadı ına bakılır. BGG’de bazı durumlarda aynı ey söz konusu olabilir, fakat genelde aranan kalemle kısmi olarak e le enler belirlenir ve ardından bunların arasından en iyileri seçilmeye çalı ılır. Çıkarsama veri geri-getirimde en basit halindedir, yani A ile B ili kili ve B ile C de ili kili ise A ve C ili kilidir sonucuna varılır. BGG’de bu ekilde bir tümdengelim yakla ımının kullanımı genel B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 80 içinde çok nadir bir durum bile de ildir; BGG içinde ili kiler ancak bir derecede kesinlik veya belirsizlik içerir, dolayısı ile yapılan çıkarsamaların güvenilirli i de i kendir. Söz konusu durum, VGG’in belirli (deterministic), BGG’in ihtimalli (probabilistic) olmasına sebep olur. Bu yüzden BGG’de sıklıkla Bayes9 karar kuramına ba vurulur, fakat VGG’deki i lemlerin içinde ihtimal (olasılık) yoktur. Sınıflandırma da, iki geri-getirim ekli arasındaki farklılı ı ortaya koyan bir ba ka niteliksel örnektir. VGG’de sınıflandırma tek-hal’dir, yani bir sınıfa, i lemdeki bir nesnenin dahil olabilmesi için gerek ve yeter art nesnenin süreç içinde tanımlanmı özellikleridir ve bu özellikler süreç içinde de i mez. Fakat BGG’de, bu tür bir sınıflandırma genel anlamda pek kullanı lı de ildir. BGG için çokhal’li bir sınıflandırma daha do rudur. Bir ba ka söyleyi le, bir sınıf içindeki her nesne, söz konusu sınıfın di er nesnelerinde bulunan özelliklerin bütünü ile olu an toplam özelliklerinden bir kısmını ta ır. Dolayısı ile, bir sınıfa dahil olmak için, nesnelerin hiçbir özelli i ne gerekli, ne de yeterlidir. Sorgu dili VGG’de yapaydır, yani kısıtlanmı bir söz-dizim kural kümesine ve kelime da arcı ına sahiptir (örne in SQL, yani yapısal ili kili veri tabanı sorgu dili). Ancak BGG’de, belirtilmesi gereken istisnalar olması bir yana, genelde do al dil tercih edilmektedir. VGG’de sorgular genellikle isteneni tam belirtir özelliktedir; BGG’de ise her zaman eksiktir. Bu bahsetti imiz eksik olma durumu, BGG sorgularında belirtilen istek kalemi ile alakalı nesnelerin (örne in belgelerin), VGG’de ise tam e le enlerin aranmasından 9 Thomas Bayes (1702-1761) Bayes kuramına ismini veren ngiliz matematikçi. Bayes tarafından ortaya konan olasılı a dayalı sebeplenme prensibi karar kuramının temelini olu turmu tur. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 81 kaynaklanmaktadır. Bir ba ka söyleyi le, BGG’de arama süreci “sorgu ile alakalı olma” ihtimalini ta ıyan belgelerin bulunması eklinde tanımlanabilir. VGG’de yapılan bir aramada, hata olması durumunda istenenleri getirmez, yani bir “toplam hata” söz konusudur. Ancak BGG’de, e le tirmede meydana gelen küçük hatalar, sistemin toplam ba arımına o kadar önemli etkilerde bulunmaz. VGG ve BGG arasındaki farklılık, aslında uygulama sahalarında da net bir ekilde de gözükmektedir. ekil 5.1.’de Veri’den Bilgi Ke fi/Madencili i (VBK – Knowledge Discovery from Data, KDD) ve belge uzayından Belge/Metin Madencili i (BM – Document/Text Mining, DM) u ra sahaları için, yapısal kurgular alt süreçleri esasında e le tirmeli olarak gösterilmi tir. Son ürünlerin, VBK’da bilgi, BM’de enformasyon olmasının sebebi, VBK’da verinin yapısal, BM’de ise do al dil olmasıdır. VBK sahasında son süreç olan de erlendirme ile ( ekilde “4” ile gösterilmekte) veri’den bilgi elde etmektir. BM sahasında ise, kar ılık olan yorumlama süreci ile enformasyon elde edilmektedir. Bu tezin ara tırma konusu olan BGG sistemleri, belge madencili i u ra sahasının ilk, yani giri seviyesini olu turan alt süreçtir. Bu yüzden, BGG sistemlerinin ba arımı, BM sahasının hedefi olan “enformasyon’un ortaya çıkartılması” i inin ba arımında, en belirleyici etmendir. Yani, belge uzayından alakalı belgelerin yüksek bir ba arı ile elde edilmesi, di er süreçlerin ba arımlarını, dolayısı ile toplam sistem ba arımını do rudan etkiler. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 82 Veri’den Bilgi Ke fi/Madencili i (VBK) Belge/Metin Madencili i (BM) Bilgi Enformasyon De erlendirme Yorumlama Desenler 4 Desenler Enformasyon Madencili i Veri Madencili i Dönü türülmü Belgeler Dönü türülmü Veri 3 Enformasyon Çıkarımı Dönü türüm Alakalı Belgeler Veri Ön-i lemden geçmi veri 2 Veri Veri Belge Veritabanı Bilgi Geri-Getirim Seçim & Ön-i lem Belge Uzayı Veri 1 ekil 5.1: Bilgi Ke fi/Madencili i ve Belge/Metin Madencili i u ra larına ait yapısal kurguların kar ıla tırması. “Veri’den Bilgi Ke fi” ve “Belge Madencili i” sahalarındaki alt süreçler, yapısal ve içerik benze imleri nispetinde kar ılıklı e le tirilmi tir. 5.1. Genel Sistem Yapılanması BGG sistemlerinin kullanım sahasında, sistem dı ı etmenlerle etkile imleri en genel hali ile ekil 5.1.1.’de çizge olarak tasvir edilmi tir. Herhangi bir BGG sisteminin etkile imde oldu u dı etmenlerden iki girdi unsurudur: sorgu ve belge uzayı. Sistem sorgu ile uzaydaki belgeler arasında bir alaka/ili ki kurarak, en yüksek alaka de erine sahip olan belgelere ait kılavuzları çıktı olarak verir (alakalı belge adresleri). Verilen çıktı’nın, talebi kar ılama ba arımı, her zaman B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 83 geçerli olmasa da talepte bulunan kullanıcı nezdinde sorgu inceltme (query refinement) amacı ile geri-besleme olarak sisteme girdi yapılabilir. Geri-Besleme Sorgu BGG Sistemi Çıktı Belge Uzayı ekil 5.1.1: Bilgi geri-getirim sistemlerinin genel kurgusu. Tüm BGG sistemlerinin hedefinde “kullanıcının enformasyon ihtiyacını kar ılamak amacı ile alakalı belgelerin etkin ekilde geri getirimi” vardır. Sistem içinde söz konusu etkin geri-getirim ise, birbirinden ba ımsız üç sürecin ortaklı ı ile gerçeklenir: 1. Kullanıcı hizmetleri, 2. Belgelerin ve sorguların sayısal temsil ekli ve 3. Geri-getirim yöntemi. BGG sistemleri, kullanıcı için iki temel hizmeti sa larlar. Bunlardan birincisi, kullanıcının bilgi ihtiyacını kar ılamak üzere geri B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 84 getirim hizmeti; ikincisi de geri-getirim sistemi ile elde edilmi alakalı belgelerin kullanıcı tarafından incelenmesini sa layacak ara-yüz, daha do rusu sonuçlara göz-atma (browsing) i lemi için gerekli ortamın sa lanmasıdır. Kullanıcı bakı ı açısından, bir BGG sistemi tarafından verilen hizmetler ve birbirleri ile ili kileri çizge olarak ekil 5.1.2.’de verilmi tir. gu So r Geri-Getirim Geri Besleme Çıktı Kullanıcı Belge Uzayı Göz-atma ekil 5.1.2: Kullanıcı bakı açısından, BGG sistem hizmetleri. Bu tez kapsamına, BGG sistemlerinin kullanıcı bakı açısından sadece geri-getirim hizmeti girmektedir; göz-atma (Browsing) hizmeti kapsam dı ındadır. 5.2. Genel leyi Kurgusu ( ç Yapılanma) BGG sistemlerinde kullanıcının enformasyon ihtiyacını belirten sorgu ile belge uzayındaki alakalı belgelerin e le tirilerek, sistemin genel çıktısının olu masını sa layan iç yapılanma örne i ekil 5.2.1.’de betimlenmi tir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 Belge Uzayı 85 Sorgu Sayısal Temsil Yordamı Belge Kelime/Cümle ndeks Terimler ndeks Terimler Sayısal Temsil (Belge) E le tirme Sayısal Temsil (Sorgu) Alakalı Geri-Getirim Sistemi Çıktı (Alakalı Belgeler) ekil 5.2.1: Bilgi geri-getirim sistemlerinin iç yapılanma örne i. BGG sistemlerinin, genel i leyi kurgusu içerisinde, yani iç yapılanmasında iki temel süreç bulunmaktadır: sayısal temsil yordamı ve e le tirme yöntemi. Sayısal temsil yordamı, sistem girdisi olan metinlerin ve sorgunun, hesaplanabilir yapılara dönü türülmesinden sorumlu olan yordamdır. Aslen e le tirme sürecinde kullanılan, metin ve sorgunun hesaplanabilir yapıları, kullanılan geri-getirim yönteminin nitelikleri do rultusunda bir takım i lemlerle elde edilmektedir (örne in vektör uzayı modeli geri-getirim yöntemi ise, metinler ve sorgu vektörler halinde temsil edilir). Ancak, buradaki anlamı ile, metinlerin ve sorgunun, bir dizi ön süreçten geçirilerek, tüm geri-getirim yöntemlerinin matematiksel alt yapılarında ortak hesaplama birimi olarak kullanılan haline, yani ortak bir sayısal temsile dönü türmektir (indeks terimler). E le tirme, yani sorgu ile ifade edilen ve aranan B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 86 enformasyonun, belgeler içinde bulunması ise, geri-getirim yönteminin esas aldı ı matematiksel alt yapı ile belirlidir. Örne in, vektör uzayını esas alan bir geri-getirim yönteminde, belgelerin ve sorgunun sayısal temsilleri üzerinden vektörleri olu turulur ve iki vektör arasındaki açısal uzaklık “alaka” için bir ölçüt olarak kullanılır. Açısal uzaklı ı en az olan belge, sorgu ile en alakalı olarak kabul edilir. 5.3. Sayısal Belge Temsili BGG sistemlerinde yaygın ekilde kullanılan sayısal temsil yordamı ve onu olu turan alt süreçler ekil 5.3.1.’de çizge olarak gösterilmi tir. Sayısal temsil yordamını olu turan alt süreçler, “do al dilde yazılı bir belgeden” ba layan ve nihayetinde “indeks terimler eklinde temsil” ile son bulan bir dönü türme zincirinde art arda uygulanırlar. Bir belgenin en asgari düzeyde temsili, tam metin eklinde olabilmektedir; yani belgeden noktalama i aretleri, bo luklar vb. anlamsal-enformasyon açısından önemsiz simgeler arındırıldıktan sonra geriye kalan kelimeler, isimler, yerler, sayılar v.b. simgelerin listesidir ( ekil 5.3.1.’de 0 –sıfır- numara ile etiketlenmi tir). Bu i lem metin normalle tirme (text normalization) yada simgele tirme (tokenization) olarak adlandırılır. Tam metin sayısal belge temsili, yordamın çıktısı olarak elde edilebilecek temsillerin en ilkel eklidir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 87 Belge 0 Metin Kelime Gurupları Gövdeleme 1 2 3 Elle/ Otomatik ndeksleme 4 Yapısal Algılama Metin+Yapı Durmakelimeleri Noktalama, bo luk vb. ndeks Terimler Tam Metin Belge Temsilinin Çe itli Halleri ekil 5.3.1: Bilgi geri-getirim sistemlerinde alt süreçler esasında sayısal belge temsil yordamı. ekilde kesikli oklar seçimlik; kesiksiz oklarsa zaruri alt süreç i lemlerine, yordam akı ını yönlendirmektedir. Seçimlik i lemler 1, 2, 3 ve 4. i lemlerdir. “0.” i lem, yani Noktalama, bo luk vb. ile etiketli olan genel geçerdir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 88 Aslen, simgele tirme veya metin normalle tirme belge ve sorgu temsili olu turma süreçlerinde kullanılacak simgelerin, yani silsiledeki di er süreçler için temel hesaplama birliklerinin tespit edildi i adımdır. Di er adımların tamamında bu adımda olu turulan simgeler bir hesaplama birimi olarak ele alınır. En basit hali ile simgele tirme kelimelerin ve kelime aralarında kullanılan di er yazım sembollerinin belirlenmesi olarak tanımlanabilir. ekil 5.3.2.-(a)’da örnek bir yazılı yalın Türkçe metin ve (b)’de de bu metnin normalle tirilmi hali gösterilmi tir. Örnek metnin içinde aynı zamanda biçimlendirme de iptal edilmi tir (Büyük/küçük harf, kalın, yatık vb. yazım biçimleri). (a) (b) Dervi 'e Ekonomi Bakanlı ı yetmez! Sakın yanlı anlamayın ba lıktaki tespit bize ait de il. Devlet Bakanı Kemal Dervi 'in çok eski ve yakın dostu Bülent Eczacıba ı böyle dü ünüyor: dervi 'e ekonomi bakanlı ı yetmez sakın yanlı anlamayın ba lıktaki tespit bize ait de il devlet bakanı kemal dervi 'in çok eski ve yakın dostu bülent eczacıba ı böyle dü ünüyor (d) (c) dervi ekonomi bakan yetmez sakın yanlı anla ba lık tespit devlet bakan kemal dervi eski dost bülent eczacıba ı dü dervi 'e ekonomi bakanlı ı yetmez sakın yanlı anlamayın ba lıktaki tespit devlet bakanı kemal dervi 'in eski dostu bülent eczacıba ı dü ünüyor ekil 5.3.2: Sayısal belge temsili olu turulması adımlarına örnekler. (a) metnin aslı; (b) metnin simgele tirilmi /normalle tirilmi hali; (c) durma kelimelerinden arındırılmı hali; (d) metnin biçimbirim (morphologic) normal veya gövdelenmi halidir. Durma kelimeleri (stop words) metin içeri inde ta ınan enformasyon ile çok alakalı olmayan kelimelerdir. Bu kelimeler, B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 89 metinin içinden ayıklanırlar. Ta ınan enformasyon ile alakalı olmama, yani kelimelerin metin içinde ya gramer yada i levsel olarak (örne in zamirler) kullanılması anlamına gelir. Do al dilde bu kelimelerin sayısı 200-300 kelimeyi a maz, ancak toplam kelime sıklı ının yarısından fazlasını olu turabilir. Bu tip, gramer veya dilbilgisi yazım kuralları gibi i levleri olan kelimelerin metinden ayıklanması geleneksel yöntemler içinde yaygın ekilde görülen bir durumdur. ekil 5.3.2.(c)’de normalle tirilmi metinden, bu kelimelerin ayıklanması ile elde edilen örnek metin gösterilmektedir. Biçimbirimsel normalle tirme, yani gövdeleme, yapılan sorguyu olu turan kelimelerin farklı biçimlerini de içeren belgelerin, geri getiriminin sa lanması için kullanılır. Ancak sondan eklemeli, çekimli diller, örne in Türkçe için bu amacın yanında ba ka bir amaca daha hizmet eder: indeks terim listesinin yönetilebilir boyutlarda tutulması. ekil 5.3.2.-(d)’de örnek metnin, gövdelenmi hali gösterilmi tir. Analitik diller, yani bir kelimenin biçimbirimsel ekilleri kısıtlı olan dillerde, BGG sistemleri için biçimbirimsel normalle tirme nispeten basit yöntemlerle yapılabilmektedir. Örnek olarak, “Porter’s Stemmer” otomatik gövdeleme yordamı, ngilizce’deki tüm kelimelerin yazımda kullanılan farklı biçimsel hallerini, sadece 120 kurala dayalı olarak, gövdelerine indirgeyebilmektedir (Porter, 1980). Bu tür yordamlarda, aslen dilbilimsel olarak gerçek köklere inildi i söylenemez. Dilbilimsel olarak gerçek kökün bulunması için kullanılan yöntemse, sözlükten bakmadır. Daha do rusu, tüm kelime köklerinin bir liste halinde tutulması ve bu köklerden gövde türetme kuralları ile kar ıla ılan kelimenin türetilerek bulunmasıdır. Ancak bu tür yordamlarında gerçek kökün ne oldu una dair belirsizli e dü tü ü durumlara sıkça rastlanmaktadır. Örne in, ngilizce “saw” kelimesi, B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 90 “see”, yani görmek fiilinin düzensiz ikinci hali midir? Yoksa “saw”, yani testere anlamında kullanılan bir isim midir? Böyle bir yordamla ayırt edilemez. Belirsizli in giderilebilmesi için, kelimenin kullanıldı ı yerdeki sözcük türünün (part-of-speech) iki ihtimalinden, yani isim ve fiil halinden, hangisinin oldu unun belirlemesi gerekir. Sözcük türlerinin bulunması meselesi ise bu i için geli tirilmi bir ba ka yöntemle bulunabilmektedir (Brill, 1995; Church, 1988; DeRose, 1988). Gövdeleme ile belgelerin ortak bir dilbilimsel biçime indirgenmesi gibi dilbilim sahasının u ra alanında olan bir yöntem yerine, kullanıcının sorgusundaki kelimelerin olası tüm biçimlere ço altılması da, ngilizce gibi analitik diller için kullanılan bir di er alternatiftir (Hiemstra and de Jong, 2001). Analitik diller için yukarıda anlatılan yöntemler etkin bir ekilde kullanılabilmektedir, ancak Türkçe gibi, sadece bir fiilden olu turulabilecek, yazım ekli de i ik biçimlerin sayısı, milyon seviyelerine çıkabilen diller için söz konusu yöntemler etkinli ini yitirmektedir (Jurafsky and Martin, 2000). Örnek olarak Çizelge 5.3.1.’de 1 milyon ve 10 milyon kelimelik iki derlemin sözcük da arcıklarının sayıları verilmi tir (Hakkani-Tür, Oflazer and Tür, 2002). Çizelge 5.3.1: Bir milyon ve on milyon kelimelik Türkçe derlemlerin kelime da arcıkları (Hakkani-Tür et. al., 2002). Derlem boyutu Kelime da arcı ı 1M kelime 106,547 10M kelime 417,775 Kelime da arcı ındaki bu biçimsel de i ikli in zenginli inden kaynaklı büyüklük, sondan eklemeli, ekli diller için farklı yöntemlerin B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 91 geli tirilmesi zorunlulu unu do urmu tur. En uzun e le me, Kut ve arkada ları (1995) tarafından Türkçe için gerçekle tirilen ilk gövdeleme yöntemidir. Yöntemde, bir sözlük içine dahil edilmi kelimeler ve olası türetilmi gövdeleri bulunmaktadır. ndeks terimleri olu turulacak belgedeki kelimeler, bu sözlükten aranmakta ve en uzun e le en kelime gövdesi seçilmektedir. Türkçe için geli tirilmi bir di er yordamda Solak ve arkada ları (1994) tarafından gövdeleme i leminin gerigetirim ba arımı üzerindeki etkilerinin ara tırılması esnasında ortaya konmu tur. A-F yordamı olarak adlandırdıkları bu çalı mada, bir sözlükte güncel Türkçe kelimelerin gövdelerini ve her gövdenin yapım ve çekim eklerini alı esaslarını belirten 64 özellik tutulmu tur. Belgelerde rastlanan kelimelerin, bu verilerin ı ı ı altında de erlendirilerek, olası tüm gövdeleri üretilmektedir. Sever ve arkada larının ortaya koydu u gövde-bul (FINDSTEM) gövdeleme yordamı, BGG sistemlerinin etkinli ini esas alan ve sözünü etti imiz iki yöntemle de deneysel olarak kar ıla tırılan bir çalı madır (Sever ve Bitirim, 2003). Söz konusu gövdeleme yordamı, yazım ekilleri farklı olan kelime biçimlerini, dilbilimsel gövdelerine indirgemektedir. Yöntemde, kelime gövdeleri ile kelime kökleri birbirlerinde özellikle ayrı tutulmaktadır ve kelimelerin kökleri de il gövdeleri tespit edilmektedir. Çalı mada, di er kar ıla tırılan iki yöntemin hataları içinde gövde yerine, kelimenin kökünü seçmeleri gösterilmi tir. Sever ve Bitirim’in çalı masında, örne in “gözlü üm” ve “gözlüklüyü” kelimeleri “göz” köküne de il “gözlük” gövdesine indirgenmektedir. Di er yöntemlerden, gövde olarak “göz” seçiminin ortaya çıktı ı durumlar oldu u tespit edilmi tir. Kelimenin gerçek gövdesinin bulunması, dilbilimsel açıdan, yani anlamsal olarak Türkçe için önemli bir husustur, çünkü kelime gövdeleri, kök kelimeye yapım eki getirilmesi ile meydana getirilir ve ço unlukla kökten farklı anlamlar ta ırlar. Türkçe için, kelime gövdesine indirgemeyi esas almayan, daha B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 92 do rusu gövdeleme gibi bir meselenin, kullanılan geri-getirim kurgusu içinde var olmadı ı bir di er yöntem de, Ekmekçio lu’nun (1996) ngram modeli ile yaptı ı çalı mada ortaya çıkmaktadır. Bu çalı mada, geri-getirim kelimeler veya gövdeler esasında uygulanmamaktadır. Tüm belgelerdeki metinler ve sorguyu olu turan kelimeler, harf esasında n-gram birlikleri esas alınarak e le tirme yapılmaktadır. Dolayısı ile, bu bakı açısı içerisinde ne kelime, ne de gövdesi mesele olarak ortaya çıkmaktadır. Ancak Türkçe’nin yine dilbilimsel özellikleri sebebiyle, sayısal belge temsilinin n-gram örne inde seyrek veri (sparse data) sorunu, analitik dillere kıyasla daha ciddi boyutlarda mesele yaratmaktadır. Gerçek bir dilbilimsel gövdeleme yapılabilmesi için, tam bir biçimbirimsel ve söz-dizimsel analizin yapılmasına gerek vardır. Türkçe için geli tirilmi ve halen kullanılan tek biçimbirimsel analiz yordamı, Oflazer (1993) tarafından gerçekle tirmi olandır. Söz konusu yordam, tam bir dilbilimsel biçimbirim analizi yapmaktadır ve Türkçe kelimelerin olası tüm kök ve gövdelerini bulabilmektedir. Oflazer, bu biçimbirimsel analiz yöntemi için yordam geli tirirken, Türkçe’nin biçimbirim kural kümelerini, Koskenniemi (1983) tarafından ortaya konulan iki-seviyeli dil tanımlamasını esas alarak yapmı tır. Fakat, ikiseviyeli dil modellemesi, teorik olarak girdinin büyüklü ü ile do rusal bir hesap zamanına sahip de ildir, daha do rusu hesaplanabilme açısından NP-Complete bir mesele oldu u Barton (1986) tarafından ispatlanmı tır. Bu yüzden geri-getirim uygulamalarında kullanımı, Sever’in de (2003) çalı masında belirtti i gibi, uygun de ildir. Kelime guruplarının tespiti, BGG sistemlerinde sayısal belge temsilinde kullanılan yöntemlerden bir di eridir. Yazılı metinlerde kelime guruplarının tespiti üç yolla yapılmaktadır: 1-) Elle önceden B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 93 sisteme tanıtılması (Robertson and Walker, 2000). 2-) statistiksel olarak kelimelerin birlikte gözlenme sıklı ına göre olu turulması (Mitra et al., 1997) ve 3-) Söz-dizimsel cümle çözümlemesi ile belirleme (Strzalkowski, 1995). statistiksel yöntemler, durma kelimeleri haricinde yan yana belirlenmi bir e ik de erden daha fazla belgede gözlemlenen birliklerin kelime gurubu olarak alınması gibi basit bir mantı a dayanmaktadır. Söz-dizimsel cümle çözümlemesinde ise, ngilizce için “Information Retrieval” (Bilgi geri-getirim) ile “Retrieval of Information” (Bilginin geri-getirimi) gibi aslen anlamları aynı fakat dizilimleri farklı tümceler tespit edilerek tek bir sıralamaya konurlar. Türkçe cümlelerin sözdizimsel çözümlemesi için de pek çok çalı ma, hesaplamalı dilbilim uygulamalarında kullanılmak üzere gerçekle tirilmi tir (Demir, 1993; Güngördü, 1993; Oflazer and Kuruöz, 1994; Hakkani, 1996; Korkmaz, 1996; Birtürk 1998). E anlamlı kelimelerin bulunması da, sayısal belge temsili olu turulmasında ba vurulan bir yöntemdir. Ancak, özellikle sorguların i lenmesinde daha yaygın kullanılmaktadır. Kullanıcının bilgi ihtiyacını kar ılamak üzere, do al dilde biçimlendirdi i sorguyu olu turan kelimelerin, e anlamlıları da geri-getirim sürecine dahil edilerek, alakalı belgeler kümesinin geni letilmesine (anma iyile tirme) yönelik bir yöntemdir. Belge temsili içinde kullanımı ise gövdeleme benzeri bir i levselli e sahiptir. Farklı ekillere sahip, fakat aynı anlama gelen kelime biçimleri, bu sayede tek bir indeks terimle temsil edilirler. Bu yönde Türkçe için, Orgun (1985) ve Sezer (1999) tarafından yapılan çalı malar örnek verilebilir. Hesaplamalı dilbilim sahasına ait u ra lar olan gövdeleme, kelime guruplarını belirlenmesi ve sözcük türlerinin tespiti, aslen BGG sistemlerinde kullanımı, geri-getirim ba arımına olan katkı açısından B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 94 tartı malı bir durum yaratmaktadır. Yukarıda tanımlanan sayısal belge temsil yordamı, geleneksel BGG sistemlerinin yaygın olarak benimsedikleri alt süreçleri içermektedir. Görüldü ü gibi, sözcük türü tespiti bu yordamın alt süreçleri içinde en azından seçimlik olarak dahi gözükmemektedir. Gövdeleme yapmanın, analitik diller için, BGG sistemlerinin geri-getirim ba arımı üzerinde etkisinin olmadı ına dair genel bir görü hakimdir. Bu yönde menfi sonuçlu ara tırmalar (Harman, 1991; Kraaij and Pohlmann, 1996) oldu u gibi, müspet sonuçların alındı ı çalı malar da mevcuttur: ngilizce için Krovetz (1993), Hull (1996); talyanca için Sheridan ve Balerini (1996); Slovence için Popovic ve Willet (1992). Ancak, çalı maların geneli üzerinden olu an kanı, gövdeleme yapmanın anlamlı olmadı ı yönündedir. Analitik dillerde olu an bu kanının aksine, Türkçe için yapılan çalı maların tümünde, geri-getirim ba arımının arttı ı tutarlı bir ekilde belirtilmi tir (Solak, 1994; Ekmekçio lu, 1996; Sever, 2003). Kelime guruplarının tespiti de, analitik dillerde yapılan çalı maların sonucunda, gövdeleme ile aynı akıbeti payla mı tır. Croft ve arkada ları (1991), Lewis (1992), Kupiec (1993), Jacqemin ve Royaute (1994), Riloff (1995) ve Lewis ve arkada ları (1996) hesaplamalı dilbilim ve istatistiksel yöntemler kullanımı ile geri-getirim ba arımının arttı ını belirtirken, Mitra (1997) ngilizce için, Kraaij and Pohlmann (1996) Almanca için kelime guruplarının belirlenerek ve belirlenmeden yapılmı olan geri-getirim uygulamalarının ba arımları arasında kayda de er bir fark olmadı ını belirtmi lerdir. Ancak, bilgimiz dahilinde kelime guruplarını belirlemenin Türkçe yazılı metinlerde bilgi geri-getirim ba arımına etkisinin olup olmadı ına dair bir ara tırma yapılmamı tır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 95 Tez hedefimiz içinde bulunan di er dilbilgisi özelli inin, yani cümle unsurlarının sayısal belge temsilinde kullanılması ve Türkçe için bir BGG sisteminin geri-getirim ba arımı üzerindeki etkileri de, yine bilgimiz dahilinde imdiye kadar yapılmamı bir çalı madır. 96 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 97 6. GER -GET R M MODELLER Bilgi geri-getirim sistemleri, kullanıcı tarafından kendi enformasyon ihtiyacını kar ılamak üzere, sisteme yönlendirdi i sorgu ile belgeler arasında anlamsal açıdan bir alaka kurmaya çalı ırlar. Bu anlamsal alakayı kurma i i, BGG sistemlerinin en önemli görevidir. BGG sistemlerinde, belgelerin anlamsal olarak modellenmesi, bir birini tamamlayan iki süreç ile gerçeklenir. Söz konusu süreçler, birbirinden ba ımsızdır. Ancak birinin çıktısı, di erinin girdisi olma esasında belgelerin sayısal temsilini birlikte tamamlarlar. Önce, sayısal temsil yordamı ile belge toplulu u için indeks terimler olu turulur, sonrasında, belirlenen indeks terimler için, kullanılan “geri-getirim modelinin” gerektirdi i ekilde indeks terimlerin her birine, her belge için bir a ırlık hesaplanır. Her indeks terime, her belge için atanan bu a ırlıklar, söz konusu indeks terimin belgede ta ınan “içeri e” yaptıkları katkının öneminin bir ölçüsüdür ve ne ekilde hesaplanaca ı geri-getirim modeli tarafından belirlenir. Böylece, bir BGG sistem uygulaması için gerekli olan sayısal belge temsili de tamamlanmı olur. Geri-getirim modelleri, bir de BGG sistemlerinin iç yapılanmasında bulunan “e le tirme” yöntemi için bir yordam tarif ederler. Bu “e le tirme” yordamı, indeks terimlere atanan a ırlıkların hesaplama yordamı ile aynı ölçekte ve kurgusal olarak geri-getirim modelinin esas aldı ı kuramsal alt yapının do al bir parçası olmak zorundadır. Dolayısı ile, bir geri-getirim modeli, BGG sisteminin iki i levsel yapısının olu turulması için, yani belgelerin anlamsal olarak modellenmesi ve “e le tirme” için, bir kuramsal alt yapı tarifidir. Geri-getirim modelleri, esas aldıkları kuramlar açısından birbirlerinden ayrılırlar. Dolayısı ile, belgelerin anlamsal olarak B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 98 modellenmesi ve e le tirme için farklı yöntemler kullanırlar. Yaygın olarak, BGG sistemlerinde kullanılan geri-getirim modellerinin sınıflandırması ekil 6.1.’de çizge eklinde verilmi tir. ekilde sınıflandırma BGG sistemlerinin “genel yapılanması” esas alınarak verilmi tir. Dolayısı ile, verdikleri kullanıcı hizmetleri, kök olmak üzere, alt dallanmalar biçiminde guruplara ayrılmı , dallanmanın a a ı kısımlarında ise, esas sınıflandırılmı lardır. aldıkları matematiksel kuramlara göre Kullanıcı Hizmeti Göz-atma Flat Structure Guided Hypertext Geri-Getirim Adhoc Fitering Yapısal Modeller Küme Kuramsal Fuzzy Extended Boolean Cebirsel Generalized Vector Latent Semantic Index Neural Networks Klasik Modeller - kil Sayılar -Vektör -Olasılık Non-Overlapping Lists Proximal Nodes Olasılık Kuramsal Inference Network Belief Network ekil 6.1: Bilgi geri-getirim modellerinin sınıflandırılması. (Baeza-Yates and RibeiroNeto, 1999, uyarlama). ekilde, öncelikle bir BGG sistemi, genel yapılanması esasında, yani kullanıcıya verdikleri hizmetler açısından iki alt kola ayrılmı tır: B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 99 göz-atma (browsing) ve geri-getirim. Tez kapsamımızda, kullanıcı hizmeti olarak geri-getirim ele almaktadır. Dolayısı ile, bu bölümde sadece bu alt dalın detayları incelenmektedir. Bir BGG sistemi, kullanıcıya sa layaca ı geri-getirim hizmetini Adhoc (anlık “sorgu”) ve Filtering (süzme, yani sabit “sorgu”) olmak üzere iki ekilde gerçekle tirebilir. Adhoc eklinde BGG sisteminin hedefindeki belge toplulu u sabit, kullanıcının sisteme yöneltti i sorgu(lar) de i ken’dir; Filtering eklinde BGG sisteminin hedefindeki belge toplulu u de i ken (toplulu a yeni belgeler eklenir ve bazı belgeler çıkar), kullanıcının sisteme yöneltti i sorgu(lar) nispeten sabit’dir. Tez kapsamımız içerisinde ele aldı ımız BGG sistemleri, kullanıcıya Adhoc eklinde hizmet verenlerdir. Geri-getirim hizmet ekillerinin her ikisinde de, aynı modeller kullanılabilir. Söz konusu modellerse, belge temsil esasında klasik modeller ve yapısal modeller ba lıkları altında iki guruba ayrılır. Klasik modellerde, belge içeri inden sadece “indeks terimler” ile sayısal temsil olu turulur; yapısal modellerde ise, sayısal temsilde belge içeri i, “indeks terimler” ve belgenin yapısal özellikleri ile olu turulur. Klasik modeller, kuramsal temelde kendi içinde de üç gruba ayrılır: ikil sayılar (boolean), vektör uzayı (vector space) ve olasılık (probability). kil sayılar esasında, yani küme kuramsal ba lı ı altında toplanan modellerde, belgeler ve sorgular “indeks terim kümeleri” eklinde betimlenirler. Vektör uzayı esasında, yani cebirsel ba lı ı altında toplanan modellerde, belgeler ve sorgular “t-boyutlu uzayda vektör” eklinde betimlenirler. Olasılık esasında, yani olasılık kuramsal ba lı ı altında toplanan modellerde, belgeler ve sorgular kuramı” gereklerine göre betimlenirler. “olasılık B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 100 Yapısal modeller de, kendi içinde belge yapısını temsil noktasında ikiye ayrılırlar: Non-overlapping Lists (örtü meyen bölümler listesi) ve Proximal Nodes (yakınsaklık dü ümleri, yani bölümlerin birbirleri arasındaki mesafeler). Tez kapsamımız içerisinde ele aldı ımız BGG sistemleri, klasik modeller gurubunda yer alan gerigetirim modellerini esas almaktadır. Dolayısı ile, yapısal modeller ve gerektirdi i sayısal belge temsil ekli tez kapsamının dı ındadır ve bu bölümde tanıtımları yapılmayacaktır. Çizelge 6.1’de geri-getirim hizmeti ve sayısal belge temsil ekli eksenlerinde, BGG sistemlerinde hangi yöntemlerin kullanılabilir oldu u listelenmi tir. Çizelge 6.1: Bilgi geri-getirim modellerinin geri-getirim hizmeti ve sayısal belge temsil ekli eksenlerinde sınıflandırılması. Sayısal Belge Temsil ekli Tam Metin ndeks Terimler Tam Metin+Yapı Küme Kuramsal Küme Kuramsal Geri-getirim Yapısal Cebirsel Cebirsel Olasılık Kuramsal Olasılık Kuramsal Tez kapsamımız içerisinde yaptı ımız çalı malar genel anlamda, vektör uzayı modelini esas almaktadır. BGG sistemlerinin ba arım ölçümünü yaptı ımız üstel-puanlama ölçütü de vektör uzayına kar ı bir seçenek olan gizli anlam indeksleme modelini (latent semantic indexing) kurgusal olarak esas almaktadır. Dolayısı ile, bu bölümde söz konusu iki model, yani vektör uzayı ve gizli anlam indeksleme modelleri tanıtılacaktır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 101 Söz konusu iki geri-getirim modelini tanıtmadan önce, her klasik geri-getirim modeli için kullanılan, ortak simge sisteminin tanıtılmasında fayda vardır. Her hangi bir geri-getirim modeli olu turan unsurlar, dört i levsel guruba ayrılabilir ve [B, Q, M, R(qi, bj)] gibi bir dörtlü simge sistemi ile tanımlanabilir. Bu dörtlüyü olu turan her simge ise model içinde u i levlere kar ılık gelirler: 1. B simgesi, belge uzayındaki belgelerin sayısal/mantıksal temsillerinin toplulu undan olu mu kümeyi temsil eder. 2. Q simgesi, kullanıcılar tarafından enformasyon ihtiyaçlarını kar ılamak amacı ile sisteme yönlendirilmi “sorgu”ların sayısal/mantıksal temsillerinin toplulu undan olu mu kümeyi temsil eder. 3. M simgesi, belgelerin, sorguların sayısal temsillerinin olu turulması ve aralarındaki alakanın (e le tirme) ölçümü için kuramsal alt yapıyı, yani modeli temsil eder. 4. R(qi,bj) simgesi, her qi ∈ Q sorgusu ve b j ∈ B belgesi için bir gerçek sayı ile ili ki de eri belirleyen “sıralama i levi”’ni temsil eder. Bu ekildeki bir sıralama i levi, her qi sorgusu için, belgeler üzerinde “alaka” ile do ru orantılı bir sıralama tanımlar. Bir ba ka söyleyi le, örne in belirli bir qi sorgusu ile en “alakalı” olan, yani ili ki de eri en büyük olan belge, birinci sırada, de er olarak bir küçük olan belge ikinci sırada v.b. olacak ekilde bir belge sırası tanımlar. Her geri-getirim yöntemi, esas aldı ı kuramsal alt yapı (M) üzerinden, söz konusu dörtlüyü olu turan simgelerin kar ılık geldi i i levsellik için, di er i levsel unsurların (B, Q, R(qi,bj)) nasıl gerçekle tirilece ine dair yöntemleri veya yordamları tanımlar. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 102 Tez kapsamımız dahilinde bu bölümde tanıtımını yapaca ımız geri-getirim modelleri, klasik modeller oldu undan, bu yöntemlerin ortak paydasında bulunan, genel kavramların ve kabullenmelerin de anlatım içerisinde kullanılan ekli ile, liste halinde verilmesinde fayda vardır: 1. Modeller içerisinde, her belgenin sayısal/mantıksal temsili “indeks terimlerin” toplulu u olarak ele alınmaktadır. Ayrıca, bir belgenin sayısal temsilinde kullanılan indeks terimlerin de, birbirlerinden, olasılık/istatistik ba lamında matematiksel esasta (yani da ılımsal olarak), ba ımsız oldu u kabul edilmektedir. 2. E er, bir belge toplulu unda t adet farklı indeks terim oldu u ve ki simgesinin bu indeks terimlerden belirli birini temsili etti i kabul edilirse; K = {k1, k2, ..., kt} tüm indeks terimlerin kümesi olacaktır. 3. Belge toplulu undaki her belge, b j ∈ B ile, her indeks terim, k i ∈ K terim arasında, yani her (ki, bj) ikilisi için a ırlık olarak adlandırılan, atanmı bir gerçek de er vardır. Bu a ırlık wi,j simgesi ile temsil edilir ve her zaman sıfıra e it veya büyük bir gerçek sayı de erine sahiptir ( ∀ wi , j ≥ 0 ). 4. Belge toplulu undaki her belge, b j ∈ B , model içinde kar ılık gelen bir indeks terim vektörü ile temsil edilir, bi = ( k1, j , k 2, j , vardır. , kt , j ) 5. Belge toplulu undaki her belgenin model içindeki temsili olan vektörler, b j üzerinde i lem yapan ve k i ∈ K indeks terimi için a ırlık de erini veren bir g i (b j ) = wi , j i levi tanımlıdır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 103 6.1. Vektör Uzayı Modeli Vektör uzayı modeli, BGG sahasında en yaygın ekilde kullanılan geri-getirim modelidir. Bunun sebebi, modelin basitli i ve içerdi i süreçlerin takip edilebilir olmasıdır. Sorgu ile belge arasında kurulaması gereken anlamsal “alaka” yakınlı ını, vektörlerin çok boyutlu uzaydaki yakınlı ı ile temsili olarak tanımlar. Vektör uzayı modelinde sorgular da indeks terim vektörleri ile temsil edilirler. Yani, her sorgu, qi ∈ Q için, belgelerde oldu u gibi kar ılık gelen bir indeks terim vektörü, qi = (k1,i , k 2,i , , k t ,i ) vardır. Modelde, belgeler ile sorgular arasında anlamsal olarak belirlenmesi, nicel olarak ölçülmesi gereken “alaka”, temsili olarak qi = ( k1,i , k 2,i , , k t ,i ) indeks terim vektörü ile, bi = ( k1, j , k 2, j , , k t , j ) indeks terim vektörü arasındaki açısal mesafe ile hesaplanır. Dolayısı ile anlamsal ba lamda oldukça karma ık ili kilerin de erlendirilmesi ile karar verilebilecek “alaka”, t boyutlu bir uzayda, iki vektör arasındaki açısal mesafenin ölçülmesi gibi, matematiksel olarak modellenmi , çok basit bir meseleye indirgenmi olur. Bu model ile belgelerin “alaka” de eri en yüksek olanı olarak, sorgu vektörü ile en küçük açısal mesafeye sahip olan belge vektörü kabul edilmektedir. Model gere i, en alakasız belge, daha do rusu mutlak alakasız belge, sorgu vektörü ile dik açı (radyan ölçe inde 90o) yapan vektör ile temsil edilendir. Vektör uzayı modelinde, vektörler ile temsil edilen sorgu ve belgeler arasındaki açısal mesafe benzerlik ölçütü olarak kullanılır ve kosinüs farkı (cosine difference) veya normalle tirilmi kar ılıklı-ili ki katsayısı (normalized correlation coefficient) ile ölçülür. Dolayısı ile, B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 104 vektör uzayı modelinde, bir sorgu ile belirli bir belge arasındaki benzerlik Denklem 6.1.1.’de verildi i gibi hesaplanır. benzerlik ( qi , b j ) = qi • b j qi ⋅ b j t k =1 wk ,i = 2 t k =1 wk ,i ⋅ ⋅ wk , j (6.1.1) 2 t k =1 wk , j Denklem 6.1.1.’de verilen ifadenin, indeks terimler uzayında temsili betimlemesi ekil 6.1.1.’de verilmi tir. k1 bj qi k2 ekil 6.1.1: Bir bj belge vektörü ile, qi sorgu vektörünün, iki boyutlu indeks terim uzayında çizgesel betimlemesi. ekilde, belge vektörü ve sorgu vektörü, iki boyutlu terim uzayında aralarında, θ açısı olacak ekilde gösterilmi tir. Denklem 6.1.1. ile verilen benzerlik ölçüsü, bu gösterim üzerinden öyle elde edilmektedir. Vektör uzayında iki vektörün, örne in qi ve b j vektörlerinin nokta çarpımı (dot product) Denklem 6.1.2.’de verilen ifade üzerinden hesaplanır. qi • b j = k1,i ⋅ k1, j + k2 ,i ⋅ k2 , j + + k t ,i ⋅ k t , j (6.1.2) B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 105 Denklem 6.1.2.’de verilen nokta çarpımının bir takım cebirsel ve yüzey-ölçüt (geometri) özellikleri vardır. Sorgu ile belge vektörü arasındaki benzerli in ölçülmesini sa layan Denklem 6.1.1.’deki ifadenin elde edili i için bu özelliklerden incelenecek olan Denklem 6.1.3.’de verilmi tir. qi • b j = qi ⋅ b j ⋅ cosθ (6.1.3) Denklem 6.1.3.’de verilen geometrik özelik, iki vektörün nokta çarpımının üçgen-ölçüt (trigonometri) ifadesidir: qi ve b j terimleri, vektörlerin, örne in qi = k12,i + k 22,i + sorgu + k t2,i vektörü olan qi için, ifadesi ile hesaplanan uzunluklarıdır. cos θ ifadesi, radyan ölçe inde θ açısının, kosinüs i levinden elde edilen de eridir. Denklem 6.1.2.’de ve Denklem 6.1.3.’de verilen, nokta çarpım ifadeleri e itlenip, cos θ için yeniden düzenlenirse, Denklem 6.1.4.’deki ifade elde edilir. benzerlik ( qi , b j ) = cosθ = qi • b j qi ⋅ b j (6.1.4) Denklemden de anla ıldı ı gibi, benzerli in çok boyutlu uzayda neden açısal bir ölçüt oldu u çok açıktır. Bir vektörün normalle tirilmi olması demek, uzunlu unun bire e it olması demektir. Dolayısı ile, bir vektörün normal hali, vektörü olu turan her elemanının, vektörün uzunlu una bölünmesi demektir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 106 Denklem 6.1.1. veya Denklem 6.1.4.’de verilen benzerlik ifadelerinde de görüldü ü gibi, e er sorgu ve belge vektörleri, önceden normalle tirilmi olursa, benzerlik Denklem 6.1.2.’de hesap ekli verilen basit bir nokta çarpımı haline gelecektir. Vektör uzayı geri getirim modelini esas alan BGG sistemlerinde yaygın olarak uygulanan, belge ve sorgu vektörlerinin normalle tirilerek kullanılmasıdır. Vektör uzayı modelinde, indeks terimlerle belgeler arasındaki a ırlık hesabı da Denklem 6.1.6.’da verilen ekilde yapılır. wi , j = g i (b j ) = tf i , j × idf i (6.1.6) Denklem 6.1.6.’da, tf i , j terimi, e er f i , j , b j belgesinde k i indeks terimine ait gözlenme sıklı ı ve max f j , b j belgesindeki her hangi bir indeks terime ait olabilecek en yüksek gözlenme sıklı ı olarak kabul edilirse, f i , j / max f j (normalle tirilmi gözlenme sıklı ı olarak da adlandırılır) i leminden elde edilen sayısal de erdir; idf i terimi, e er N belge toplulu undaki toplam belge sayısı ve ni, k i indeks teriminin gözlendi i belge sayısı olarak kabul edilirse, log10 ( N / ni ) i leminden elde edilen sayısal de erdir. Bu a ırlık hesaplama yöntemi çok yaygın olarak kullanılır ve TFxIDF olarak adlandırılır. Aslen bu adlandırma, kökü Denklem 6.1.6.’da verilen a ılık hesabı ifadesinden türetilmi , bir a ırlıklandırma denklemleri ailesinin genel adı olarak kabul edilebilir (Salton, 1971). Sorgu cümlesinden, sorguya ait vektörün olu turulması için yapılması gereken a ırlıklandırma, belgelerde oldu undan farklıdır. Sorgularda uygulanması önerilen a ırlıklandırma Denklem 6.1.7.’de verilmi tir (Salton and Buckley, 1988). B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 wi ,q = 0.5 + 0.5 ⋅ f i ,q max f q 107 ⋅ log( N / ni ) (6.1.6) Vektör uzayı modelinin bazı olumlu ve olumsuz yönleri vardır. Bu özellikleri maddeler halinde listeleyecek olursak: Olumlu yönleri; • Uygulamada basit ve hızlıdır. • Kosinüs farklı ile benzerlik hesaplanması, sorgu için belgeler kümesi üzerinde belirlenmesi gereken R(qi,dj) i levini de aynı anda yapmı olur. Olumsuz yönü; • ndeks terimlerin da ılım esasında ba ımsız kabul edilmesi. 6.2. Gizli Anlam ndeksleme Modeli Vektör uzayı modelinde, indeks terimlerin bireysel gözlenme sıklıkları ile a ırlıklarının belirlendi ini söylenmi ti. Dolayısı ile, vektör uzayı modeli içerisindeki a ırlıklandırma ekli, belge içerisinde indeks terimlerin birlikte gözükme durumlarını göz önüne almamaktadır. Gizli anlam indeksleme (latent semantic indexing - LSI) modelinin kurgusu ile, birlikte gözükme durumunun ne ekilde ele alındı ını takip edebilmek için, anlatıma bir örnek üzerinden devam edece iz. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 108 Klasik modeller içerisinde her belgeye, b j ∈ B , kar ılık gelen bir indeks terim vektörü, bi = (k1, j , k 2, j , , kt , j ) ile temsil edildi i belirtilmi ti. Dolayısı ile, belirli bir belge toplulu u, satırları indeks terimler k i ∈ K , sütunları belgeler b j ∈ B ve elemanları wi,j, yani (ki, bj) indeks terim-belge ikilisi için atanmı a ırlıklardan olu an bir terimbelge matrisi, Atxb olarak temsil edilebilir (t, terim sayısı, b belge sayısı). Hayali dört belgeden ve üç indeks terimden olu an, örnek belge toplulu umuz, terim-belge matrisi olarak ekil 6.2.1.’de verilmi tir. b1 b 2 b3 b4 bilgisayar(k1) 0 1 1 1 a (k2) 1 1 0 0 televizyon(k3) 1 0 0 0 ekil 6.2.1: Örnek belge uzayı için, terim-belge matrisi. ekilde verilen örnek belge toplulu unun, terim-belge matrisinde dört belge sütunlardadır (b1, b2, b3 ve b4), satırlarda ise üç indeks terim görülmektedir (k1=bilgisayar, k2=a , k3=televizyon). Belgelerden, b1 ve b2 , k2=a indeks terimini ortak ekilde içermekte; b3 ve b4 içermemektedir. Bu yüzden, b1 ve b2 için bir a ırlık de eri, w2,1=w2,1=1 atanmı ; ancak, b3 ve b4 belgeleri indeks terimi içermedikleri için kar ılık gelen a ırlık de erleri, sıfır olarak, w2,3 = w2,4=0, atanmı tır. Bir ba ka söyleyi le, terim-belge matrisinde, a ırlık de eri sıfır olan hücrenin sütununda gözlenmemi demektir. bulunan belgede, satırdaki indeks terim B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 109 Gizli anlam indeksleme yöntemi, sorgu ve belgeleri, terimlerin birlikte gözlenmesine dayalı olarak, eksenleri “gizli” anlamlar olan bir uzaya yansıtır. Birlikte gözlenen terimler aynı eksenlere yansıtılırken, birlikte gözlenmeyenler farklı eksenlere yansıtılırlar. Gizli anlam uzayında, bir sorgu ve belge, aynı biçime sahip terimleri içermeseler bile, e er anlamsal benzerlikleri, birlikte gözlenme ile belirlenebildi i oranda, yüksek seviyelerde kosinüs benzerli ine sahip olabilirler. Gizli anlam uzayının boyutları, belge uzayının boyutlarından daha azdır. Belge uzayının boyutları indeks terimlerin sayısı kadar olabilir. Ancak, gizli anlam uzayının boyutları, belge uzayında anlamsal olarak benzer olan boyutların birle imi ile olu ur. Bu yönden açıklandı ında, gizli anlam indeksleme bir “boyut indirgeme” yöntemidir. Bir boyut indirgeme yönteminin yaptı ı ey, çok boyutlu bir uzayda temsil edilen nesneleri, daha küçük boyutlu bir uzaydaki, örne in iki boyutlu bir uzaydaki temsile yansıtmaktır. Gizli anlam indeksleme modelinde kullanılan boyut indirgeme i lemi, e siz sayılara ayrı tırma-ESA (singular value decomposition - SVD) yöntemi ile gerçekle tirilir. ESA yöntemi, aslen temel bile en analizi – TBA (principle component analysis) yöntemi ile aynı i i görür. Ancak, TBA sadece kare matrislerle çalı abilirken, ESA, mxn boyutlu tüm matrislerle çalı abilir. ESA yöntemi ile, çok boyutlu uzaydaki bir nokta, daha küçük boyutlu bir uzaydaki “en iyi” kar ılı ına yansıtılır. Buradaki “en iyi”, çok boyutlu uzaydaki noktanın, kendisinden küçük boyutlu uzayda yansıtılabilecek tüm olası seçeneklerden, mesafe olarak en yakını demektir. Gizli anlam indeksleme modelinin, geri-getirim yöntemi olarak terim-belge matrisi üzerinde kullanılı ından önce, esas aldı ı ESA yönteminin matematiksel tanımını yapmak gerekmektedir. Bir Atxb B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 110 matrisinin, ESA yöntemi ile olu turulan kar ılı ı Denklem 6.2.1.’de verilen ifadedeki gibi üç matrisin çarpımı eklindedir (n sayısı, t ve b sayılarının en küçü üne e ittir). T Atxb = Ttxt S txb Bbxb (6.2.1) ekil 6.2.1.’de verdi imiz örnek derlemin terim-belge matrisi için ESA yöntemi ile elde edilen Ttxt , S txb ve Bbxb matrisleri ekil 6.2.2.’de verilmi tir. (T matrisi) k1 k2 k3 boyut-1 boyut-2 boyut-3 -0.789 0.577 0.211 -0.577 -0.577 -0.577 -0.211 -0.577 0.789 (S Matrisi) boyut1 boyut2 boyut3 boyut4 0.000 0.000 0.000 boy-1 1.932 1.414 0.000 0.000 boy-2 0.000 0.000 0.518 0.000 boy-3 0.000 (B Matrisi) b1 b2 b3 b4 boyut-1 boyut-2 boyut-3 boyut-4 -0.408 -0.817 0.408 0.000 -0.707 0.000 -0.707 0.000 -0.408 0.408 0.408 -0.707 -0.408 0.408 0.408 0.707 ekil 6.2.2: Örnek derlem terim-belge matrisi için hesaplanmı , ESA bile en matrisleri. ESA yöntemi ile ekil 6.2.2.’de görüldü ü gibi olu turulan bile en matrislerinden, T ve B matrislerinin, sütunları dik-cepheli birim vektörlerdir (orthonormal). Yani, her sütün ile temsil edilen vektörlerin boyu bire e ittir; aynı zamanda vektörlerin birbirleri arasındaki açı dik B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 111 T ⋅ T −1 = B ⋅ B −1 = I e itli ine sahiptir (I, açıdır (900). Dolayısı ile, birim matrisdir). ESA yöntemi, n-boyutlu bir uzayın döndürülmesi olarak tanımlanabilir. Bu döndürme i i, ilk eksenin, belgeler üzerinden elde edilmi olan en yüksek de i im yönünde, ikinci eksenin bir sonraki en büyük de i im yönünde, v.b. ekilde tüm uzayın aynı ekilde de i imler yönünde döndürülmesi ile sonlanır. T ve B matrisleri döndürme sonrasında elde edilen yeni uzayın, indeks terim ve belgelerini temsil ederler. Kö egen S matrisiyse, A matrisinin e siz sayılarını azalan sırada içermektedir. S matrisinin kö egenindeki, örne in 2. de er, yani s2 de eri, 2. eksende, özgün uzaydan, yeni uzaya dönü için ne kadar de i im oldu unu belirtmektedir. Söz konusu Atxb matrisi ile ifade edilen uzayın, k boyuta indirgenmi olan ( e er n, t ve b sayılarının en küçü üne e it olarak kabul edilirse; k < n olacaktır) “en iyi” yakınsaması, T, S ve B matrislerinin ilk k sütunu ile olu turulacak olan matrisle elde edilecektir. Örne in, k=2 olarak alındı ında, Atxb matrisini, 2 boyutta “en iyi” ifade edilebilecek bile enler, Ttx 2 , S 2 x 2 ve B2 xb olacaktır. Örne imiz için bu bile enler ve olu turdu u yakınsak matris öyle olacaktır: B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 112 − 0.798 0.577 1.932 0 = − 0.577 − 0.577 × 0 1.414 − 0.211 − 0.577 T3 x 2 ⋅ S 2 x 2 ⋅ B4Tx 2 − 0.408 − 0.707 − 0.408 − 0.408 × − 0.817 0 0.408 0.408 − 0.04 1.08 = 1.12 0.83 0.96 0.96 0.79 0.12 0.12 0.29 − 0.17 − 0.17 ESA ile bulunan yakınsama, tektir, biriciktir. Bu yakınsamanın yapılması sırasında, benzer birlikte gözlenme desenleri gösteren terimler aynı eksene yansıtılır, yani birbiri üzerine bindirilir. Dolayısı ile, benzerlik için kullanılan ölçüt, anlamsal olarak benzer olan sorgu ve belgeleri, yazıda farklı kelime biçimleri ile kar ılansalar bile benzer olarak belirleyecektir. Gizli anlam indekslemenin temelinde bu kabullenme, böyle bir beklenti vardır. T matrisinin sadece iki boyutu alınmı eklini inceleyecek olursak, “bilgisayar”, “a ” ve “televizyon” terimlerinin birlikte gözükme açısından aynı (de er olarak aynı) ancak, anlamca farklı oldukları (pozitif ve negatif) gözükmektedir. Aslen, anlamca farklı olu un ortaya çıkmasının sebebi, “bilgisayar” teriminin d3 ve d4 belgelerinde yalnız ba ına kullanılıyor olması etkisiyle, yani birlikte gözlenme olmaması sebebiyle ortaya çıkmı tır. Tahmin edilece i gibi, bazı durumlarda birlikte gözükme ile, aynı konu ba lı ına sahip terimlerin belirlenmesinde mesele çıkabilir. Fakat, ço u zaman aynı konu ba lı ına sahip terimler tespit edilebilmektedir. Bu terim benzerliklerinin belge benzerliklerine farklı bir etkisi vardır. ekil 6.2.3.’de özgün A3x 4 örnek matrisinin kar ılıklı ili ki katsayıları, matris halinde verilmi tir ( A3x 4 örnek matrisi, sütunları, B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 113 yani belgeleri temsil eden vektörleri, uzunluk ile normalle tirilmi durumdadır. Çünkü, kar ılıklı ili ki matrisi, E = AT ⋅ A ile elde edilmektedir). ESA ile k=2 için, A matrisinin yakınsaması üzerinden elde edilen kar ılıklı ili ki katsayı matrisi için, D = S 2 x 2 ⋅ B2 x 4 eklinde, B matrisinin yeni uzay için ölçeklendirilmi hali kullanılmaktadır, yani E = D T ⋅ D (aynı ekilde D matrisi de, sütunları normalle tirilmi olarak i leme alınır). (a) b1 b2 b3 b4 b1 1.000 0.500 0.000 0.000 b1 b2 b3 b4 b1 1.000 0.564 -0.033 -0.033 b2 1.000 0.707 0.707 b3 1.000 1.000 b4 1.000 (b) b2 1.000 0.807 0.807 b3 1.000 1.000 b4 1.000 ekil 6.2.3: Belgeler arası kar ılıklı ili ki katsayı matrisleri. (a) Özgün örne in terimbelge matrisi ile olu turulan (ATA) ve (b) k=2 için ESA yakınsaması ile olu turulan yeni uzayda ölçeklendirilmi belge matrisinden olu turulan (DTD) kar ılıklı ili ki katsayıları matrisleri. ekil 6.2.3-(b).’de verilen, yeni uzay için ölçeklendirilmi belge matrisi için hesaplanan kar ılıklı ili ki katsayılarında b1 ile b3 ve b4 arasında bir ili ki oldu u gözükmektedir (-0.033). Özgün belgeler için hesaplananda, yani ekil 6.2.3-(a).’da böyle bir benzerlik yoktur. Dikkat edilmesi gereken noktalardan bir tanesi de udur: Özgün A matrisine ait kar ılıklı ili ki katsayıları ile, ESA yöntemi ile elde edilen S ve B matrisleri oldu u gibi kullanılarak hesaplanacak kar ılıklı ili ki katsayıları birbirine e it olur. Yani, aslen boyutsal bir indirgeme B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 114 yapılmadı ı takdirde, belgeler arasındaki kar ılıklı ili kilerde bir de i iklik olmaz. Boyutsal indirgeme yapıldı ında, birlikte gözlenme desenlerinden elde edilen enformasyon, belgeler arasındaki benzerlik için kullanılmaya ba lar. Gizli anlam indeksleme ile sorguların ne ekilde yeni uzayda temsil edilece i de tanımlanınca, bu model uygulamada kullanılır hale gelmektedir. Bir kez sorgu, yeni uzaydaki belgelerle aynı ölçe e alındı ında, vektör uzayı modelindeki benzerlik ölçütü sorgu ile belgeler arasındaki alakanın ölçümü için kullanılacaktır. Denklem 6.2.2.’de özgün terim-belge matrisinin, yeni uzaydaki yansıması Denklem 6.2.1.’den türetilmi tir. Sorgu da, belgelerle aynı ölçekte olacak ekilde, yeni uzaya yansıtılmaktadır. A =T ⋅S ⋅B ⇔ T T ⋅ A = T T ⋅ T ⋅ S ⋅ BT (6.2.2) ⇔ T T ⋅ A = S ⋅ BT ∴ TTq Olumlu yönleri; • Terimler arası birlikte gözlenme enformasyonundan faydalanır. E anlamlı, ancak farklı biçimli kelimeleri benze tirir. Olumsuz yönü; • ESA yönteminin hesaplama karma ıklı ı çok yüksektir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 115 7. NDEKSLEME VE NDEKS TER MLER Amerikan Ulusal Standartlar Enstitüsünün 1968 yılında (ANSI 1968) ndeks kavramı için verdi i tanım: “Bir ö eler toplulu unun içindeki bireysel ö eler veya bu ö elerden türetilmi kavramlar için olu turulmu sistemli bir kılavuz. Bu ö eler veya türetilmi kavramların kılavuz içindeki temsilcileri ise bilinen veya verilen, örne in alfabetik, tarihsel veya sayısal bir sıralama içindedirler.” ndeksleme için verilen tanım: “ ndeksleme: Bilgi kayıtlarından enformasyon muhteviyatını analiz etme; ve indeksleme sistemi’nin dili ile bu enformasyon muhteviyatını beyan etme i lemidir. Bu i lem sırasıyla: bir belgede indekslenebilir muhteviyatın seçilmesi ve indeksleme sisteminin dili ile bu muhteviyatın beyanının sıralı bir liste haline getirilmesi adımlarından olu ur.” Bir indeksleme sistemi için verilen tanım: “Geri-getirim veya da ıtım, yani yayma amacıyla bilgi kayıtlarının muhteviyatını organize eden (elle veya otomatik) nizam koyucu yöntemler/yordamlar kümesi.” Bir indeks terim ise, yukarıda verilen tanımların ı ı ı altında, bir metnin içeri inde bulunan enformasyonun (veya üst –metaenformasyonun) kayda de er bir kısmını içeren ifadedir. Örne in bir kitap indeks’i, o kitabın muhteviyatında bulunan önemli içerikleri, daha do rusu kavramları temsil eden terim’lerden olu ur: konular, ki iler, yerler gibi. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 116 BGG sistemlerinde indeksleme dili, belge ve sorguları tasvir eden, sistem içinde, içsel temsilini sa layan dildir; söz konusu dilin yapı ta ları ise indeks terim’lerdir, bir ba ka adla anahtar kelimelerdir. ndeksleme, insanlar tarafından elle veya bilgisayarlar tarafından otomatik olarak yapılabilir. ndeks terimler, aslen olu turuldukları metnin veya belgenin içindeki kelimelerin yazım biçimlerinden ba ımsızdırlar. Bu açıdan indeks terimler, olu turuldukları metnin yüzeysel bir özeti gibi dü ünülebilir. Ancak, indeks terimlerin asıl amaçları kullanıcıyı metnin içeri inde ne oldu u konusunda haberdar etmektir. Bu sebeple söz konusu özet, metnin içeri ini olu turmada kullanılan konuları, kavramları içerir, içeri in bizzat kendisi de ildir. Tüm indeksleme i lerinin kökeninde, kullanıcılara ihtiyaç duydukları enformasyona ula maları için kılavuzluk etme amacı vardır. Ancak indeksler, bir çok tür ve detay seviyelerde olu turulabilirler. Farklı tür ve seviyeler ile olu turulabilecek indeksler, a a ıdaki guruplar altında sınıflandırılabilir (Cleveland and Cleveland, 1983). 1. Kelime ve isim indeksleri: Bu tür indekslerde indeks terimleri, kelimelerin metnin içinde görüldükleri ekillerinden olu ur ve bir kelime hazinesi sınırları yoktur. 2. Kitap indeksleri: Terimler genellikle elle olu turulur ve metnin içinde görüldükleri yazılı ekillerinden farklıdır. Örne in bir indeks terimi “Dinozorlar, bkz. Dinozor” eklinde metnin içinde geçti i eklini, indeks terim olan ekline yönlendirebilir. 3. Periyodik (süreli yayın) indeksleri: Periyodik indeksler, kapsamlarının daha geni olmalarının haricinde, tamamen kitap indekslerinin yapısal özelliklerine sahiptirler. Periyodik indeksleme projeleri ucu açık projelerdir, hiçbir zaman sonlanmazlar. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 117 4. Bilgi geri-getirim sistem indeksleri: Bu indeksleme türünün amacı, içerik belirticileri i aretleyerek, alakalı belgelerin etkin ekilde gerigetirimini sa lamaktır. Tez kapsamımızda, indeks sınıfı olarak bilgi geri-getirim sistem indeksleri ele alınmaktadır. BGG sistemlerinde, sayısal belge temsili için indeks terimlerin seçimi iki yoldan yapılabilmektedir: elle veya otomatik. Elle indeks terim seçiminde, metnin içeri ini temsil eden terimler, bir veya birkaç ki i tarafından i aretlenir ve listelenir. kinci yöntemde ise, yani otomatik olarak indeks terimlerin seçiminde, metnin içeri ini temsil eden terimlerin, bir bilgisayar yordamı ile otomatik olarak bulunması, dolayısı ile indeks terim listesinin otomatik olu turulması söz konusudur. te, hangi kelimelerin veya kelime guruplarının metnin içeri ini temsil etti ini, bilgisayar yordamları ile bulma i ine otomatik indeks terim seçimi denir. 7.1. Elle ndeksleme Bir belge toplulu una, yeni bir belge katıldı ı zaman, indekslemeyi yapacak ki i veya ki ilerin cevaplamak zorunda oldukları bir takım sorular vardır (Lancaster, 1991): 1. Belge ne hakkında? 2. Neden, belge toplulu una eklenmek zorunda? 3. Kullanıcıları ilgilendiren yönleri nelerdir? B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 118 ndekslerin, özellikleri ve kalitesi çok geni bir yelpazede de i iklik gösterir. Elle indeksleme için, indeksleme yapan ki iye yol göstermesi açısından yordamlar ve talimatlar olu turulabilir. Ancak, bir indeksleme i lemi çok çe itli u ra lardan meydana gelmektedir (Cleveland and Cleveland, 1983): 1. çerik analizi, 2. çerik belirticilerin i aretlenmesi, 3. Yer, pozisyon belirticilerin i aretlenmesi, 4. Sonuçta olu an kılavuzların elden geçirilmesi, 5. Son indeks eklinin nasıl gösterilece inin belirlenmesi. çerik belirticilerin tespiti, çok dikkatli bir içerik analizi gerektirmektedir. Bu i lem içinde, metinde geçen ba lıklar, alt ba lıklar ve özet iyi birer içerik belirtecidir. Belge incelenip, içerdi i metinlerin konuları belirlendikten sonra, yapılması gereken, indeksleme dilinin kontrollü kelime da arcı ı içinden konuların bulunmasıdır. Daha sonra, bu kontrollü kelime da arcı ından elde edilmi , terimlerin standart bir e anlamlılar sözlü ünden kontrol edilerek son halini alması sa lanır. E anlamlılar sözlü üne bakılmasının sebebi, terimin tam kar ılı ının, e anlamlısının, dar anlamlısının, daha geni anlamlısının veya ili kili terimlerin de tespit edilmesidir. ndeksleme i lemi için konulmu kuralların ço unun amacı, indekslerin kalitesini arttırmaktır. Fakat söz konusu kurallar evrensel de ildir. Hatta, bazı indeksleme kılavuzlarında bulunan kurallar birbirleri ile çeli kili bile olabilir. Bu kuralların neler olabilece ini a a ıda verilen örne i inceleyerek çıkarabiliriz (Cleveland and Cleveland, 1983): B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 119 1. Tekil terimleri, ço ul olanlarına yönlendir: örne in “kitap, bkz. kitaplar.” gibi. 2. Terimin de i ik anlamlarını ifade etmek için, kullanıcının kastedilen anlamı kavrayabilmesi için, bir tümcede kullan: örne in “matematik, ö retiminde bilgisayarın kullanımı” veya “bilgisayar, matematik ö retiminde kullanımı” gibi. 3. Yazarları, ilk adlarını dahil ederek kullan: “Dinçer, B.T.” gibi. 4. Yazar tarafından vurgulanmak, açıklanmak istenen kadar özele indirgenmi ekilde indeks terimler seç (E er yazarın seçti i terim, konu içerisinde kabul edilebilir bir seviyeye denk geliyorsa, daha üst genel hali ile indeksleme). Örne in, yazar “F-16” uçaklarından bahsediyorsa, “F-16” olarak indeksle, daha üst genel konu ba lı ı olan “uça ı” kullanma. ndekslemeyi yapan ki i ayrıca, indeksin derinli ini de, yani kapsamı da iyi ayarlamalıdır. Bir ba ka söyleyi le, belge içerisinde bahsedilen konu ba lıkları en iyi ekilde kapsanmalıdır. E er, kapsam çok yüzeysel olursa, kullanıcıların kaçırdı ı kavramlar olabilir. E er çok fazla detay olursa, kullanıcı alakasız metinleri okumak zorunda kalabilir. Özetle, kapsamı en iyi ekilde belirleyebilmek oldukça güç ve ciddi bir i tir. Bir çok kitap, isim indeksleri ile içerik indekslerini birbirinden ayırır. sim indeksleri metin içerisinde geçen özel isimlerin bir listesinden olu turulurken, içerik indeksleri metin içerisindeki konuları kar ılayan terimlerden olu turulur. Borko ve Bernier (1978), daha detaylı bir ayrım tarif etmi lerdir: 1. Konu indeksleri: Konular, yapılan i in bütünü ile hedef alınan eydir, yani yazarın dikkatinin ve u ra ının yönlendi i ana temadır. Bunlar, yapılan i in özelliklerine ait çe itli yönleri ortaya koyan özgün fikirler, açıklamalar veya tanımlamalardır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 120 2. Kavram indeksleri: konular bazen di er bazı kavramların tanıtılmasına, içinde geçen fikirlerin açıklanmasına ve örneklerle izah edilmeye ihtiyaç duyabilir. Bu tür kalemler, kavram olarak tanımlanır. Kullanılmalarındaki amaç, ana “konu”nun anla ılmasını sa lamaktır, ancak kendileri “konu” de illerdir, dolayısı ile konu indekslerinde de il, bu ekilde kavram olarak indekslenmeleri gerekir. 3. Ba lık indeksleri: Ço u metin ba lıklara bölünmü tür, sıklıkla da alt ba lıkları vardır. Bu ba lıkları veya alt ba lıklarını indekslemek, ba lıklar için bir indeks olu turacaktır. Bazı durumlarda bu ba lıklar, “konu” olabilir, bu durumda konu indeksleri içerisinde yer almalıdır. Genellikle, konu indeksleri için çok geni kapsamlı olurla; bazen de hedef alınan konunun tanıtımı, do rulaması, ispatı amacı ile kullanılan kavramlardır. 4. Kelime indeksleri: kitap içerisinde geçen tüm kelimelerin birli idir, veya kelime indeksidir. Bir konu indeksi de ildir. En kalabalık olan indeks kelime indeksidir. Bir sonraki kalabalık indeks, kavram indeksi; ba lık indeksi bir sonraki; en seyrek olan indeks de konu indeksidir. Tez kapsamında, ele alınan indeks terimler, kavram indeksleri’dir. Aslen, otomatik indeksleme konusunda da açıklanaca ı gibi, indeks terimler, kelime indeksleri ile kavram indeksleri arasında bir yo unlu a sahiptir. Sayısal belge temsili ile elde edilen, kelime indeksleridir; otomatik indeksleme yordamından beklenense, bu kelime indeksini mümkün oldu unca kavram indeksine do ru götürmesidir. 7.2. Do al Bir Dilde, Kelimelerin Da ılımı. Yazılı metinlerde bulunan simge veya simge birlikleri, kelimeler, sayılar, çizimler v.b. insanlar tarafından anlam yüklenmi B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 121 her türlü harf, sayı, i aret ve bunların olu turdu u birliklerdir. Bir metni olu turan içerik, bu simge veya simge birlikleri ile kar ılanan anlamların bütününden olu ur. Ancak, anlamsal-enformasyonun yazı ile iletiminde metni olu turan her simge veya simge birli inin temsil etti i anlam, metnin içeri ine, yani anlamlar bütününe her durumda e it a ırlıkta, yani aynı önemde katkıda bulunmaz veya bazıları hiç katkıda bulunmaz. Anlamsal-enformasyon bakı açısından, “yazılı bir metinde kelimelerin gözlenme sıklıkları” ile “bu kelimelerin kar ıladıkları anlamların muhtemel enformasyonu olu turan anlamlar bütünü içindeki önem dereceleri” arasındaki ili ki Luhn10 (1958) tarafından ekil 7.2.1’deki gibi betimlenmi tir. Luhn, yazılı metinlerde orta frekanslı kelimelerin önemli, dü ük ve yüksek frekanslı kelimelerin önemsiz olduklarını söylemi tir. Ta ınan enformasyona katkıları açısından, önemsiz kelimeler, dilin yazım kuralları, yani dilbilgisi içinde görevli olan ve yüksek sıklıkta gözlenen kelimeler ile metin içinde çok az görülen kelimeler dahil edilir. Bu tür önemsiz kelimeler i levsel olarak görevli veya i lev terimler olarak adlandırılır, yani yazım veya anlatım içinde i levleri vardır ancak nakledilen enformasyon ile ilgili de illerdir. 10 Hans Peter Luhn (1896-1964). Alman uyruklu bir mühendistir. Bilgi geri-getirim’in fikir babası olarak bilinir. lk otomatik anahtar kelime indeksleme yöntemi olan (KWIC) ve enformasyonun seçici da ıtımı (SDI- Selective Dissemination of Information) sistemlerini ortaya atan ki idir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 Kelimenin önemi 122 Önemli orta frekanslılar Önemsiz dü ük frekanslar Önemsiz yüksek frekanslar Kelime frekansı ekil 7.2.1: Kelimelerin frekansları ile muhtemel enformasyonu temsile katkı miktarı arasındaki ili kinin çizgesi (Luhn, 1958, uyarlama). Luhn çalı masında kelimelerin ta ıdı ı anlamsal önemin uygulama sahası konusunda unları söylemi tir: “... Burada, kelimelerin bir makale içinde görülme sıklıklarının kelime öneminin ölçülmesi için kullanı lı bir alt yapı hazırlayaca ı önerildi. Ayrıca bir de önem de eri atanmı kelimelerin cümle içinde göreceli yerleri, cümlelerin öneminin belirlenmesinde kullanı lı bir alt yapı hazırlar; Dolayısı ile bir cümlenin önem etmeni, bu iki ölçümün birle imini esas alabilir. ...” (Luhn, 1958) Sinyal-enformasyon bakı açısından (Bölüm 3.2.3), enformasyon ile sinyal arasındaki ili ki, anlamsal-enformasyon bakı açısından (Bölüm 3.2.1), enformasyon ile anlam arasındaki ili kiden, köken olarak farklıdır. Sinyal-enformasyon bakı açısı içinde, gözlenme olasılı ı en dü ük olan sinyal en yüksek enformasyona sahipken; anlamsal-enformasyon bakı açısından, Luhn tarafından tanıtılan kuram gere i, orta sıklıkta görülme olasılı ına sahip kelimeler en yüksek enformasyon de erine sahip olmaktadır. Örne in bir ba lık altında belirli bir konudan bahsederken nakledilmek istenen enformasyonu B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 123 temsil eden ve temsile yardımcı olan simge birlikleri sıkça geçer, yani görülme olasılı ı artar. Bu durum, söz konusu simge birliklerinin sinyal-enformasyon de erinin azalmasına sebep olurken; Luhn kuramı gere ince, belirli bir e ik de erinden sonra ve bir üst sınırdan önceki aralıkta gözlenme sıklı ına sahip olanların, anlamsal-enformasyon de erinin, aralı ın dı ında kalanlardan daha fazla olmasına sebep olur. Luhn tarafından ortaya konan kelimelerin bir metin içindeki gözlenme sıklıkları ile ta ınan enformasyona katkı açısından önemleri arasındaki ili ki, aslında Zipf (1929; 1949) tarafından ortaya atılan ve Asgari Gayret (Least Effort) ilkesi içerisinde geçen “birinci kanunu” esas almaktadır (Manning and Schütze, 2003). Zipf birinci kanunu: bir belge içindeki kelimelerin gözlenme sıklıkları büyükten küçü e sıralandı ında, gözlenme sıklıkları (f) ile sıra numaraları (r) çarpılarak elde edilecek sayısal de erin (c), yakla ık olarak sabit kalması olarak tanımlanır (Çizelge 7.2.1; Denklem 7.2.1). Çizelge 7.2.1: Zipf birinci kanunun, Tom Sawyer romanı üzerinde deneysel de erlendirmesi (Manning and Schütze, 2003, uyarlama). Kelime Sık ( f ) Sıra (r ) f xr Kelime Sık ( f ) Sıra (r ) f xr the 3332 1 3332 comes 16 500 8000 and 2972 2 5944 group 13 600 7800 a 1775 3 5235 lead 11 700 7700 he 877 10 8770 friends 10 800 8000 but 410 20 8820 begin 9 900 8100 be 294 30 8820 family 8 1000 8000 there 222 40 8880 brushed 4 2000 8000 one 172 50 8600 sins 2 3000 6000 about 158 60 9480 could 2 4000 8000 more 138 70 9660 applausive 1 8000 8000 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 124 f × r ≈ sabit veya f ∝ (7.2.1) 1 r Mandelbrot (Manning and Schütze, 2003) daha büyük derlemler ile yaptı ı çalı malarda, Zipf tarafından verilen genellemenin aslında detayları belirleyicilik noktasında, çok kötü oldu unu ortaya koymu tur. Mandelbrot sıra ile sıklık arasındaki genel ili kiyi kelimelerin deneysel da ılımına daha uygun olacak ekildeki Denklem 7.2.2’de oldu u ekilde de i tirmi tir. f = P • ( r + ρ )− B veya logf = log P − B log( r + ρ ) (7.2.2) Denklem 7.2.2.’de P, B ve ρ metne ait parametrelerdir ve hep birlikte metinde kullanılan kelime da arcı ının zenginli ini ortaya koyarlar. Zipf tarafından verilen özgün ili kideki hiperbolik da ılım (Denklem 7.2.1), Denklem 7.2.2. için de geçerlidir. Denklem 7.2.2. verilen ifade, logaritma ölçekli eksenler kullanılarak çizgeye dönü türüldü ünde, sıralamanın (r) en yüksek de eri için e imi –B olan bir do ruya çok az hata ile uyum gösterir. E er denklemde, B=1 ve ρ=0 alınırsa aslen, Zipf birinci kanunu için Denklem 7.2.1.’de verilen ifadeye e it oldu u görülür. Mandelbrot tarafından, ifadede P = 105.4, B=1.15 ve ρ=100 parametre de erleri için Brown külliyatı ile en iyi uyumun yakalandı ı belirtilmi tir. 7.2.1. Zipf Güç Kanunları Günümüzde, geleneksel BGG sistemlerinin, e er hepsi de ilse, büyük bir kısmında, bir kelimenin metin içinde gözlenme sıklı ı, bu kelimenin metnin içeri ini temsildeki önemini belirlemede en temel B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 125 özellik olarak kullanılmaktadır. Ayrıca, görülme sıklı ı ile metin içeri ini temsildeki önem arasında ili kiye ait, Luhn tarafından ortaya atılan model de, en baskın olan, daha do rusu tek modeldir. Bu modelin kuramsal alt yapısı Zipf (1929; 1949) tarafından ortaya atılan birinci güç kanunudur. Zipf birinci kanunu, Denklem 7.2.1.1.’de bir do ru denklemi eklinde betimlenmi tir. log( f r ) = H N − B N log( r ) (7.2.1.1) Denklem 7.2.1.1.’de fr kelimenin gözlenme sıklı ını (bazı makalelerde fr göreceli frekans, yani kelimenin gözlenme olasılı ı olarak da yorumlanmaktadır. Bu anlamda iki yorum arasında ilke açısından bir farklılık olmaz.), r sıra numarasını, HN ise bir sayısal sabiti temsil etmektedir. HN derlem büyüklü üne (N) ba ımlı, ancak sıra numarasından (r) ba ımsız bir sabittir. Ayrıca, büyüklü ü artarak sonsuza giden bir derlem için, bu do ru uydurulmaya çalı ılırsa, BN de eri de derlem büyüklü üne ba ımlı olacaktır. Denklemden de anla ıldı ı gibi, Zipf, kelimelerin gözlenme sıklıklarının logaritması ile bu kelimelerin gözlenme sıklıkları sıralandı ı zaman ortaya çıkan sıra numaralarının logaritmaları arasında do rusal ili ki oldu unu belirtir. Bu do rusal ili ki, negatif bir e imine, -BN sahiptir, yani sıklık ile sıra numarası arasında ters orantı vardır. Aslen Zipf, bu kanunları ortaya koyarken, kelimelerin kar ıladı ı anlamların görüldükleri metnin içeri ini olu turmada önemleri konusuna, do rudan model olduklarını belirtmemi tir. Bu konu Luhn (1958; 1960) tarafından, Zipf kanunlarının bir uzantısı olarak ortaya konmu tur. Luhn, içeri i olu turan kelimelerin sıklıklarının, metnin içinde orta seviyeli oldu unu, çok yüksek ve çok dü ük frekanslara sahip kelimelerin içerik için önemli olmadı ını söylemi tir. Bu iddia, halen BGG sahasında geçerlidir ve yaygın ekilde de kullanılır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 126 Zipf tarafından ortaya atılan kuram üzerinde çok tartı ılan bir konu olmu tur (Herdan, 1960; Mandelbrot 1952, 1959; Simon, 1955) ve halen tartı ılmaktadır (Baayen 1996, 2001; Kornai, 2002; Powers, 1998; Samuelsson, 1996; Turner, 1997). Bazı yazarlar “Zipf kanunu” kelimesini sadece Denklem 7.2.1.1.’deki ili kide e imin bir oldu u, yani BN=1 oldu u durum için kullanmaktadırlar. Çünkü, e imin birden büyük olması (B >1), derlem için, açık kelime da arcı ı; e imin birden küçük olması (B < 1) ise kapalı kelime da arcı ı anlamına gelmektedir. Zipf tarafından ortaya konan ilk kanun ile yakından alakalı, bir ikinci Zipf kanunu daha vardır ve Zipf ikinci kanunu olarak adlandırılır. E er V(i,N), i kere rastlanan farklı kelime ekli/biçimi sayısı olarak kabul edilirse, i kere rastlanan farklı kelime ekli sayısı ile sıra numaraları arasındaki ili kiyi betimleyen, Zipf ikinci kanunu Denklem 7.2.1.2.’de verildi i gibi olacaktır. Denklemde verilen Zipf ikinci kanunu ile birinci kanununun yorumlanması benzer ekildedir. log(i ) = K N − D N log(V (i, N )) Hesaplamalı dilbilim sahasında Zipf (7.2.1.2) kanunlarına atıfta bulunuldu unda, genellikle inceledi imiz birinci ve nadiren de ikinci kanun kastedilir. Ancak, Zipf “en az gayret ilkesi” çerçevesinde ba ka kanunlarda ortaya atmı tır. Bunlardan biri, kelimelerin anlamlarının, gözlenme sıklıkları ile ili kili oldu udur. Bir ba ka söyleyi le, Zipf, bir konu macının anlatmak istedi ini, tüm anlamları kar ılayan tek bir kelime ile yapmayı tercih edece ini; ancak, dinleyicinin her anlam için tek bir kelime duymak isteyece ini belirtmi tir. Bu öyküde, tarafların e it etkilerinin oldu u kabul edilince, Zipf, bir kelimenin farklı anlam sayısının ϖ , frekansının karekökü ile do ru orantılı oldu unu, dolayısı B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 127 ile bir kelimenin farklı anlam sayısının, sıra numarası ile ters orantılı olup, ϖ = 1 / r denkleminden elde edilece ini söylemi tir. Zipf tarafından verilen bir di er kanun da, içeri i olu turan kelimeleri, metin içinde bazı yerlerde yı ılım gösterece idir. E er bir derlemde, her kelimenin metin içinde gözlendi i yerlerin araları satır veya sayfa sayıları cinsinden sıklık, F olarak ölçülürse; Zipf, belirli bir uzunlu un, I’nın derlem içinde gözlenme sıklı ı ile ters orantılı oldu unu belirtmi tir: Fα I − p (Zipf ngilizce için gözlenme sıklı ı en fazla 24 olan kelimeler için 260,000 kelimelik bir derlemde yaptı ı çalı mada p de erinin 1 ile 1.3 arasında de i ti i saptanmı tır). Bir ba ka söyleyi le, Zipf içerik kelimelerin metin içinde gözlemlendi i yerin ço unlukla bir di er gözlemlendi i yerle yakın oldu unu belirtmektedir. Bu olay, bilgi geri-getirim sahasında ta ma (burstness) olarak adlandırılır. çerik kelimelerin belirlenmesinde kullanılan bir özelliktir. Uygulama sahasında, çe itli yöntemlerle icra edilmektedir. Zaten, geleneksel geri-getirim yöntemleri içinde en yaygın olan, TFxIDF yöntemindeki IDF (Inverse Document Frequency – Devrik Belge Frekansı) etmeninin esas aldı ı kuramsal fikir de budur: bir kelime, bir belge toplulu u içinde ne kadar az belgede gözleniyorsa, o belge toplulu unda o kadar içerik kelime olma özelli i ta ıyor demektir. Mandelbrot (1952), klasik “maymun ve daktilograf” öyküsü üzerinden, Zipf birinci kanunu sınamı tır. Söz konusu öyküde kelimeler, daktilonun tu larındaki sembollerden birisi kelime sınırı olacak ekilde, elde edilecek en uzun sembol birli i olarak kabul edilmektedir. Mandelbrot, e er bu öyküde, yeni sembollerin rastsal olarak üretildi i kabul edilirse, Zipf birinci kanunu ifadesine ait e imin birden büyük oldu u durumda, (B > 1) uyumun sa lanabildi ini B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 128 ispatlamı tır. Ayrıca, Zipf birinci kanunun, derlemdeki detayları çok iyi modelleyemedi ini, sıra numarasının küçük de erleri için yukarıda, sıra numarasının büyük de erleri için de a a ıda kaldı ını belirterek, bu özellikleri daha iyi temsil eden, Zipf birinci kanunun bir türevi olan bir ba ka denklem ortaya koymu tur (Denklem 7.2.1.3.). log( f r ) = log( B − 1) + ( B − 1) log(W ) − B log( r + W ) (7.2.1.3) Mandelbrot, Zipf birinci kanununa yeni bir W>0 parametresi katmı tır. Bu parametrenin amacı, e imin birden büyük olması durumunda (B>1), göreceli frekansların toplamının bire e it olmasını sa layarak, gerçek bir olasılık da ılımını korumaktır (Aslen bu denklem, B>1 kabullenmesi ile geçerli olmaktadır). Bu düzeltme ile, kelimelere atanacak göreceli frekansların toplamı Denklem 7.2.1.4.’de verildi i ekilde bire e itlenmektedir. ∞ r =0 f r ∞ ≈ ( B − 1)W ( B −1) x − B dx = 1 (7.2.1.4) W Denklem 7.2.1.3.’de W parametresi sabit olarak alınsa dahi, do runun r > V (N ) oldu u alan üzerine, N (1− B ) / B kadar bir olasılık yo unlu u da ıtılacaktır. Ancak bu hata, derlem büyüklü ü (N) sonsuza giderken sıfıra e it olaca ından, büyük derlemler üzerinde yapılan çalı malarda W parametresi belirli sabit olarak alınabilmektedir. Dolayısı ile, Mandelbrot denkleminin uygulamaya daha yatkın bir biçimi, Denklem 7.2.1.5.’de verildi i ekilde tanımlanabilir. log( f r ) = log( PN ) − B N log(r + W ) (7.2.1.5) B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 129 7.3. Otomatik ndeksleme Bir indeks terimin anlamla ili kili iki i levi vardır: temsil ve ayırt etme. Temsil i levi ile, indeks terimin belge içeri ini olu turan muhtemel enformasyonu kar ılaması zorunlulu u eklinde tarif edilir (anma i levi). Ayırt etme i levi de, belge uzayındaki belgelerin birbirlerinden ayırt edilebilmesini mümkün kılmasıdır (duyarlılık i levi). Temsil ile ayırt etme arasında bir rekabet söz konusudur. Bir ba ka söyleyi le, e er bir terimin ayırt edicilik de eri dü ükse, belge toplulu undan çok sayıda belge sonuç olarak döndürülecektir, dolayısı ile sorgu ile alakalı belge veya belgeler alakasız belgelerin kalabalı ına gömülecektir. Aynı, ekilde e er bir indeks terimin ayırt edicili i çok yüksekse, sorgu ile direk alakalı olmayıp, ancak çok yakın ili kide olan belgeler sonuç kümesinde yer almayacaktır. Uygulamada, otomatik indeksleme ile amaçlanan bu iki i levin, yani temsil ve ayırt etmenin, rekabeti içindeki en yüksek de erlere ula maktır. Temsil ve ayırt etme de erlerini, rekabet içerisinde söz konusu en uygun de erlere çekmeyi hedefleyen pek çok indeks terim a ırlıklandırma yöntemi geli tirilmi tir (Manning and Schütze, 2003). Temsil i levi için, a ırlıklandırma yöntemlerinde yaygın olarak esas alınan indeks terim özelli i, indeks terimin gözlenme sıklı ıdır, yani frekanstır. Ayırt etme için çe itli yöntemler önerilmi tir: ters belge frekansı (inverse document frequency-idf), sinyal-gürültü oranı (signalnoise ratio) ve terim ayırt etme de eri (term discrimination value) bu yöntemlere verilebilecek yaygın kullanımı olan örneklerdir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 130 Ters belge frekansı (idf) ile belge ayırt etme i levinin a ırlıklandırma için kullanımı, Bölüm 6.1.’de, yani vektör uzayı geri getirim modeli incelenirken gösterilmi ti. Bu ayırt etme yönteminin esas aldı ı fikir: bir terimin, derlem içinde gözlendi i belge sayısı azaldıkça, gözlendi i belgeler açısından ayırt edicili inin artaca ı eklindedir. Bir indeks terim, k için, ters belge frekansı de erinin hesaplanmasına yönelik Sparck Jones (1972) tarafından önerilen ifade, Denklem 7.3.1.’de gösterilmi tir. idf k = 1 + log 2 n = 1 + log 2 n − log 2 nk nk (7.3.1) “idf” için verilen denklemde n, derlemdeki toplam belge sayısı, nk ise, k indeks teriminin gözlendi i belge sayısıdır. Ters belge frekansı ölçü olarak bir indeks terimin tüm a ırlı ı olarak kullanılmaz. Bunun sebebi, örne in belge sayısı olarak sıklıkları aynı olan terimlerin tamamı, idf de eri olarak e itlenir. Ancak, terimlerin her biri, her belgede aynı sıklıkta gözlenmezler. Dolayısı ile, terimlerin belge içinde gözlenme sıklılıkları ile ters belge frekansları birlikte kullanılır. Bu birlikte kullanım TFxIDF olarak adlandırılır ve Denklem 7.3.2.’de verilmi tir. wi ,k = tf i ,k × [1 + log 2 n − log 2 nk ] = TF × IDF (7.3.2) Robertson ve Sparck Jones (1997), TFxIDF a ırlıklandırma emasında belgelerin uzunluklarını da hesaba katan bir geli tirme önermi leridir. Bu a ırlıklandırma emasında, üç enformasyon kayna ı kullanılmı tır: derlem frekansı (IDF), terim frekansı (TF) ve belge uzunlu u. Bu indeks terim a ırlıklandırma emasında, farklı olarak belge uzunlu unu kullanımının arkasındaki fikir, uzun ve kısa belgeler B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 131 arasında, terimlerin gözlenme frekansları arasındaki farkın, terimin “önem” ba lamına etkisinin olmadı ı, dolayısı ile uzun belgelerle, kısa belgeler arasında bir aynı ölçekte ölçüm alınması için frekansların normalle tirilmesidir. Belge uzunlukları, içerdikleri terim sayısı cinsinden ölçülmektedir. Dolayısı ile, i belgesindeki toplam terim sayısı, BUi ile temsil edildi inde, bu i belgesi için normalle tirilmi belge uzunlu u, “NBUi = BUi / (ortalama belge uzunlu u)” eklinde hesaplanmaktadır. Normalle tirilmi katıldı ı a ırlıklandırma eması, belge uzunlu unun da hesaba k terimi için, Denklem 7.3.3.’de verilmi tir. wi ,k = tf i ,k ⋅ idf k ⋅ ( K1 + 1) (7.3.3) K1 ⋅ (1 − b + b ⋅ ( NBU i )) + tf i ,k Denklemde, K1 ve b uyarlama sabitleridir. K1 sabiti ile terim frekansının etkisi geni letilir. Bu sabitin, en iyi de eri belirlenmi bir derlem üzerinde yapılan denemelerle tespit edilir. TREC (Text Retrieval Conferences) çalı maları sırasında, K1=2 de erinin etkin bir de er oldu u tespit edilmi tir. Uyarlama sabitlerinden ikincisi olan b ise, belge uzunlu unun etkisini ayarlamaktadır. Bu sabit 0 ile 1 arasında de i mektedir. E er, b=0 olursa, belgelerin birden fazla konu ba lı ı içermesi dolayısı uzun oldu u kabul edilir. E er, b=1 olursa, belgelerin tekrarlar yüzünden uzun oldu u kabul edilmi olur. TREC çalı malarında b=0,75, en uygun de er olarak saptanmı tır. Buckley (1996) ve arkada ları tarafından, TREC-4 çalı malarında tanıtılan bir di er indeks terim a ırlıklandırma yöntemi de ltu emasıdır (Denklem 7.3.4.). B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 132 wi ,k = (log(tf i,k ) + 1) ⋅ idf k (7.3.4) 0.8 + 0.2 ⋅ NBU i Bir di er TFxIDF türevi a ırlıklandırma eması da, Okapi olarak adlandırılandır (Robertson and Walker, 2000). Okapi, kuram olarak Poisson da ılımını esas almaktadır, daha do rusu 2-Poisson olarak adlandırılan terim da ılım yakla ımına dayanmaktadır (Van Rijsbergen, 1979). Okapi a ırlıklandırma eması ile, bir terimin bir belge için a ırlı ı Denklem 7.3.5.’de verilmi tir. wi ,k tf i ,k 0.5 + 1.5 ⋅ NBU i + tf i ,k log( N − idf k + 0.5 ) idf k + 0.5 (7.3.5) Sinyal-gürültü oranı, sinyal-enformasyon kuramını esas alır (Bölüm 3.2.3). Sinyal-enformasyon fikrinde, bir kelimenin gözlenmesi olasılı ı arttıkça, ta ıdı ı, yani kar ıladı ı enformasyon de eri dü er. Sinyal-enformasyon fikri ile benzer ekilde, bir terime k, ait gürültü de hesaplanabilir (Denklem 7.3.4). Gürültük = n tf i ,k i =1 Fk log 2 Fk tf i ,k (7.3.4) Denklem 7.3.4.’deki ifadede, Fk, k teriminin derlem içindeki toplam gözlenme sıklı ı, tfi,k ise i belgesinde k teriminin gözlenme sıklı ıdır. Derlemdeki toplam belge sayısı n ile temsil edilmi tir. Bir içeri i temsil etmeyen, yani i levsel olan kelimeler derlem içerisinde daha yaygın gözlenece i için, sahip oldukları gürültü de eri de yüksek olacaktır. Dolayısı ile bir k terimin sinyal de eri hesaplanırken, gürültünün tersi, yani tamlayanı kullanılabilir (Denklem 7.3.5.). B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 Sinyalk = log 2 Fk − Gürültük 133 (7.3.5) E er, bir belgenin indeks terimlerine ait sinyal de erleri büyükten küçü e sıralanırsa, belge uzayında çok az belgede gözlenen ve sıralama yapılan belgeyi ayırt edenlerinin çok yüksek sinyal de erlerine sahip oldu u görülür. Temsil ile ayırt etmenin enformasyonunu birlikte kullanmak için sinyal de eri, terimin frekansı ile çarpılır (Denklem 7.3.6.). wi,k = tfi,kxSinyalk (7.3.6) Terim ayırt etme de eri, belirli bir terimin, bir belgeyi di erinden ayırt etmek için ne kadar enformasyon sa ladı ının bir ölçüsüdür. Bir terimin k, ayırt etme de eri, ADk, iki belgenin benzerli ini içerdikleri terimler üzerinden hesaplanması ile elde edilen benzerlik de eri, BD ile, k terimi belgelerden çıkarıldıktan sonra hesaplanan benzerlik de eri, BDk, kar ıla tırılarak hesaplanabilir (Denklem 7.3.7.). ADk = BDk - BD (7.3.7) Ayırt etme de erleri hesaplanan terimler, daha sonra üç gurup altında toplanır: 1. Ayırt edicilik de eri pozitif olan terimler. Bu terimler, güçlü indeks terimlerdir. 2. Ayırt edicilik de eri sıfır olan terimler. Bu terimlerin indeks terimler listesinden çıkartılması veya bırakılması belgeler arası benzerli i etkilemez. 3. Ayırt edicilik de eri negatif olan terimler. Bu terimler, zayıf indeks terimlerdir ve çıkartılmaları belgelerin benzerli ine katkıda bulunmaktadır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 134 Terim ayırt etme de eri de, öncekilerde oldu u gibi yine terimlerin frekansı ile çarpılarak indeks terim a ılı ı olarak kullanılabilir (Denklem 7.3.8.). wi,k = tfi,k x ADk (7.3.8) 7.3.1. ndekslemenin Kapsamı ve Terim Öznelli i. Geleneksel olarak, bir indeksleme sisteminin ba arımının iki etmene ba lı oldu u dü ünülür: indekslemenin kapsamı ve terim öznelli i. Kapsamlı bir indeks, çok sayıda indeks terim içerir, fakat kapsamı dar olan bir indeks, sadece en önemli konuları, kavramları kar ılayan indeks terimleri içerir. Daha kapsamlı bir indeks demek, daha fazla belgenin geri-getirilece i anlamına gelir ve anma de eri yükselir. Aynı zamanda, geri-getirilen belgeler arasındaki alakasız belgelerin oranı da artar, dolayısı ile duyarlılık azalır. Anma ve duyarlılık arasındaki rekabet bu ba lamda ortaya çıkar. Di er taraftan, terim öznelli i, indeks terimlerin konu ve ba lıkları kesinlik içerisinde kar ılayabilmeleri ile alakalıdır. E er indeks terimler çok yüksek de erlerde öznelli e sahiplerse, bu duyarlılı ı arttırabilir, yani çok az sayıda belge geri-getirilece i için ço u sorgu ile alakalı olacaktır. Geni anlam içeren terimler, dar anlam kar ılayan terimlerde oldu u ekilde alakalı dokümanlarla, alakasızlar birbirinden ayırt etmekte kullanılamazlar. Dar ve öznel terimlerin kullanılması anmaya etki eder, bunun sebebi ise, alakasız belgelerle birlikte bir çok alakalı belgenin de geri-getirilmemesidir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 135 Ayırt edicilik de eri sıfıra yakın, dü ük frekanslı, dar anlamlı kelimeleri, e anlamlı kelimeler sözlü ü kullanarak daha geni bir gurup altında toplamak mümkündür. Aynı ekilde, ayırt edicilik de eri negatif olan, yüksek frekanslı, geni terimleri de, bir araya getirerek, yani kelime gurubu olarak de erlendirerek kullanmak mümkündür. Örne in, “i ” ve “güç” kelimelerini tek ba larına dü ündü ümüzde, kavram olarak çok geni tirler. Ancak “i gücü” eklinde ele alındı ında, ekonomide kullanılan bir kavramı kar ılarlar ve tekil oldukları durumdan daha dar bir terimsel anlam kar ılarlar. 7.3.2. Kelime Gurupları ile ndeksleme Tek kelimeden ibaret indeks terimler yerine, iki veya daha fazla kelimeden olu mu , kelime gurupları ile indeks terim olu turmak, gerigetirim duyarlılı ını artırıcı bir etki yaratır. Tekil kelimelerden indeks terimler yaratmak iki çe it meseleyi gündeme getirmektedir (Zhai et al., 1997): 1. Tek kelimeden olu an indeks terimler yanıltıcı olabilir. Sözcüksel atom11 ba lamında, örne in “hot dog” (sosisli sandviç), kelime gurubunu olu turan bireysel kelimeler birlikte kar ıladıkları anlamı ta ımamaktadır ve bireysel olarak indeks terim olarak kullanılırlarsa, çok yanıltıcı olurlar. 11 Zhai ve Evans, “sözcüksel atom” terimini, anlamca tutarlı kelime gurubu olarak tanımlamaktadır. Sözcüksel atomlar, özel isimlerde, deyimlerde ve bir çok isim tamlamasında bulunabilmektedir. Sözcüksel atomu olu turan kelimelerin, tekil anlamları ile, birlikte ifade ettikleri anlam arasında bir ili ki yoktur. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 136 2. Çok genel olabilirler. Örne in, bireysel kelime olarak “junior” (çömez) ve “college” (yüksekokul) kelimeleri, “college junior” (yüksekokul çömezi, yani yüksekokulda yeni olan, tecrübesiz) kelime gurubunu, “junior college” (yüksekokul, yani üniversitenin ilk iki yıllık e itimini veren yer) kelime gurubundan ayırt etmek için çok genel kalmaktadır. Zhai ve arkada ları, yukarıdaki tespitlerin ardından, iki hipotez öne sürmü lerdir: 1. Sözcüksel atom ba lamındaki kelime guruplarının, onları olu turan bireysel kelimeleri yerine indekslenmesi, hem duyarlılı ı hem de anmayı arttırır. 2. Bireysel kelimeleri desteklemek için, sözdizimsel kelime guruplarını kullanmak, örne in “junior college”, anmaya bir ters etkide ekildeki kelime bulunmadan, duyarlılı ı arttıracaktır. Bu guruplarının sayısını arttırmak, duyarlılıktaki ilerlemeyi arttıracaktır. Bu hipotezler, TREC-5 çalı malarının do al dil i leme aya ında, Zhai ve arkada ları tarafından test edilmi tir (CLARITTM takımı12). Sonuçlar göstermi tir ki, bireysel kelimeler yerine sözcüksel atomların kullanılması, ortalama duyarlılıkta az da olsa tutarlı bir artı ın oldu unu göstermi tir. Di er taraftan, bireysel kelimelerin, sözdizimsel kelime gurupları ile desteklemesi, geri-getirim ba arımında tutarlı ve anlamlı bir artı ortaya koymu tur. Ancak, kelime guruplarının eklenmesi bazı sorguların lehine olurken, bazı sorguların aleyhine sonuçlar vermi tir. Kelime guruplarının faydasının en yüksek oldu u durumlar, aynı 12 CLARIT, CLARITECH firmasının kayıtlı ticari markasıdır ve ComputationalLinguistic Approaches to Retrieval and Indexing of Text için akronomidir. Bu sistem Carnegie Mellon Üniversitesinde geli tirilmi tir (Laboratory of Computational Linguistics, CMU Pittsburgh). B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 137 kelime gurubunun hem sorguda hem de belgede gözlendi i zamanlar olmu tur. Bilgi geri-getirim sistemlerinin ço u tekil kelimeleri indeksleme için kullanır. Ancak, sıklıkla indekslere, basit istatistiksel yöntemlerle tespit edilmi kelime gurupları da destek olmak amacıyla alınır. Dilbilimsel yöntemlerle tespit edilecek kelime guruplarının, gerigetirim ba arımı üzerinde daha etkili sonuçlar verece i dü ünülebilir. Fakat, TREC çalı malarında, dilbilimsel yöntemler, istatistiksel yöntemlerden anlamlı ekilde farklılık yaratamamı tır. Basit ve klasik kelime gurubu olu turma yöntemlerinden biri, SMART sistemi içinde kullanılan yöntem olan, gövdelenmi kelimelerin yan yana getirilmesidir. ndeksleme için kullanılacak olan kelime gurupları, gözlenme sıklı ı yüksek olanlardan seçilmekte ve daha sonra, bireysel kelimelerin, indeks terim olarak a ırlıklandırılması ile aynı ekilde a ırlık hesaplanmaktadır (Buckley et al., 1995). Xerox takımı bu basit SMART yöntemi ile hafif ayrı tırma (light parsing) yöntemini TREC-5 çalı masında kar ıla tırmı tır. Sonuç olarak, öni lem a amasında çok zaman harcama pahasına, hafif ayrı tırmanın, basit SMART yöntemine göre nispeten daha iyi oldu u bulunmu tur. Hull ve arkada ları (1997) u sonuçlara varmı lardır: “Her eye ra men, bir çok sebepten ötürü, bu yakla ımın uzun vadede kullanı lı olaca ı konusunda iyimseriz: 1-) ngilizce dı ındaki bir çok dilde, Bilgi geri-getirim sahasından daha yo un bir ekilde, dilbilim sahasında çalı malar yapılmaktadır. Bu diller için geli tirilen biçimbirimsel analiz yordamları, basit gövdeleme yordamlarını, ngilizce için geli tirilmi gövdeleme yordamları kadar ya lanınca, ba arım olarak geçeceklerdir. 2-) Bilgisayarlar daha güçlü hale geldikçe, i lem zamanları dü meye devam edecek, dolayısı ile karma ık metin analizlerini ekonomik olarak mümkün hale getirecektir.” (Hull et al., 1997) B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 138 7.4. Hesaplamalı Dilbilim Yöntemleri. Son yıllarda, çok farklı bilgi geri-getirim teknikleri, TREC (Text REtrieval Conferences) çalı maları içerisinde sınandı ve kar ıla tırıldı. Örne in, 1997 yılında düzenlenen TREC-6 çalı masına, 12 ülke ve 21 firmadan 51 ki i katılmı tır (Voorhees and Harman, 1998). Tüm katılımda bulunan takımlar, aynı talim ve test malzemelerini kullanmı lardır. Böylece, sonuçlar birbiri ile kar ıla tırılabilmi tir. Sparck Jones (1995), a a ıdaki noktalara de inerek TREC deneylerinin sonuçlarını vermi tir: 1. Model ile ilgili sorular. 1.1. Dilbilimsel esasa dayalı modeller, istatistik esasındaki modellerden daha iyi midir? CMU’nun çalı ması (CLARIT), dilbilimsel yöntemlerinde iyi ba arım de erlerine ula tı ını göstermi tir, ancak istatistiksel yöntemlerden daha iyi de ildir. 1.2. Dilbilimsel esasa dayalı kelime gurupları, e le tirme ile olu turulanlardan daha de erli midir? Dilbilimsel esasa dayalı kelime guruplarının kullanımı, yan yana olma ile belirlenen kelime guruplarının kar ısında bir kazanç sa lamamı tır 2. Kelime da arcı ı ile ilgili sorular. 2.1. Bireysel kelimelerle indeks terim olu turma kar ısında, kelimeleri de i ik biçimlerde indeksleme fayda getirir mi? Bazı çalı malarda az da olsa ba arım artırımı sa lanmı tır, ancak bireysel kelime indekslemeden anlamlı ekilde farklılık ortaya konmamı tır. 2.2. Dilbilimsel bilginin artırımı gerekli midir? Elle olu turulan e anlamlılar sözlü ü, anlamlı bir ba arım artırımı sa layamamı tır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 139 3. Tanımlama ile ilgili sorular. 3.1. Dilbilgisine dayalı indeksleme yöntemleri, istatistik esaslı indeksleme yöntemleri kar ısında daha etkili midir? Belge terimlerinin seçiminde kullanılan yöntem içinde, dilbilgisi özellikleri açık bir kazanç sa lamamı tır. 3.2. statistiksel veya dilbilimsel kelime gurupları, bireysel kelimelere göre daha iyi midir? Bireysel kelimelere nazaran, kelime guruplarının kullanımı az da olsa lehte sonuçlar vermi tir. Strzalkowski ve arkada ları (1998), do al dil bilgi geri-getirim için düzenlenen TREC-6 çalı masının sonuçlarını öyle özetlemektedir: “Çalı malardan edindi imiz temel tespit, do al dil i leme tekniklerinin, daha iyi indeksleme, sorgulara ait terimlerin daha iyi temsil edilmesi gibi beklentilerimizin çok uza ında sonuçlar vermemi oldu udur. Dilbilimsel birliklerin kullanılması, örne in kelime gurupları, ba -niteleyen çiftleri ve isimler geri-getirim duyarlı ının geli tirilmesine yardımcı olmu tur, ancak kazanım çok az düzeylerdedir.” (Strzalkowski et al., 1998) Yukarıdaki alıntılar, do al dil i leme veya di er adıyla hesaplamalı dilbilim yöntemlerinin, bilgi geri-getirim içerisindeki durumunu özetlemektedir. TREC ba lamındaki çalı malardan elde edilen sonuçlar, hesaplamalı dilbilim yöntemlerinin etkileri konusunda sonuçsuz kalmaktadır. Ancak, bu durum hesaplamalı dilbilim esasında bilgi geri-getirim çalı malarının faydasız veya nafile u ra lar oldu u anlamına gelmemektedir. TREC içerisindeki en iyi sistem bile, öngörülen ula ılabilir ba arım seviyesine varmamı tır. Dolayısı ile, geri-getirim tekniklerinin geli tirilmesine olan ihtiyaç ilk zamanlardaki kadar kuvvetlidir. 140 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 8. BA ARIM ÖLÇÜTLER 141 Bilgi geri-getirim sistemlerinin ana hedefi kullanıcının, yani insanların enformasyon ihtiyaçlarını kar ılamaktır. Bir insanın kendi ihtiyaçları ile alakalı buldu u enformasyon, bir ba ka kullanıcı için pek o kadar da alakalı olmayabilir. Hatta, insanlar sıklıkla verilen bir sorgu ile geri-getirilen belgelerin alakalı oldukları konusunda anla mazlık gösterirler (Hersh et al., 1995). nsanlar arasındaki anla mazlı ın ortaya çıkması ihtimali, belgeler ile sorgular arasındaki alakanın mutlaklıktan, bir derece alakalı olu a do ru gidi i yönünde artı gösterir. Ayrıca, alaka sadece sorgu ve eldeki belge toplulu una ba lı da de ildir, alakaya karar veren ki inin o anki istekleri, yani ihtiyaç ba lamı ile de yakından ili kilidir. Belirtildi i gibi, “BGG sistemlerinin hedefinde insanların enformasyon ihtiyacını kar ılamak” oldu u için, öznellikten kurtulmanın bir yolu da yoktur. Bu yüzden, bilgi geri-getirim sistemlerinin ba arımlarının ölçülmesi kendi do asında içinde, sorunlu bir durum te kil eder. 8.1. Anma ve Duyarlılık Esasında Ölçüt Türleri. BGG sistemlerinin, ba arımlarının de erlendirilmesinde yaygın olarak kullanılan yöntemler, anma (recall) ve duyarlılık (precision) fikrini esas almaktadır (Baeza-Yates and Ribeiro-Neto, 1999). Bu yüzden, BGG sistemlerinin ba arım ölçütlerini vermeden önce, anma ve duyarlılık fikrinin tanıtılmaya ihtiyacı vardır. BGG u ra sahasında geri-getirim meselesi, u ekilde kurgulanabilir: bir sorgu kar ısında, eldeki belge uzayı içinde alakalı olan belgeler toplulu unu hedef kümesi olarak; sistemin, belge toplulu undan seçerek kullanıcıya B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 142 döndürdü ü belge toplulu unu da, seçim kümesi olarak adlandırdı ımızı kabul edelim. Söz konusu durum, ekil 8.1.1.’de gösterildi i gibi çizge olarak betimlenebilir. Belge toplulu u içindeki her belge için, sistem tarafından seçilmi “olma” ve “olmama” ile sorgu ile alaka açısından, hedefte “olma” (alakalılar) ve “olmama” (alakasızlar) durumları birbirinden ba ımsız olarak geçerlidir. E er seçim (S) ve hedef (H) ile yapılan sınıflandırmayı iki olasılık de i keni olarak tanımlarsak, bu iki olasılık de i keninin, belge uzayı üzerindeki birle ik da ılımları bir 2x2 ihtimal tablosu (Çizelge 8.1.1.). Seçilen Belge Toplulu u eklinde özetlenebilir Hedef Belge Toplulu u yp dp yn dn Belge Uzayı (B) ekil 8.1.1. Anma ve duyarlılık ölçümlerini betimleyen çizge. Seçilen = yp + dp; Hedef = dp + yn; dn = B - (Seçilen+Hedef). Seçim, S de i keni belge uzayını seçilmi ve seçilmemi olmak üzere iki parçaya ayırır. Hedef, H de i keni de, belge uzayını, gerçekte sorgu ile alakalı olanlar ve olmayanlar diye iki parçaya ayırır. Dolayısı ile, belgelerin her biri için seçilmi olma/olmama ve hedefte olma/olmama eklinde ikili bir sınıflandırma, yani dört guruptan birine B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 143 ait olma durumu söz konusu olur. Bu guruplar: seçilmi ancak gerçekte alakasız olan belgeler, yani yanlı -pozitifler (yp); seçilmi ve gerçekte de alakalı olan belgeler, yani do ru-pozitifler (dp); seçilmemi ancak gerçekte alakalı olan belgeler, yani yanlı -negatifler (yn); seçilmemi ve gerçekte de alakasız olan belgeler, yani do ru-negatiflerdir (dn). Çizelge 8.1.1: Seçilmi (S) ve hedef (H) olasılık de i kenlerinin birle ik da ılımının 2x2 olasılık tablosu olarak gösterimi. Gerçek Sistem Alakalı (h) Alakasız (~h) Toplam Seçilmi dp yn dp+yn yp dn yp+dn dp+yp yn+dn Seçilmemi Toplam Duyarlılık (D), bir sistemin seçti i, gerçekte alakalı belge sayısının (dp ), toplam seçilmi belge sayısına (dp+yp) oranı eklinde tanımlanır: D= dp dp + yp (8.1.1) Anma (A), bir sistemin seçti i, gerçekte alakalı belge sayısının (dp), toplam hedef belge sayısına, yani gerçekte alakalı olan toplam belge sayısına (dp+yn) oranı eklinde tanımlanır: A= dp dp + yn (8.1.2) Sistemlerin ba arımı, anma ve duyarlılık ile de erlendirilirken, genellikle iki ölçüt birbiri ile rekabet içinde kullanılır, yani bir sistemde B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 144 her ölçütünde en iyi de erleri yakalanmaya çalı ılır (Belge uzayındaki tüm belgeleri geri-getiren (seçen) bir sistem çok yüksek bir anma de erine sahip olur, ama çok dü ük bir duyarlılı ı olacaktır.). Bir sistem için iki ölçütün söz konusu rekabeti, temsili olarak ekil 8.1.2.’de betimlenen çizgeye benzer ekilde olacaktır. 1 D 0 1 A ekil 8.1.2. Bir sistem için anma (A) ve duyarlılık (D) ölçütleri arasındaki rekabetin temsili çizgesi. Anma ve duyarlılık ölçülerini, iki ayrı ölçüt olarak ele alıp, bir sistemin ba arımını aralarındaki rekabet ile izah etmenin yanında, iki ölçütü birle ik olarak, yani tek bir ölçüt eklinde tanımlamak ve kullanmak mümkündür. Bunun bir yolu, van Rijsbergen (1979) tarafından tanıtılan E-ölçüsünden türetilmi F-ölçüsünü ( F = 1 – E ) kullanmaktır: F= 1 α 1 1 + (1 − α ) D A (8.1.3) B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 145 Denklem 8.1.3’de, α ile gösterilen de er, anma (A) ve duyarlılık (D) ölçütlerinin, F-ölçütüne katkılarının a ırlı ıdır. A ırlı ın, yani α de erinin 0.5 seçilmesinin anlamı A ve D ölçütlerinin katkısını e itlemek demektir. A ırlıkları e itlenmi , A ve D ölçütleri ile Fölçütü’nün sadele tirilmi hali 2 AN /( A + N ) biçiminde olur. Yukarıda bahsi geçen ölçütlerin dı ında, ekil 9.1.1. ile betimlenen anma ve duyarlılık çizgesinden, ba ka ba arım ölçütleri türetmek de mümkündür. Do ruluk (accuracy) ve hata (error) oranları türetilebilecek ölçütlerden ikisidir. Do ruluk oranı (DO), belirli bir sistemin, toplam do ru seçiminin (dp+dn), belge uzayındaki toplam belge sayısına (B) oranıdır: DO = dp + dn dp + dn + yp + yn (8.1.4) Hata oranı (H), söz konusu sistemin toplam yanlı seçiminin (yp + yn), belge uzayındaki toplam belge sayısına oranıdır: HO = yp + yn dp + dn + yp + yn (8.1.5) Ancak do ruluk ve hata oranlarının, ba arım ölçüsü olarak kullanılmasında sakıncalar vardır. Söz konusu ölçütlerde, dn içindeki belge sayısının, yani hem seçim kümesinde, hem de hedef kümesinde yer almayan belgelerin sayısının, di er de erlere nazaran çok büyük olması, ölçütün sonuç de erlerinin çok küçük olmasına sebep olur. Anma ve duyarlılık ölçütlerinin, do ruluk ve hata ölçütleri yerine BGG sistemlerinin ba arım ölçüsü olarak kullanılmasının faydaları öyledir: B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 146 • BGG sistemleri açısından önemli olan dp, yp ve yn de erleri sayısal olarak küçüktür; Do ruluk oranı, küçük sayısal de er de i imlerine çok fazla duyarlı de ildir, fakat duyarlılık ve anma bu konuda hassastır. • Di er durumlar e itken, F-ölçütü daha çok do ru seçilmi gerçekte alakalı, yani pozitif hedef belgesi oldu u durumları gözetir. Buna kar ın, do ruluk oranı sadece hatalara kar ı hassasiyet gösterir. Ancak, BGG sistemlerinde amaçlanan sorgu ile alakasız belgelerin seçim kümesine alınmı olması pahasına, alakalı belgelerin seçim kümesinde olmasıdır. Bir ba ka söyleyi le, seçim kümesine hiçbir belgeyi almayan bir BGG sisteminin, do ruluk oranı %100 olacaktır, ancak hiçbir belgenin seçilmemesi istenen bir durum de ildir. • Duyarlılık ve anma ölçütlerinin kullanımı, BGG sistemlerinin de erlendirilmesinde, seçilmemi alakalı belgelerin de maliyet cinsinden de erlendirmeye katılabilmesine imkan tanımaktadır. Çizelge 9.1.2.’de anma (A), duyarlılık (D), F-ölçütü (α=0.5) ve do ruluk (DO) oranının 1000 belgelik örnek bir belge uzayı için hesaplamaları listelenmi tir (Manning and Schütze, 2003). Anma ve duyarlılık fikrini esas alan, ancak nadir kullanılan bir sistem ba arım ölçütü de, seçilenlerden gerçekte alakasız olan belgelerin sayısının (yp), tüm alakalı, yani hedef kümesinde olan belgelerin sayısına (yp+dn) oranı ile hesaplanan yanlı a dü me (Y: fallout) ölçütüdür: Y= yp dn + yp (8.1.6) B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 147 Çizelge 9.1.2: 1000 belgelik örnek bir belge uzayı için anma (A), duyarlılık (D), F-ölçütü ( α=0.5) ve do ruluk (DO) oranı ölçüm listesi. Üstteki, (a) listede artan F-ölçütü kar ısında dü en do ruluk oranı, alttaki, (b) listesinde e it do ruluk oranı varken artan F-ölçütü verilmi tir. F-ölçütü “seçilmi alakalı belgelerin”, (dp) ço almasına duyarlı iken, do ruluk oranının, sadece sınıflandırma hatasına duyarlılık göstermektedir. dp yp 25 0 D yn dn A F DO 125 850 1.000 0.167 0.286 0.875 50 100 100 750 0.333 0.333 0.333 0.800 (a) 75 150 75 700 0.333 0.500 0.400 0.775 125 225 25 625 0.357 0.833 0.500 0.750 150 275 0 575 0.353 1.000 0.522 0.700 dp yp D yn dn A 50 0 100 850 1.000 0.333 75 25 75 825 0.750 0.500 100 50 50 800 0.667 0.667 150 100 0 750 0.600 1.000 (b) F DO 0.500 0.600 0.667 0.750 0.900 0.900 0.900 0.900 Yanlı a dü me (Y) ölçütü, bazı durumlarda, seçilmi ancak gerçekte alakasız belge sayısı küçük, yani yp de eri dü ük olan bir sistemin, gerçekle tirilmesinin ne kadar güç oldu unu göstermek için de kullanılır. E er, hedef kümesinde yer almayan belgelerin sayısı (dn+yp) çok büyükse, yn de erinin dü üklü ünden, yani seçilmemi ancak alakalı olan belge sayısının azlı ından kaynaklanan, dü ük anma de eri kaçınılmaz olur. Bir ba ka söyleyi le, arka plandaki, hedef küme dı ında kalan belge yı ının çok büyük olması sebebiyle, bazı belgelerin yanlı sınıflandırılması kaçınılmaz olur. Anma (A) ve duyarlılık (D) ölçütleri rekabetine benzer ekilde, yanlı a dü me (Y) ve anma (A) ölçütlerinin de rekabeti ile sistem ba arımlarını de erlendirmek mümkündür. Söz konusu ölçütlerle yapılan de erlendirme, de i ik yanlı a dü me (Y) de erlerinin, anma B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 148 (A) de eri üzerindeki etkisini ortaya koyacaktır. Bu durum, öncül etmenlere (örne in öncül sarsıntılar, vb.), duyarlılı ı sabitlenebilen bir deprem tahmin edicisi üzerinden örneklenebilir. Belirli bir öncül etmen duyarlılık ayarında, verilen bir yanlı a dü me (Y) de erine kar ılık gelen anma (A) de eri, deprem tahmin edicisinin tespit etmesi beklenen ortalama do ru deprem sayısını, oran olarak temsil eder. Yani, belirli bir öncül etmen duyarlılık ayarında, yanlı a dü me de eri 100 deprem alarmında 1 tane olan bir deprem tahmin edicisi için, herhangi bir ki i, kar ılık gelen anma de erine göre, örne in 0.05 olsun, alarmlardan %95’inin gerçek deprem alarmı, %5’inin yanlı deprem alarmı olmasını bekleyecektir. Yanlı a dü me (Y) ölçütü bir sistemin hedef kümesi dı ındaki belgeleri, reddetmede ne kadar ba arılı oldu unun bir ölçütü olarak da yorumlanabilir (Blair, 1990). 8.2. Anma ve Duyarlılık Esasında Ba arımın Ölçümü. BGG sistemlerinin ba arımı, geri-getirilen (seçim kümesi) belgeler kümesinin, kullanıcıya sıralı bir liste eklinde çıktı olarak sunulması a amasında, sorgu ile alakalı belgelerin alakasız belgelerden ne kadar önce sıralamaya alındı ı esasına dayalı olarak ölçülür. Bir ba ka söyleyi le, BGG sistemlerinin ba arımı, geri-getirilen belgeler kümesindeki belgelerin kendi içlerinde ne ekilde sıralandı ı esasına dayanan ölçütlerle de erlendirilir, yani sıralama esaslı ölçütlerdir. Çizelge 9.2.1.’de BGG sistemleri için sıralamanın neden önemli oldu u ba arım ölçümleri üzerinden örneklenmi tir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 149 Çizelge 9.2.1: BGG sistemlerinin sıralama esasına dayalı de erlendirme örne i. Sütunlarda belgelerin farklı üç sıralaması bulunmaktadır: √ simgesi belgenin alakalı oldu unu, × simgesi alakasız oldu unu göstermektedir. Sıra_1 d1: √ d2: √ d3: √ d4: √ d5: √ d6: × d7: × d8: × d9: × De erlendirme Ölçütü d10: × 5 belgede duyarlılık 1 10 belgede duyarlılık 0.5 ara-de er-tahminsiz 1 ortalama duyarlılık ara-de er-tahminli 1 ort. duyar. (11-nokta) e it-ölçek sıralaması 1 Sıra_2 d10: × d9: × d8: × d7: × d6: × d1: √ d2: √ d3: √ d4: √ d5: √ 0 0.5 Sıra_3 d6: × d1: √ d2: √ d10: × d9: × d3: √ d5: √ d4: √ d7: × d8: × 0.4 0.5 0.3544 0.5726 0.5 0.644 0 0.56 Çizelge 9.2.1.’de sıralamalar 5 ayrı ölçüte göre de erlendirilmi tir: 5 belge de duyarlılık, 10 belgede duyarlılık, ara de er-tahminsiz ortalama duyarlılık, ara-de er-tahminli ortalama duyarlılık (11-nokta) ve e it-ölçek sıralaması. Örnek verilen 10 belgeyi sadece yalın duyarlılık (%50) ile ölçtü ümüzde, geri-getirim kümesinde (seçim) 5 alakalı ve 5 alakasız belge oldu undan, üç sıralama da birbirinden farksız çıkıyor. Ancak, geri-getirilen belgelerin sonuç listesi oldu u dü ünüldü ünde, sıralanı ları ile paralel olarak yukarıdan a a ıya do ru göz-atan bir kullanıcı için, 1. sıralamanın, 2. sıralamadan daha iyi oldu u çok açıktır. Bu durum, herhangi bir kullanıcının, örne in Web sayfalarını tararken sıklıkla yaptı ı göz-atma eklidir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 150 BGG sistemlerinin ba arım ölçümü için tanıtaca ımız ölçütlerden ilki, belirli bir kesme (cutoff) de erine kadar olan belgeler üzerinden duyarlılık hesaplanmasıdır. Çizelge 9.2.1.’de 5 ve 10 kesme de erleri için duyarlılık hesaplanmı tır (di er kullanımı yaygın kesme de erleri 20 ve 100 belgedir.). Bu ölçütle, bir sistemin geri-getirim sonuç kümesinde yaptı ı sıralamanın, birçok farklı uzunluktaki ba langıç parçasına bakarak, sistemin alakalı belgeleri alakasız belgelerden önce ne derece bir ba arımla sıraladı ı konusunda fikir sahibi olunur. Ara-de er-tahminsiz ortalama duyarlılık (uninterpolated average precision), bir çok duyarlılık de erini tek bir sınama de erine kümelemektedir: sıralamanın ba ından itibaren, her alakalı belgenin oldu u nokta için duyarlılık hesaplanarak, bu de erlerin ortalaması bulunur. Örnek olarak, Çizelge 9.2.1’deki 1. sıralama için duyarlılık de eri 1.0’dır. Çünkü, son alakalı belge olan d5’dir ve bu belgeye gelene kadar gözüken d1, d2, d3 ve d4 belgelerinin tamamı alakalıdır. Dolayısı ile, ortamla duyarlılık 1.0’dır. Ancak, örne in 3. sıralamada, alakalı belgeler için hesaplanan duyarlılık de erleri öyledir: 1/2 (d1), 2/3 (d2), 3/6 (d3), 4/7 (d5) ve 5/8 (d4); dolayısı ile ara-de er-tahminsiz ortalama duyarlılık de eri, be duyarlılık de erinin ortalaması olan 0.5726’dır. E er, geri-getirilen belgeler içinde, ba ka alakalı belgelerde varsa, hesaplama söz konusu belgelere do ru geni letilmelidir. Ara de er-tahminsiz ortalama duyarlılık hesabında, alakalı olup, gerigetirilen seçim kümesinde olmayan belgelerin duyarlılı ı 0 (sıfır) olarak kabul edilir. Bu yüzden söz konusu ortalama duyarlılık, dolaylı olarak anma’yı da hesaplar, yani geri-getirilen sonuç kümesinde alakalı olan belgelerin yüzdesidir (bu durum, seçim kümesinde yer almayan hedef belgelerin, yani gerçekte alakalı olup seçilmemi belgelerin (yn) duyarlılı ının 0 olarak, ortalama duyarlılık hesabına katıldı ı fikrinden kaynaklanır.). B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 151 Ara-de er-tahminli ortalama duyarlılık (interpolated average precision) ölçütü anma ölçümünü esas alır. Duyarlılık de erleri, çe itli anma de er seviyelerinde hesaplanır; örne in 11-nokta ortalama duyarlılık hesabında %0, %10, %20, %30, %40, %50, %60, %70, %80, %90 ve %100 anma de er seviyeleri için duyarlılık hesaplanarak bulunur (bu en yaygın kullanılan eklidir). Anma’nın α de eri için, duyarlılı ın sayısal de eri olan β, sıralanmı listedeki alakalı belge oranının, α de erine e it oldu u noktada hesaplanır. Listede a a ı do ru inerken, bir α de erine kar ılık gelen belgeye kadar hesaplanan duyarlılık de erinde artı varsa, artı boyunca belgeler için hesaplanan en yüksek duyarlılık de eri söz konusu anma düzeyinin duyarlılık de eri olarak alınır. Örne in, 3. sıralamada %60 anma düzeyinde, hesaplanan ara-de er-tahminli duyarlılık 4/7 de ildir (yani d5 belgesindeki duyarlılık de eri), çünkü %60 anma de erine son belgede, yani d8 belgesinde ula ılır (geri-getirilen 5 alakalı belgenin belge uzayındaki tüm alakalı belgeler oldu u kabul edilerek). Bu noktadaki duyarlılık de eri 5/8 oldu undan ve 4/7 de eri bu de erden küçük oldu u için, %60 anma de erine kar ılık gelen ara-de er-tahminli ortalama duyarlılık 5/8 olacaktır. Buradaki bakı açısı, kullanıcının duyarlılık arttıkça, listeden a a ı do ru göz atmayı sürdürece i varsayımını esas almaktadır. ekil 9.2.1’de, 3. sıralama için verilen iki grafik sırasıyla, ara-de er-tahminsiz ve 11-nokta ara-de er-tahminli, anma-duyarlılık e rilerini göstermektedir (precision-recall curves). B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 152 1 1 D D 0 1 A 0 1 A (a) (b) ekil 9.2.1: Anma-duyarlılık e risinin iki örne i. ki örnek de, Çizelge 9.2.1’de verilen 3. sıralamaya aittir: (a) ara-de er-tahminsiz; (b) ara-de ertahminli. BGG sistemlerinin ba arım de erlendirmesi için, Çizelge 9.2.1.’de verilen e it-ölçekli sıralama ( R norm ), de erlendirme altındaki sıralamaları birbirleri ile nicel olarak kar ıla tırılmasını sa lar, yani 0 (sıfır) ile 1 (bir) arasında bir gerçek sayıya indirger (Yao, 1995): + 1 R −R = 1+ + 2 Rmax Rnorm − (8.2.1) Denklem 8.2.1.’de verilen e it-ölçek sıralama denkleminde: R + simgesi ile, sıralama içinde alakalı olan her belgeden sonra gelen alakasız belge sayıları toplamı; R − simgesi ile, sıralama içindeki her + alakasız belgeden sonra gelen alakalı belge sayıları toplamı; Rmax simgesi ile R + ’ın ve R − ’in alabilece i en büyük de er ifade + edilmektedir ( Rmax Örne in Çizelge = max{ R + } = max{ R − } ). 9.2.1.’deki 3. sıralama için, R + de eri: 4 alakasız (d1), 4 alakasız (d2), 2 alakasız (d3), 2 alakasız (d5), ve 2 alakasız (d4) belge sayılarının, B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 153 + toplamı olan 14’tür. R max de eri ise, e er geri-getirim kümesinin belge sayısını en çok 10 olarak kabul edersek, 5 alakalı ve 5 alakasız belgenin 1. sıralamada oldu u gibi dizilmesi ile elde edilen, 25’e e it olacaktır. BGG sistemlerinin ba arımlarının ölçülmesinde, kapsam (K) ve özgünlük (Ö) olarak tanımlanan, iki ölçüt de kullanılmaktadır (Korfhage, 1997). Bu ölçütlere ait e itlikler biçimsel olarak Denklem 8.2.2. ve 8.2.3.’de verilmi tir. K = Rk / U Ö= (8.2.2) Ru (8.2.3) Ru + Rk Denklem 8.2.2. ve 8.2.3.’de, U kullanıcı tarafından daha önceden belge uzayında oldu u bilinen alakalı belgeler kümesidir. Denklemde R k simgesi ile, sistemin sonuç, yani geri-getirim kümesinde, kullanıcının daha önceden alakalı oldu unu bildi i belgelerden olu an kısmı; Ru simgesi ile de, daha önceden alakalı oldu unu bilmedi i belgelerden olu an kısım temsil edilmektedir. Yukarıda açıklanan, anma ve duyarlılık fikri esasına dayalı ölçütlerden her biri, BGG sistemlerinin ba arımını ölçmek için kullanılabilir. Farklı kurgulara sahip, birden fazla sistemin kar ıla tırılmasında kabul gören yakla ımlardan bir tanesi, sistemleri aynı derlem ve sorgu kümesi ile çalı tırmak, kullanılan ba arım ölçütünün, tüm sorgular için elde edilen ölçümlerinin ortalamasını almaktır. E er kar ıla tırılan sistemlerden, örne in 1. sistemin ortalaması, 2. sistemin ortalamasından iyi ise, bu durum 1. sistemin ba arımının 2. sistemin ba arımına göre daha iyi oldu una delil olarak B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 154 kabul edilir. Belirli bir sistemin, birden fazla sorgu için geri-getirim ba arım ortalamasının bulunması ile ilgili iki yakla ım söz konusu olabilir: mikro ve makro ortalamalar. Bir sistem için, iki yakla ımın, yani mikro ve makro ortalamaların farklı de erlere sahip olması durumuna, söz konusu sistemin sorgular kar ısında geri-getirim kümesini olu turan belge sayılarının farklı olması sebep olur. Herhangi bir sistemin ortalama ba arımı: Makro yakla ımda, tüm sorgular için geri-getirilen toplam alakalı belge sayısının, her sorgu için gerigetirilmi belge kümelerinin toplam eleman sayısına bölünmesi ile bulunur; Mikro yakla ımda ise, önce her sorgu için geri-getirilmi alakalı belge sayısı, sorgunun kendi geri-getirim kümesinin eleman sayısına bölünerek ara ortalama de erleri hesaplanır, daha sonra bu ara ortalama de erleri toplanarak, toplam sorgu sayısına bölür ve sistemin ortalama ba arım de eri elde edilir. Makro ortalama yakla ımı sistemin ba arımını belge esasına dayalı olarak ölçerken, mikro ortalama yakla ımı sorguları esas alan bir ölçüm ortaya koyar. BGG sistemlerinin sonuç kümesindeki belgelerin, bir sıralama ile kullanıcıya sunulması, kullanıcının anma ve duyarlılık ölçütlerinin rekabetini istekleri do rultusunda kullanmasına imkan tanır. Örne in, e er sıralı sonuç listesinin ilk sayfasında, anma dü ük ve istenen enformasyon bulunamamı sa, kullanıcı bir sonraki sayfaya yönlenecektir (ço u durumda sonraki sayfalarda anma yükselecektir). te bu kullanıcı davranı ı, Olasılık sıralama ilkesi (probability ranking principle) ile izah edilmekte ve BGG sistemlerinin sıralama esasına dayalı kurgularının altındaki kabullenmeleri açık bir ekilde ortaya koymaktadır (van Rijsbergen, 1979). B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 155 Tanım 8.2.1: Olasılık Sıralama (OS) lkesi (Probability Ranking Principle): Belgeleri, alakalı olma olasılıklarına göre büyükten küçü e do ru sıralamak, sistemin sonuç kümesi için en iyi listeleme eklidir. Tanımdaki ana fikir, geri-getirim i inin bir arama i lemi olarak dü ünülmesi ve sistemin, zamanın istenen her hangi bir anında, sürecin ilerledi i noktaya kadar olan kısım içindeki en yüksek alaka “de erine” sahip belgeyi belirleyebilmesidir. Söz konusu aramada, zamanın herhangi bir anında en yüksek “de ere” sahip olacak bir d belgesi, sürecin ilerledi i noktaya kadar olan kısımdaki belgeler içinde, beklenen alakalı olma ihtimali en yüksek belge olacaktır, yani P ( R d ) olasılık de eri en yüksek olan olacaktır (daha tüm belgelerin de erlendirmeye girmedi ini dü ünüyoruz). Aynı ekilde, silsile halinde birden çok zaman kesiti için, en yüksek “de ere” sahip olan belgelerin belirlenmesi ile elde edilecek bir liste, aynı zamanda tanımda verilen alakalı olmanın dü en olasılık de erlerine göre sıralanmı belge listesi de olacaktır. BGG sistemlerinin ço u OS ilkesini esas alırlar. O yüzden, bu ile, hangi kabullenmelerin yapıldı ının tanımlanması da ilke gerekmektedir: 1. lk kabullenme, belgelerin ba ımsız oldu udur. Bu kabullenmenin en açık ekilde ihlali, aynı belgenin belge uzayında tekrarlanmasıdır. E er bir belgeden iki tane varsa, örne in d1 ve d2 olsun, d1 belgesi listelendikten sonra d2 belgesine ait tahmini alaka ihtimali de i meyecektir. Fakat d2 belgesi kullanıcıya yeni bir enformasyon sunmayacaktır. Açıkçası, iyi bir kurgu içinde, böyle çift belgelerden sadece birinin listeye alınması gerekir, fakat bu durum, aynı zamanda OS ilkesinin ihlali de demektir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 156 2. Kullanıcı tarafından, sisteme yönlendirilmi enformasyon ihtiyacı bir bütündür. Ancak, OS ilkesini esas alarak olu turulan bir sonuç listesinde, söz konusu ihtiyaç, küçük ve yalıtılmı sorgucuklar eklinde ele alınır ve bu sorgucukların her biri için en yüksek “de ere” sahip belgelerin tespiti yapılır. Fakat, belge uzayındaki her hangi bir belge, kullanıcının sisteme yönlendirdi i, enformasyon ihtiyaç bütünü ile çok alakalı olmasına ra men, OS ilkesi gere i yapılan arama sürecinin ara adımlarında, en yüksek “de ere” sahip olarak belirlenmeyebilir. Örne in, bir kullanıcının Murat kelimesini sorgu olarak yönlendirmesi halinde, ideal bir BGG sisteminin, kelimenin araba adı, ki i adı ve istek/dilek anlamlarından hangisine ihtiyaç duyuldu unu belirlemesi gerekir. Fakat OS ilkesini esas almı bir sistem, eldeki belge uzayı içinde, en yüksek alaka gösteren bu anlamlardan ilk bulunana göre, sonuç listesini sıralayacaktır. 3. OS ilkesi esasına göre hesaplanan, alakalı olmanın olasılı ı sadece tahminidir. Bir BGG sisteminin kurgusu içinde, bir çok basitle tirici tanımın kabul edilmesinden dolayı, yapılan olasılık tahminleri de tamamen güvenilir olmayacaktır. Söz konusu durumun en büyük yan etkisi udur: BGG sistemleri kar ıla tırılırken, alakalı olmanın olasılık tahminleri arasındaki de i ime (variance) bakılmaktadır; dolayısı ile olasılık tahminlerinin güvenilir olmaması, kar ıla tırmaların da güvenilir olmaması sonucunu do uracaktır. Daha önce bahsedildi i gibi, BGG sistemlerinin ba arımlarının ölçülmesi için kurgulanmı , sorgulardan elde edilen sonuçların ortalamasına dayalı bu deneysel düzenek, aslen bir çok tartı malı mesele içermektedir. Ortalamalar arasındaki fark, ans eseri de olu mu olabilir. Örne in, 1. sistemde, sadece tek bir sorgunun, 2. sistemdeki sorgulardan çok büyük bir farkla iyi olması neticesinde (di er sorguların ba arımları e it olacak ekilde) ortalama farklı da çıkmı olabilir. Aslen, sistemler arasında anlamlı bir farklılık olup olmadı ına bakılması için, böyle basit tanımlayıcı istatistikler yerine, uygun ekilde geli tirilecek istatistiksel yöntemlerin kullanımı, daha güvenilir bir yol olacaktır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 157 8.3. Anma ve Duyarlılı ı Esas Almayan Ba arım Ölçütü. Bu tezde, ba arım ölçütü olarak kullanaca ımız yöntem olan üstel-puanlama (meta-scoring), matematiksel/istatistiksel yöntemler sınıfına girmektedir (Jin, 2001). Carnegie Mellon üniversitesinde, dilbilim teknolojileri enstitüsü ve bilgisayar bilimleri bölümünün ortak çalı ması ile geli tirilen bu yöntem, anma ve duyarlılık ölçütlerinin tüm olumsuz yönlerinden arındırılmı tır. Yöntem gizli anlam indeksleme (Bölüm 6.2.) geri-getirim modelinin esas aldı ı, matematiksel kurguya göre biçimlendirilmi tir. Yöntemde, belgeler ve sorgular bazı yönlerden de i ik, bazı yönlerden gizli anlam indeksleme ile benzer ekilde yorumlanmaktadır. Belgeler, bir vektör olarak kabul edilir. Bu vektörün elemanları, bir geri-getirim yöntemi ile hesaplanmı sayısal a ırlıklardır. Belge uzayındaki belgelerde bulunan, tüm içerikler, yani konular bir içerik toplulu u olarak kabul edilir (Buraya kadar tüm vektör uzayı modelini esas alan yöntemler, aynı ekilde yorumlara sahiptir). Yöntemde, belge vektörlerini içine alan çok boyutlu uzayın öz-vektörleri (eigen-vectors), gerçek belge içeriklerini olu turan, birbirinden ba ımsız, birim “içerik”ler toplulu u olarak kabul edilir. Böylece her belge, bu ba ımsız “içerik”lerin bir kümesi ile ifade edilebilir olmaktadır. Belirli bir geri-getirim yöntemi ile, bir belge için sayısal belge temsili olu turuldu unu kabul edersek (yani belge vektörü), bu sayısal belge temsilinde, birim “içerik”lerden ne miktarda bulundu u, belge vektörünün “içeri ini” olu turan öz-vektörler üzerindeki iz-dü ümü ile ölçülecektir. Dolayısı ile, asıl belgelerin içerikleri, öz-vektörler ile temsil edilen bir nevi a ırlıklandırılmı “içerik” toplulu u olacaktır. Yöntemde, bir de temsili “belge içeri i” vardır. Bu temsili “belge içeri i”, öz-vektörler kümesinden herhangi bir elemana e it olabilir. Ancak, tüm öz-vektörler “belge içeri i” olma B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 158 açısından e it ihtimale sahip de ildir. Bir öz-vektörün, temsili “belge içeri i” olma ihtimali, öz-vektöre kar ılık gelen öz-de er (eigen-values) ile do ru orantılı olarak hesaplanmaktadır. Bir geri-getirim yönteminin üstel-puanı, temsili “belge içeri i” ile asıl belge için olu turulmu a ırlık vektörü arasındaki kar ılıklı enformasyon (mutual information) miktarına e ittir (Bölüm 4.3). E er iki geri-getirim yöntemi birbiri ile kıyaslanacaksa, her ikisi için de üstel-puan hesaplanır ve de er olarak büyük olanı daha iyidir denir. Jin ve arkada ları (2001), yöntem ile hesapladıkları üstel-puanın, derlemin ortalama-duyarlılı ı ile tutarlı oldu unu, yani do ru orantılı oldu unu bildirmi lerdir. Dolayısı ile, tezin sonuçlarındaki üstel-puanlar, orantılı ortalama-duyarlılık eklinde de yorumlanabilir. ki olasılık de i keni, D ve C için kar ılıklı-enformasyon’un I(C;D), biçimsel ifadesi, Denklem 8.3.1.’de verilmi tir. I (C; D) = H (C ) − H (C D) Denklem 8.3.1.’de verilen (8.3.1) kar ılıklı-enformasyon, I(C;D) e itli indeki H(C) simgesi ile, C olasılık de i keninin düzensizli i, yani sinyal-enformasyon de eri temsil edilmektedir; H(C|D) simgesi ile, aynı C olasılık de i keninin, D olasılık de i keninin de eri bilinirken hesaplanan düzensizlik de eridir. Dolayısı ile, C ve D olasılık de i kenlerine ait kar ılıklı-enformasyon de eri, D olasılık de i kenine ait de erin bilinmesinden kaynaklı, C olasılık de i keninin düzensizli inde olu an de i im miktarı olarak sözle ifade edilebilir. Bir ba ka söyleyi le, kar ılıklı-enformasyon iki olasılık de i keninin birlikte ta ıdı ı, ortak sinyal-enformasyon miktarıdır. Söz konusu iki B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 159 olasılık de i keni ba ımsızsa, ta ıdıkları kar ılıklı-enformasyon miktarı da 0 (sıfır) olacaktır. Üstel-puan ölçütünün, kar ılıklı-enformasyon I(C;D), esasında tanımlanmasında, C olasılık de i keninin örneklem kümesini, “belge içerik”leri kümesidir; D olasılık de i keninin örneklem kümesi de, indeks terimler ve bir belge için hesaplanan a ırlıklarından olu an çiftler toplulu udur. Böylece, H(C) de eri, “belge içerik”lerinin yalın olarak ta ıdı ı sinyal-enformasyon miktarını; H(C|D) de eri de, D belgesinin “içerik” vektörü bilinirken “belge içerik”lerinin ta ıdı ı ba ıl sinyal-enformasyon miktarını temsil eder. Dolayısı ile, kar ılıklıenformasyon miktarı, iki sinyal-enformasyon de erinin farkından, yani “belge içerik”lerinin yalın olarak ta ıdı ı sinyal-enformasyon de erinden H(C), “içerik” vektörü D verilmi ken “belge içerik”lerinin ta ıdı ı ba ıl sinyal-enformasyon de erinin H(C|D), çıkartılması ile elde edilir. BGG sistemlerinin hedefinde bulunan belge uzayı, belge-terim matrisi M, olarak temsil edilebilir. Olu turulan söz konusu matrisin satırlarında belgeler, sütunlarında terimler ve Mij hücresinde, ise söz konusu yöntemin j. terime, i. belge için atadı ı hesaplanmı a ırlık de eri bulunmaktadır. Gizli anlam indeksleme modelinde, M matrisinin belge vektörlerini içine alan uzayının öz-vektörleri (eigen-vectors), yani dikey birim vektörleri (eksenleri), birbirinden ba ımsız “içerik”ler olarak kabul edilir. Her belge, bir “içerik” vektörü olarak temsil edildi i için, herhangi bir belgede, bir “içeri in” önemi, “içeri i” temsil eden öz-vektör üzerine, söz konusu belge vektörünün iz dü ümü ile ölçülür. Üstel-puan ölçütündeki olasılık de i keni, C için, örneklem kümesi, e er bir “içerik” toplulu u olarak dü ünülürse, gizli anlam indeksleme yönteminde öz-vektörler ile olu turulan “içerik” uzayı, C B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 160 ile temsil edilen “belge içeri i” kavramı için kullanılabilir. Jin ve arkada ları (2001), C olasılık de i kene ait olasılık da ılımının hesaplanabilmesi için, M matrisinin öz-vektörleri ile e le en özde erlerin (eigen-values), bu öz-vektörlerin önemini betimledi ini, dolayısı ile “içerik”lerin öneminin, söz konusu öz-de erlerin genli i (miktarı) ile orantılı oldu unu öne sürmü lerdir. Bir BGG sisteminin hedef belge uzayındaki, belge sayısı n olarak kabul edilirse: terim uzayındaki belge vektörleri b1 , b2 , , bn olacaktır. Terim uzayındaki belge vektörleri, M belge-terim matrisini de olu tururlar. Üstel-puan ölçütünün, bir geri-getirim yöntemi için kullanılmasında, belge-belge matrisine ihtiyaç vardır. Belge-belge matrisine D dersek, M belge-terim matrisi kullanılarak u ekilde olu turulur: T D n×n = M n×t ⋅ M t×n (8.3.2) Denklem 8.3.2. ile elde edilen belge-belge, kısaca D belge matrisine ait, λ1 , λ 2 , , λn öz-de erler (eigen-values) ve v1 , v2 , , vn öz-vektörler (eigen-vectors) için, tanım gere i, u ko ul sa lanır: D • v j = λ jv j ; 1 ≤ j ≤ n (8.3.3) C olasılık de i keni, yani “belge içerik”leri, bir “içerik” toplulu u olarak kabul edildi i ve her “içerik” de, D matrisinin bir öz-vektörüne kar ılık geldi i için, C olasılık de i keninin örneklem kümesi, yani alabilece i de erler kümesi, öz-vektörler toplulu u {v1 , v2 , , v n } olur. Jin ve arkada larının (2001) kabullenmesinde, her v j öz-vektörünün önemi, bu vektöre kar ılık gelen öz-de erle λ j , ölçülmektedir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 Dolayısı ile, C olasılık de i keninin, 161 v j öz-vektörüne e it olması olasılı ı P(C = v j ) , λ j öz-de eri ile orantılı olacaktır: λj P(C = v j ) = n 1≤ j ≤ n ; λk (8.3.4) k =1 Olasılık de i keni D, belge vektörlerini temsil etmektedir. D olasılık de i keninin, alabilece i de erler kümesi, belge vektörleri toplulu u, yani {b1 , b2 , , bn } olacaktır. BGG sisteminin hedefindeki belge uzayında, her belge e it önemdedir. Dolayısı ile, D olasılık de i keninin herhangi bir bi belge vektörüne e it olması olasılı ı, P( D = bi ) sabittir: 1 ; 1≤ i ≤ n n P ( D = bi ) = D olasılık de i kenin de eri, (8.3.5) bi belge vektörü olarak verilmi ken, C olasılık de i keninin herhangi bir, v j öz-vektörüne e it olmasının, ko ullu P(C = v j D = bi ) olasılı ı, ise, vektörünün, vj öz-vektörü üzerindeki iz-dü ümünün, bi belge bi belge vektörünün, tüm öz-vektörler vk , 1 ≤ k ≤ n üzerindeki iz-dü ümleri toplamı içindeki a ırlı ı ile orantılı olacaktır: bi T • v j P(C = v j D = bi ) = n k =1 bi • v k T ; 1≤ k ≤ n (8.3.6) B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 162 Denklem 8.3.6.’da, bi belge vektörünün, v j öz-vektörü üzerine iz-dü üm de eri d iT • v j , mutlak olarak alınmı tır. Bunun sebebi, iz dü üm de erlerinin, negatif olabilmesidir; ancak olasılık de erleri negatif olamazlar. Bu ekilde hesaplanarak, BGG sistemlerinin ba arımlarının kar ıla tırılmasında kullanılabilecek üstel-puan yöntemi, aslen kendi türünün içinde, yani anma ve duyarlılık ölçütleri dı ındaki ba arım ölçütlerine tek örnektir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 163 9. TEZ KAPSAMINDA GEL T R LM YÖNTEMLER Bu tez, bilgi geri-getirim sistemlerinin, yazılı Türkçe’nin dilbilgisi kullanılarak, Türkçe için ba arımlarının arttırılmasını hedef almaktadır. Dolayısı ile, yazılı Türkçe belgelerin çok dilli bir belge toplulu undan, örne in nternet ortamından tespit edilmesi gibi bir meseleyi de içermektedir. Son yıllarda çok dilli uygulamalar, daha do rusu çok dilli bilgi geri-getirim, nternet ortamının do al bir sonucu olarak u ra sahası haline de gelmi tir. Ancak, tez kapsamımızda, hedef aldı ımız asıl mesele, yazılı metnin hangi dilde oldu undan çok, Türkçe olan metnin otomatik olarak tespit edilmesidir. Tez içerisinde geli tirilen di er yöntemlerin uygulanabilirli i için, asgari ve yeter art budur. Hesaplamalı dilbilim sahasında, bilgi geri-getirim sahasında ve bir çok yazılı dil hedefli, hesaplamaya dayalı u ra lar içerisinde geli tirilen yöntemler, öncelikle yazılı metnin belirli biçime getirilmesine ihtiyaç duyarlar. Bu ortak biçime getirme, yazılı metni hesaplanabilir birimlerine ayrı tırma i ine, genel adıyla metin normalle tirme denir. Aslen, bilgi geri-getirim sahasında ihtiyaç duyulan nitelikleri ile metin normalle tirme, sayısal belge temsil yordamının (Bölüm 5.3.) ilk alt sürecinde belirtildi i ekli ile yer almaktadır ve en basit halindedir. Kelime sınırlarının belirlenmesi ve kelime dı ı unsurların metinden ayıklanması, bilgi geri-getirim sistemleri için yeterli metin normalle tirme nitelikleridir. Ancak, hesaplamalı dilbilim sahasında, metin normalle tirme, bilgi geri-getirim sahasında oldu u gibi, asgari nitelikler ta ımaz. Metin içindeki kelimelerin belirlenmesi gerekir, ancak kelime dı ındaki unsurların ayıklanması de il, ne olduklarının i aretlenmesi, yani o unsurların da B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 164 belirlenmesi söz konusudur. Ayrıca, hesaplamalı dil bilim sahasında, dilbilgisi özelliklerinin tespit edilmesi hedefindeki yöntemlerin hemen hepsi, cümle sonu ve ba ının belirli olmasını da ön art olarak istemektedirler. Cümle sonlarının belirlenmesi meselesi, her ne kadar hesaplamalı dilbilim içerisinde önemsenen bir konu olarak belirtilmese de, mesele yaratan bir durumdur. Cümle sonu belirlemede en büyük sorun, “nokta”nın, her zaman cümle sonu belirlemiyor olmasıdır. Nokta, bazen cümle sonu, bazen bir kısaltmanın sonu veya bazen her ikisi de olabilir. Tez hedefimizde, bilgi geri-getirim sahasında, dilbilgisi özelliklerinin kullanılması söz konusu oldu u için, cümle sonun belirlenmesi meselesine, yani nokta üzerindeki kaldırılmasına dönük bir çözüm de geli tirilmi tir. belirsizli in Hesaplamalı dilbilim sahasında, yazılı metinlerdeki dilbilgisi özelliklerinin belirlenmesine dönük geli tirilmi yöntemler, temelde iki gurupta toplanmaktadır: kural tabanlı yöntemler ve istatisti i/olasılı ı esas alan yöntemler. Her iki guruptaki yöntemler de, kurguları açısından çok büyük farklara sahip de illerdir; temel birkaç ortak unsuru yapı ta ı olarak kullanırlar. Aralarındaki fark, olasılık kuramından ibarettir. Kural tabanlılar, kuralları, olasılık kuramı yerine kullanırlar. Fakat, her iki gurubun melezi olan, yani hem kural tabanlı hem de olasılık kuramını kullanan yöntemler de vardır. E er n-gram dil modelleri tartı manın dı ında tutulacak olursa, yani hesaplama birimi olarak kelimenin esas alındı ı di er yöntemlerin tamamı için, ortak yapı ta ı, dile ait kelimelerin ve kelimelere ait çe itli kapsam ve derinlikte özelliklerin içerildi i bir sözlük’tür. Yöntemlerin kurgularında yer alan bu sözlükler, yazı içinde geçen kelimeleri e le tirme ile belirlemek ve daha önceden kaydedilmi olan özelliklerine eri mek için kullanılır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 165 Sözlük kullanımının mümkün olması için kuramsal bir kabullenme de yapılmaktadır. Bu kabullenme, dillerin kapalı kelime da arcı ına (yazımda farklı ekle sahip harf birli i, kelime biçimleri toplulu u) sahip oldu udur. Kabullenmenin do ru olup olmadı ı, daha do rusu hangi artlar altında geçerli oldu u, tüm diller için halen sıcak bir tartı ma konusudur. Kuramsal olarak, bir dilde yazılabilecek, olası tüm metinlerin toplulu una ula tı ımızda, kelime da arcı ı, bütün metinler elimizde oldu u için, kapalı olacaktır, yani farklı ekilde söylenebilecek her ey söylenmi , yazılabilecek her ey yazılmı olacaktır. Uygulamada, bu ideal durum yakalanamadı ı için, kar ıla ılmı ve kar ıla ılacak metinler eklinde iki durum söz konusu olmaktadır. Kar ıla ılmı metinlerden, farklı kelime biçimleri tespit edilmekte ve kelime da arcı ı bu kelime biçimleri toplulu u ile olu turulmaktadır. Mesele, bu kelime da arcı ının, kar ıla ılacak metinlerde yer alan kelime biçimlerinin tamamını, her zaman kapsayıp kapsamayaca ıdır. Kapalı kelime da arcı ı kabullenmesi, telafi edilebilir büyüklükte, belirli bir hata payı ile her zaman kapsanaca ını; açık kelime da arcı ı ise, bu hata payının her zaman çok büyük olaca ını ve kelime da arcı ının oransal olarak telafi edilemez boyutlarında gerçekle ece ini öngörmektedir. Türkçe için kelime da arcı ının açık ve kapalı olu u meselesi, Bölüm 10.’da Zipf kanunları çerçevesinde istatistiksel olarak, deneysel derlemler üzerinden tartı ılmı tır. Hesaplamalı dilbilim yöntemlerin kurgularında sözlük kullanılması, bu günün teknolojisi açısından, hesaplama karma ıklı ını arttırıcı bir unsurdur. Dolayısı ile, geleneksel bilgi geri-getirim sistemlerinin ön i lem a amalarında, ba arıma olan katkısı anlamlı dahi olsa, maliyetleri sebebi ile kullanımlarından ço unlukla kaçınılır. Yapılan ara tırmaların sonuçlarından da, anlamlı bir ba arım artı ının B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 166 tutarlı ekilde elde edilememesi, kullanılmalarıyla ba arımdan feragat edilir hale gelmelerine sebep olur. kazanılacak Hesaplamalı dilbilim yöntemlerinin, özellikle kural tabanlı olanlarında, hesaplama karma ıklı ını arttırıcı tek etken de, sözlük kullanımı de ildir. Kural tabanlı sistemler, örne in gövdeleme için Türkçe gibi sondan ekli, eklemeli dillerde, sonlu durum makinelerini esas alırlar ve hesaplama karma ıklıkları, günümüz bilgisayar teknolojisi ile do rusal zamanda, çözümü bulunamaz bir hale gelebilir (NP-Complete). Pratikte, durum bu kadar içinden çıkılmaz halde de ildir, ancak do rusal olmaktan da çok uzaktır (Bölüm 5.3). Dolayısı ile, bilgi geri-getirim sahasında kullanılacakları zaman, hesaplamalı dilbilim yöntemleri oldu u gibi alınmazlar, uygun ekilde hesaplama açısından hafifletilmi uyarlamaları tercih edilir. Hesaplamalı dilbilim sahasında, istatistik/olasılık esasına dayanan yöntemlerde, hesaplama karma ıklı ı açısından kural tabanlı e leniklerinden pek farklı de illerdir. Aslen, her iki gurubun da hesaplama karma ıklı ının kökeninde olan ey, dilin anlamsal çözümlemesinin, günümüz bilgisayar teknolojisinin mümkün kıldı ı hesaplama yöntemlerinin bakı açısından, çok hacimli, detaylı ve derin bir mesele haline gelmesidir. nsanlar, ana dillerini, kurallarına ve yapılarına özel bir dikkat sarf etmeden kullanmaktadırlar, zaten di er halde, anlatılmak istenen duygu veya dü ünceye odaklanmak zor bir hale gelirdi. Bu ba lamda belirtilmesi gereken di er bir mesele de, dili ileti im için kullanmakla, onu nasıl kullandı ımızı, tekrar edilebilir ekilde tarif etme (bilimsel) arasında, zorluk açısından büyük bir fark oldu u gerçe idir. statistik/olasılık esasında yöntemler de kendi içinde kullandıkları dil modelleri açısından üçe ayrılabilir: n-gram dil modeli, gizli Markov zinciri dil modeli ve en-yüksek düzensizlik (maximum B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 167 entropy) modeli. Bu dil modelleri ise, kelime esasında hesaplama yapıyorlarsa, sözlük kullanırlar. Hesaplama birimi olarak, kelimenin alternatifini, n-gramlar te kil eder. Di er modeller, n-gramları hesaplama birimi olarak da kullanmaktadır; n-gramlar tek ba larına kullanıldıklarında, olasılık kuramı esas alınmaktadır. Aslen, hesaplamalı dilbilim içinde çözümleme düzeyi olarak, biçimbirimsel seviyenin (sözlük, söz-dizim, anlam, v.b.) üzerindeki düzeylerde, yaygın ekilde kullanılan model gizli Markov zinciri dil modelidir. Biçimbirimsel seviyede de, kural tabanlı yöntemler a ırlıklı olarak kullanılmaktadır. Tez kapsamı içersinde, hesaplamalı dilbilimde iki çözümleme seviyesi için, bilgi geri-getirim sistemlerinde kullanılmak üzere uyarlanmı iki yöntem geli tirilmi tir: gövdeleme (biçimbirimsel seviye) ve sözcük türü tespiti (sözlük seviyesi). Her iki yöntem de, sözlük kullanmamaktadır, istatistik/olasılık esaslıdır ve hesaplama birimi olarak kelime yerine n-gram kullanmaktadır. Dilbilim özelli inin çözümlenmesi için esas aldıkları fikirler açısından, yani gövdeleme ve sözcük türü tespiti için, kelimeden gerekli enformasyonun elde edili i açısından, yöntemler özgündür. Özetle, bu bölümde tanıtılacak, tez kapsamında geli tirilmi dört özgün yöntem bulunmaktadır. Yöntemler, tanıtım sırasıyla öyledir: Türkçe yazılı belgelerin tespiti; Türkçe metinlerin, cümle sonu tespitleri, yani normalle tirilmesi; Türkçe için istatistik/olasılık esasında gövdeleme; Türkçe kelimelerin, istatistik/olasılık esasında sözcük türü tespiti. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 168 9.1. Türkçe Yazılı Belgelerin Tespiti Genel anlamda, yazılı metinlerde dilin tespiti, nternet üzerinde arama motorlarının, kullanıcıların enformasyon ihtiyaçlarını kar ılamak için, dil tespitine gereksinim duyması ile giderek artan bir ihtiyaç olmaktadır. Bu gereksinimin ötesinde, otomatik çeviri programları, uygulama olarak kullanılmaya da ba lamı tır. Dolayısı ile, çok dilli ortamlarda, yazılı metnin hangi dilde yazılmı oldu u giderek artan bir ihtiyaç halini almaktadır (Lins and Gonçalves, 2004). Web, Internet üzerinde en büyük yazılı belge kayna ını olu turan servis olarak, çok dilli derlem kapsamında kar ımıza çıkmaktadır. Web servisi sa layan sunucularda, dil olarak ngilizce a ırlıklı olmasına ra men, Babel13 tarafından, Web ortamındaki çok dillilik üzerine yapılan ara tırma, 1997 haziran’ı itibari ile 14 farklı dile yayılmı , 63,000 ngilizce dı ında, sunucu oldu u tahmin edilmi tir. Ayrıca, Babel tarafından yapılan ara tırmanın dı ında kalmı , Katalanca, Çince, Macarca, zlandaca ve Arapça dilinde sunucuların da sayısı artmaktadır (Resnik, 1999). Çok dilli in yanında, Web ortamı, dinamik içeri e de sahiptir. Bu özelli i, kelime da arcı ı konusu ile, çok yakından alakalıdır. Diekema ve arkada ları, TREC-7 çalı malarında, WordNet 1.5., kelime a ına dayalı olan çalı malarının ba arımının, “BosniaBosnie”, gibi çok yüksek düzeyde konu ile alakalı kelimelerde olu an sözlüksel gediklerden, çok fazla yara aldı ını belirtmi lerdir (Voorhees and Harman, 1998b). Yine TREC-7 çalı malarında, çeviri esasına dayalı çapraz-dil bilgi geri-getirimi üzerine ara tırma yürüten Gey ve arkada ları, “acupuncture-Akupunktur” kelimesi ile örneklendirdikleri, 13 http://www.isoc.org B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 169 sözlüksel gedi in, bireysel sorgular esasında, ba arımı, duyarlılık ölçüsünde 0,08 ile 0,83 arasında de i tirdi ini belirtmi lerdir! Aslen, çok dilli belge uzayı olarak Web ortamında dil tespiti, bahsedilen boyutları dı ında, ayrıca yazılı metnin sayısal ortama alını ı ba lamında (elle yazılarak, fiziksel ortamlardan taranarak) ve dil tespitinin kuramsal alt yapısı içinde karma ıklık derecesi gibi meseleleri de vardır. Kuramsal ba lamda, hem karma ıklık kuramı (complexity theory) hem de özyineleme kuramı (recursion theory) içerisinde, indirgeme temeline dayanan bir inceleme için, Jain ve Sharma (1994) tarafından yapılan çalı ma güzel bir örnektir. Yazılı metnin, sayısal ortama alını ı açısından, Web ortamında elle yazılmanın dı ında, ço u belgenin özgün fiziksel ortamından (ka ıt v.b.) taranarak sayısal ortama alınması da söz konusudur. Bu yöntemle, sayısal ortama alınan belgelerde, ek olarak yazılı karakterin tanınması (character recognition) a amasında meydana gelen, ek hatalarla da u ra mak gerekmektedir (Sibun and Spitz, 1994). Sibun ve Spitz, resim olarak taranan yazılı belgelerden, karakter ve kelimelerin, hesaplamalı dilbilim için yeterli oldu unu dü ündükleri simgesel kar ılıklara atanması eklinde bir yöntem önermi lerdir. 9.1.1. Önceki Çalı malar Çok dilli belge uzayında, belgelerin hangi dillerde yazılmı oldu unun tespitine yönelik yöntemler, a ılıklı olarak istatistik/olasılık kuramını esas alırlar. Olasılık esasındaki yöntemlerin, kural tabanlı en iyi sistemle e it veya ondan daha ba arılı olaca ı, Jain ve Sharma (1993) tarafından do rulandıktan sonra, tüm çalı malar istatistik/olasılık esasında do al olarak yo unla mı tır. Olasılık B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 170 esasında yöntemlere yönelimde, dilbilimsel yöntemlerin geli tirildikleri dile has kalmaları da önemli rol oynamaktadır. Lins and Gonçalves (2004), Fransızca, spanyolca, ngilizce ve Portekizce dillerinde yazılmı , Web ortamındaki belgeleri birbirinden ayırt etmeye çalı mı lardır. Yöntemlerinde, zarf, tanımlık (articles), ba laç, ünlem, sayı (kelime), edat ve özel isim sözcük türlerine giren kelimeler üzerinden bir kurgu yapmı lardır. Bu sözcük türlerindeki kelimelerin, de i imlerinin ya olmadı ını veya di er sözcük türlerine nazaran de i imlerinin ihmal edilebilir düzeylerde olmasında ötürü, kapalı kelime da arcı ı ihtiyacını kar ıladı ını belirtmi lerdir. Di er sözcük türlerine ait kelimelerin ayrıca, zaman ve depolama karma ıklı ının yüksek oldu unu, bunun sebebinin, dillerin kullanımı ve geli imi içerisinde söz konusu sözcük türlerine ait kelime da arcıklarının çok hızlı büyüdü ünü, dolayısı ile de erlendirmeden çıkarttıklarını kaydetmi lerdir. Kar ıla tırdıkları diller için, kullandıkları her sözcük türüne ait kelimeleri, incelenen metnin içerisinde arayarak, dili tespit etmeye çalı mı lardır. Çizelge 9.1.1.1.’de ara tırmanın sonucu, kullandıkları sözcük türlerinin, belirli dillerde yazıldı ı bilinen metinlerde, ortak olarak içerilmesi durumları eklinde, verilmi tir. Önerilen yöntem ile, sonuç olarak Web için %80 do ruluk, düz metinler için %90 do ruluk elde edildi i belirtilmi tir. Tanıtaca ımız ikinci yöntem, n-gram dil modelini esas almaktadır (Suzuki et al, 2002). Yöntem, Web sayfalarının yazıldı ı dil, yazı ekli (script) ve çözümleme eması (encoding scheme) olmak üzere üç özelli ini belirlemek üzere tasarlanmı tır. Yazar, ngilizce’nin sayısal dünyada standartla mı olması dolayısı ile, baskınlı ından bahsetmekte ve anadili veya yabancı dili olarak, 10 milyonun üzerinde ki i tarafından konu ulan 82 farklı dil oldu undan bahsederek, bu dillerin B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 171 sayısal dünyada temsil edilmemesi ile ortaya çıkan, “sayısal bölünmenin” (digital divide), olumsuz sonuçlarını ortaya da koymu tur. Çizelge 9.1.1.1: Fransızca, spanyolca, ngilizce ve Portekizce için yazılı metinden dil tespit sonuçları (Lins and Gonçalves, 2004). spanyolca Fransızca ngilizce Portekizce Almanca talyanca # % # % # % # % # % # % Yok 1 0.11 0 0.00 0 0.00 1 0.18 3 1.89 2 1.92 Bilinmiyor 61 6.64 31 4.78 12 1.93 27 4.73 141 88.68 85 81.73 Portekizce 27 2.94 0 0.00 2 0.32 539 94.40 0 0.00 0 0.00 ngilizce 13 1.42 5 0.78 609 97.75 2 0.35 14 8.81 9 8.65 spanyolca 815 88.78 1 0.16 0 0.00 2 0.35 0 0.00 8 7.69 Fransızca 1 0.11 600 94.19 0 0.00 0 0.00 1 0.63 0 0.00 Suzuki ve arkada ları (2002) tarafından geli tirilen yöntem, di er n-gram dil modeli esasındaki yöntemlerden ayrılmaktadır. Yöntemde, Web sayfasının de erlendirmesi için hesaplama birimi olarak, bayt (sekiz ikil) kullanılmakta, bilgisayar ortamında son yıllarda tüm yaygın dilleri içine alan Unicode (UCS, ISO/IEC10646) standardı da hesaplama içinde de erlendirilmektedir. Dolayısı ile, karakter esaslı olmayan Asya dilleri de, tespit edilmekte ve birbirlerinden ayrılabilmektedir. Di er yöntemlerde ise, karakter veya kelime esasında çalı ılmaktadır. Ancak, bu yöntemin taranmı belgeler üzerinde, di er karakter esasındaki n-gram yöntemleriyle aynı akıbeti payla tı ı da unutulmamalıdır. Yöntemde, özgün metne ait bayt akı ı, 3 bayt uzunlu unda ve “shift-codon” (“codon” terimi genetik sahasından gelmektedir ve DNA zincirini olu turan genetik kodun temel birimidir) olarak adlandırılan hesaplama birliklerine çevrilmektedir. Daha sonra, yazılı metinlerin bayt akı ı içinde, bu hesaplama birliklerinin, n-gram olarak istatistikleri çıkartılarak, diller birbirinden ayırt edilmeye çalı ılmaktadır. Örne in, 184 KB büyüklü ünde, Almanca yazılı bir B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 172 metinden, çıkartılan farklı “shift codon” sayısı 10,422 olarak; 177 KB büyüklü ünde ngilizce bir metinden çıkartılan farklı “shift codon” sayısının 8,897 oldu u belirtilmi tir (Bilgimiz dahilinde, Türkçe için “shift codon” sayısının belirlendi i bir çalı ma yoktur). Çalı mada, spanyolca, Portekizce, Almanca, Romanca ve ngilizce için belirleme yapılmı , sadece Portekizce için az bir kayıp ya andı ı, di er dillerin tam do rulukla tespit edildi i belirtilmi tir. Yöntemin aleyhte yönü olarak, bir arama motoruna çevrim-içi olacak ekilde yüklenememesi gösterilmi tir. Sebep olarak da, yöntem de kullanılan “shift codon” sayısının çok büyük boyutlarda olması verilmi tir. Dil tespiti üzerine, n-gram dil modelini esas alan tanıtaca ımız çalı ma, Cavnar ve Trenkle (1994) tarafından önerilen yöntemdir. Yöntemde, n-gram dil modeli, yazılı dildeki harfleri hesaplama birimi olarak kullanılmaktadır. Ancak, n-gram olarak çıkartılan harf birlikleri kelime sınırları içerinde kalmakta, kelimeden kelimeye atlamamaktadır. Dolayısı ile, bu yöntem için yazılı metnin önce simgele tirilmesi, yani normalle tirilmesi yapılmaktadır. Daha sonra, bir alı tırma derleminden en yüksek gözlenme sıklı ına sahip, n-gramlar belirlenmektedir. De erlendirme altındaki tüm diller için, aynı ekilde n-gram istatistikleri çıkartılmaktadır. Çalı mada ele alınan altı dil için (Datca (Hollanda’da konu ulan Almanca’nın türevi bir dil), Fransızca, Almanca, talyanca, Lehçe/Polca , Portekizce ve spanyolca), metin büyüklü ünün, 22KB ile 150KB arasında de i en büyüklerinde rapor edilen sonuçlara göre, söz konusu dilleri tam do rulukla ayırt etmektedir. Metin büyüklü ü açısından alt sınır olarak, ngilizce ile spanyolca arasında yakalanmı olan 4 Kbayt (yakla ık 700 kelime) verilmi tir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 173 Olasılık/ statistiksel yöntemlere son örne imiz, gizli Markov zincirleri dil modelini esas alan ve Dunning (1994) tarafından önerilen yöntemdir. Yöntemde, yine harfler hesaplama birimi olarak alınmı (ngram), ancak, kelimeler arası geçi mümkün kılınmı tır, daha do rusu, yazılı metinden, harf dı ında tüm simgeler atılmı ve metin uzun bir harf dizisi haline getirilmi tir. Dolayısı ile, kelime sınırları ortadan kalkmı tır. Olasılık/ statistik modeli olarak birinci dereceden, gizli Markov zinciri kullanılmı tır. Çalı manın sonucu olarak, 50KB alı tırma derlemi ile, 20 bayt uzunlu undaki deneme metinlerde %92 do rulu a ula ıldı ı; deneme metni, 500 bayt oldu unda %99 do rulu a ula ıldı ı; deneme metni, 500 bayt iken, alı tırma derlemi, 5KB oldu unda %97 do rulu a ula ıldı ı rapor edilmi tir. statistiksel anlamlılık ba lamında, deneme metni 100 bayt ve üzeri, alı tırma derlemi de 50KB ve üzerinde oldu u durumlarda, do rulu un %99’dan büyük olması ihtimali %90 olarak verilmi tir. Yazılı belgelerden, Türkçe’nin tespitine yönelik çalı malara, bilgimiz dahilinde verebilece imiz tek çalı ma Dalkılıç ve Dalkılıç (2002) tarafında, yazılı Türkçe’nin n-gram istatistikleri ile ilgili yaptıkları çalı mada ortaya konan önerilerdir. Önerilerden ilki, ngilizce ve Türkçe ayrımı için, kelime uzunluklarının enformasyon olarak kullanılabilece idir. Bu önermenin temelinde, Türkçe ve ngilizce’de de i ik kelime uzunlukları için, metinlerde görülme sıklı ı oranlarının, yani kelime uzunlu u da ılımlarının farkıdır. kinci öneri, kelime sonundaki harfin sesli veya sessiz olu una göre karar verilebilece idir: ngilizce’de sadece kelimelerin %28’i sesli harfle biterken, Türkçe’de kelimelerin yakla ık %50’si sesli ile bitmektedir. Son öneri, Türkçe kelimelerin ba langıcında ve biti inde iki sessiz harfin yan yana gelmedi idir. ngilizce’de ise, bu durum, 26 en çok gözlenen desen içinde 6 desende gözlenmi tir. Önerilerinde, örne in B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 174 100 kelime içerisinde %5’in üzerinde ba langıcı veya biti i iki sessiz harf olan varsa, metnin yüksek olasılıkla ngilizce olaca ıdır. Dalkılıç ve Dalkılıç tarafından yapılan çalı mada yer alan önermeler, mevcut kurgular içinde n-gram esasına dayanan çalı maların içeri i ile örtü mektedir. Zaten, özgün çalı manın hedefindeki konu da, Türkçe’nin n-gram istatistiklerini çıkarmaktır. Ancak, mevcut yöntemlerle birlikte de erlendirildi inde, özellikle Cavnar ve Trenkle (1994) tarafından yapılan çalı mada kelime sınırlarında kalınması durumu hakkında, Dunning (1994) tarafından yapılan çalı mada, ortaya konan ele tirinin ne kadar haklı oldu u ortaya çıkmaktadır. Dunning, çalı masında kelime sınırında kalınmasının, çok ciddi enformasyon kaybı meydana getirmesi ihtimalinden bahsetmektedir. Kelimelerin dizili inin de, enformasyon ta ıyaca ı konusuna de inmektedir. Dalkılıç ve Dalkılıç’ın ikinci önerisine bakıldı ında, yani Türkçe kelimelerin ilk ve son harfleri arasındaki gözlenme sıklı ı ile, dil ayrımı yapılabilece i önerisine bakılınca, kelimeden kelimeye geçi in önemi daha da netle mektedir. Son öneride de, not edilmesi gereken bir nokta vardır. Türkçe’de en çok gözlenen 26 sesli-sessiz harf desenleri içinde, kelime sonunda iki sessiz bulunmayabilir, ancak, Türkçe’nin altı hecesinden biri olan, sessizsesli-sessiz-sessiz deseni, öneriyi varlı ı ile zayıflattı ı da bir gerçektir. Dolayısı ile, bu önerme uygulamada kullanılırken söz konusu durumun göz önünde bulundurulması gerekir. Aslen, önermenin ilk kısmını olu turan, kelime ba ında sessiz-sessiz deseni bulunmaması, bu tür bir ihlali içermedi inden, tek ba ına kullanılmasının dü ünülmesinde fayda vardır: Tabii, ba langıçta ve sonda gözlenmemenin, hangi oranda aynı kelimelere denk geldi i ile paralel büyüklükte güçlenerek. E er, ba langıçta ve sonda gözlenmeme, tamamen farklı kelimelerde meydana geliyorsa, her iki öneri de birlikte kullanılmalıdır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 175 9.1.2. Önerilen Yöntem Türkçe yazılı metinlerin, çok dilli bir belge uzayından belirlenmesi amacıyla, bu tez ile önerilen Türkçe hecelemenin (Bölüm 2) ayrımda belirleyici olaca ıdır. Önermenin biçimsel hali öyledir: Önerme 9.1.2.1: Çok dilli bir belge uzayında, içerdi i kelimeleri belirli bir oranın üzerinde, Türkçe alfabe ile yazılmı ve belirlenen kurallar çerçevesinde (sesbilim özellikleri de dahil) hecelenebilen metinler Türkçe’dir. 9.1.3. Deneysel Sonuçlar Önermemizi, elimizde olan ngilizce üç farklı derlem ve bir Türkçe derlem üzerinden sınadık. Derlemler, özellikleri ile birlikte, Çizelge 9.1.3.1.’de verilmi tir. Çizelge 9.1.3.1: Türkçe belgelerin tespitine ait deneysel sonuçlar. Derlem Time Cranfield Medalars Türkçe Kelime 249,493 249,824 155,411 635,158 Farklı 20,856 8,189 12,609 88,375 Hece 102,776 94,322 61,450 610,717 ~Hece 146,717 155,502 93,961 24,441 Oran 0.412 0.378 0.395 0.962 Çizelgede verilen sonuçlarda, “Oran” sütunu, toplan kelimelerden hecelenebilenlerin sayısını oran olarak göstermektedir. “Kelime” sütunundaki sıklık de erleri sadece harf birlikleri içindir; rakamlar, noktalama i aretleri dahil de ildir. “Farklı” sütununda ise, kelime da arcı ının büyüklü ü, yani farklı biçime sahip kelime, harf birli i sayısı verilmi tir. “Hece” sütununda, hecelenebilmi kelime sayısı, B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 176 “~Hece” sütununda da, hecelenemeyen kelime sayısı verilmi tir. Görüldü ü gibi, ngilizce derlemlerin üçü de yakla ık %40’ın altında bir heceleme oranına sahipken, Türkçe derlemdeki hecelenebilme oranı %96’dır. Uygulamada, örne in bir metinde %70 hecelemenin üzerine çıkılmı sa, o metin Türkçe olarak kabul edilmektedir. 9.2. Türkçe Metinlerin Normalle tirilmesi 9.2.1. Önceki Çalı malar Hesaplamalı dilbilim sahasında, genel anlamda metin normalle tirme, özelde cümle sonlarının tespiti, meselesi için geli tirilen çözümler, esas aldıkları yakla ımlar açısından iki ba lık altında toplanabilir: kural tabanlı ve makine ö renimi (machine learning). Kural tabanlı bir cümle sonu tespit yordamının iki yapısal unsuru bulunmaktadır. Birinci unsur, genellikle düzenli deyim dilbilgisi (regular expression grammar) eklinde kodlanan, elle olu turulmu veya bir talim derleminden özümsenerek elde edilmi kurallardır. kinci unsursa, tasarlanmı yordamın ihtiyaçlarına göre ekillendirilmi , bir listedir. Listede, kelimeler, kısaltmalar v.b. anlamsal birlikler ve bu anlamsal birliklere ait yordamın ihtiyaç duydu u özellikler kümesi bulunur. Örne in, Aberdeen ve arkada ları (1995), Alembic çalı ması için altyapı hazırlarken, 100 düzenli deyim kuralından olu mu bir yöntem kurgulamı ve uygulamı tır. Aslen, kural tabanlı sistemlerin iki açmazı vardır. Birincisi, düzenli deyimler eklinde en iyi kural kümesini olu turma i i belirsizdir. Kuralları tanımlamak için bir standart yoktur. kincisi, yordamı için olu turulan tasarımların, talim B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 177 için kullanılan derleme çok fazla ba ımlı olması, dolayısı ile, di er derlemlere genellenememesi. Cümle sonu tespiti için, makine ö renimi esasında geli tirilmi pek çok yöntem bulunmaktadır. Bu çalı malara verilebilecek örnekler: Reynar and Ratnaparki (1997) tarafından, en yüksek düzensizlik yakla ımı esasında geli tirilmi olan; Riley (1989) tarafından, karar a acı ile sınıflandırma esasında geli tirilmi olan; Palmer and Hearst (1997) tarafında, yapay sinir a ları esasında geli tirilmi olandır. Ayrıca, iki yakla ımında melezi olan, Mikheev (1997) tarafından geli tirilmi olan yöntemin örnek verilebilece i çalı malarda vardır. Mikheev çalı masında, önce gizli Markov zinciri dil modelini esas alan bir yordamla sözcük türlerini tespit etmi . Sonrasında bu sözcük türü enformasyonunu da kullanarak, en yüksek düzensizlik esasında cümle sonu tespiti yapmı tır. Türkçe tarafında cümle sonu tespiti çalı maları için verilebilecek ilk örnek Tür (2000) tarafından, doktora çalı masında geli tirdi i yöntemdir. Yöntem için, %95,66 do ruluk de eri rapor edilmi tir. Tür, çalı masında hesaplama birimi olarak kelimeleri esas alan bir gizli Markov zinciri dil modeli kullanmı tır. Ayrıca, kelimelere ait biçimsel çözümlemeler, do rusal interpolasyon ile modelin olasılık da ılımına katılmı tır. Dolayısı ile, önerilen yöntem, bir sözlük kullanmaktadır ve biçimbirimsel analiz yapılmamı bir derlem için yöntem kullanılamamaktadır. Kullanılan biçimbirimsel analiz yöntemi, Oflazer (1993) tarafından geli tirilmi olandır. Di er çalı malar, Oflazer ve arkada ları (2003) tarafından yapılmı olan ve Ziegenhain ve arkada ları (2003) tarafından Siemens firması deste inde yürütülmü LC-STAR adlı bir ticari çalı mada, B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 178 Türkçe için de kullanılan kural tabanlı yöntemdir (Bu projenin Türkçe konusundaki çalı maları, Kemal Oflazer tarafından yapılmı tır.). 9.2.2. Önerilen Yöntem Türkçe cümle sonu tespiti için, bu tezde önerilen yöntem, “Türkçe yazılı belgelerin tespiti” için önerilen yöntemdir, yani hecelemedir. Kullanılan yordam için, yazılı metindeki birliklerin tespitine, yani simgele tirmeye ve birliklere ait bazı biçimsel özelliklere (büyük/küçük harf, rakam, noktalama i areti) ihtiyaç vardır. Önerme 9.2.2.1: Türkçe yazılmı metinde, “nokta”dan önce gelen harf birli i heceleniyorsa, söz konusu “nokta”nın cümle sonu olması ihtimali, cümle sonu olmaması ihtimalinden yüksektir. Önerme 9.2.2.1.’de verilen karar verme ekli, yöntem içinde belirli bir yordam, olu turulmu bir kurgu içinde belirsizli in en yüksek düzeyinde kullanılmaktadır. Dolayısı ile, önermemiz her “nokta” gözlenen yerde kullanılarak cümle sonu tespitine gidilmemi tir. Ayrıca geli tirilmi olan bir cümle sonu tespit yordamı içinde, belirsizli in yüksek oldu u bir durumu çözümleme a amasında kullanılmı tır. Söz konusu cümle sonu tespit yordamını tanımlamak için bir simge sistemi olu turulmu tur. Öncelikle bu simge sisteminin tanıtılmaya ihtiyacı vardır. Sonrasında, yordam simge sistemi kullanılarak verilecektir. Cümle sonu tespit için, tez kapsamımızda kullandı ımız simge sistemi Çizelge 9.2.2.1.’de liste halinde verilmi tir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 179 Çizelge 9.2.2.1: Cümle sonu yordamını tanımlamada kullanılan simge sistemi. Simge Anlamı w Ba langıcında küçük harf bulunan tüm harf birlikleri. W # Ba langıcında büyük harf bulunan tüm harf birlikleri. Tüm rakam birlikleri. (Gerçek sayı, tam sayılar rakamla veya yazı ile, tarih, saat, telefon numaraları, v.b.) T Kesme/Tırnak (‘) TT Çift tırmak (“) K Tire (-) V Virgül (,) ( Parantez açma i areti ) Parantez kapama i areti : ki nokta üst üste ; Noktalı virgül P Tüm noktalama i aretleri ve di er simgeler ( %, &, $, v.b.) EOS Cümle sonu ~EOS Cümle sonu de il Tanımlanabilecek tüm yazım birlikleri (w, W, #, T, TT, K, V, “(“, “)”, P) ∞ Çizelge 9.2.2.1.’de verilen simge sistemi ile, cümle sonu tespit yordamında kullandı ımız hesaplama birimi, bir üçlü eklinde tanımlanabilmektedir. Yordamda kullanılan hesaplama birimi, “nokta” ve etrafındaki iki birliktir. Örne in, [w * W] eklinde, noktadan önce ba langıcı küçük olan bir harf birli i, noktayı (* i aret nokta için kullanılmakta) ve noktadan sonra ba langıcında büyük harf olan bir harf birli i, üçlü olarak temsil edilmektedir. Cümle sonu tespit yordamının karar verme a amalarında, talim derleminde kar ıla ılan her durum, bu biçimde üçlü eklinde cümle sonu olma veya olmama açısından de erlendirilmektedir. Cümle sonu tespiti için kullandı ımız yordam, simge sistemi üzerinden tanımlanan tüm durumlar için alınabilecek üç karardan B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 180 olu maktadır, yani her durum için “cümle sonu”, “cümle sonu de il” ve “belirsiz” eklinde bir karar vermektedir: • E er üçlü ile temsil edilen durum listelenenlerden biriyse, “nokta”yı, “cümle sonu” olarak i aretle: [w*W], [w* #], [w*P], [W*#], [W*TT], [W* ( ], [W* )], [W* K], [P*∞]. • E er üçlü ile temsil edilen durum listelenenlerden biriyse, “nokta”yı, “cümle sonu de il” olarak i aretle: [W*w], [W*V], [#* w], [#*W], [#*#] • Di er durumlarda “belirsiz” olarak i aretle ve detaylı incelemeye al. Yordam ile “belirsiz” olarak i aretlenen durumlar çalı mamızın ve önermemizin hedefinde bulunmaktadır. Dolayısı ile, deneysel çalı ma ile önermemiz bu “belirsiz” durumlar için sınamayı içermektedir. 9.2.3. Deneysel Sonuçlar Tanımlanan yordamın, karar verme a amalarında kullanılan üçlü birliklerin her durumu için Çizelge 9.2.3.1.’de özellikleri verilen deneysel bir derlem kullanılmı tır. Aslen, bu deneysel derlem BilTD derleminde seçilmi bir bölümdür ve cümle sonları kontrol edilmi ve bulunan hatalar elle düzeltilmi tir. Çizelge 9.2.3.1: Cümle sonu tespiti için kullanılan Türkçe derlemin belirli özellikleri. Nokta sayısı Birlik ~EOS EOS Toplam 168,375 674 12,026 12,700 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 181 Deneysel derlemde, her nokta cümle sonu olup, olmaması açısından belirlenmi ve noktanın önündeki ve ardındaki birlikler belirlenerek karar vermede kullanılacak her bir durum tespit edilmi tir. Yapılan çalı manın sonuçları Çizelge 9.2.3.2.’de tablo halinde verilmi tir. Çizelgeden [P * ∞] üçlüsü çıkarılmı tır. Bunun sebebi, bu üçlü birli i tüm durumlarının, yani gözlenen 495 durumun hepsinin cümle sonu olmasıdır. Deneysel derlemden çıkartılan durumları, belirsizli i en yüksek olandan dü ü e do ru inceleyerek, cümle sonu tespiti yordamımızda, “belirsiz” olarak i aretlenecek üçlü birlikleri listelemi olaca ız. Sonrasında, her belirsiz durumun çözümü verilerek yordamın tanımlaması tamamlanacaktır. Çizelge 9.2.3.2: Cümle sonu tespit yordamında kullanılan ve üçlü birlikle temsil edilen durumlar için Türkçe derlemden çıkartılan istatistikler. Durum EOS ~EOS Durum EOS ~EOS Durum EOS ~EOS [w * w] 8 10 [W * w] 0 10 [# * w] 0 267 [w * W] 9395 1 [W * W] 739 183 [# * W] 36 106 [w * #] 320 2 [W * #] 44 1 [# * #] 1 27 [w * T] 41 1 [W * T] 3 5 [# * T] 0 1 [w * TT] 601 0 [W * TT] 41 1 [# * TT] 0 16 [w * ( ] 57 0 [W * ( ] 9 0 [# * ( ] 0 1 [w * ) ] 19 0 [W * ) ] 3 0 [# * ) ] 1 3 [w * K] 174 0 [W * K ] 38 0 [# * K] 0 8 [ w*/] 1 0 [W * V] 0 3 [# * V] 0 28 Toplam 10616 14 877 203 38 457 Deneysel derlemde kar ıla ılan durumların, cümle sonu olu açısından belirsizli i en yüksek olandan, en dü ük olana do ru sıralanmı eklideki öyledir: B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 182 1. [w*w]: ba langıcında küçük harf olan bir harf birli i, nokta ve ba langıcından yine küçük harf olan bir harf birli i. Bu sınıftaki durumlar, gözlenme sıklı ı açısından az olmasına ra men, derlemimizde oransal olarak en büyük belirsizli e sahip olandır. Bu durumun tamamını ~EOS, yani “cümle sonu de il” olarak i aretlemek en uygun karar olacaktır. Çünkü, kar ıla ılmı 10 EOS durumunun tamamı, :“… yapıldı. c-) Ba kanlıklar ….” biçiminde madde imleridir. Ayrıca, madde imi belirleme meselesi, rahatlıkla simgele tirmeye dahil edilip halledilebilecek bir konudur. Dolayısı ile, bu belirsizlik cümle sonu tespit a amasına da dahil olmayacaktır. 2. [W*W]: ba langıcında büyük harf olan bir harf birli i, nokta ve ba langıcından yine büyük harf olan bir harf birli i. Bu sınıftaki durumlar, gözlenme sıklı ı açısında, belirsiz durumlar içerisinde en yüksek de ere sahip olandır. Bu durum genellikle unvan (“Prof. Dr. Mustafa …”) ve özel isim kısaltmaları (“ … küçük A. H. yalnız …”) gibi yazım biçimleri içinde gözlenmektedir. 3. [#*W]: noktadan önce bir rakam birli i, nokta ve sonrasında ba langıcı büyük harf olan bir harf birli i. Bu sınıftaki durumlar da, yüksek gözlenme sıklı ına sahiptir, ancak ~EOS, yani cümle sonu olmama, EOS, yani cümle sonu olmasına göre daha baskındır. Cümle sonu olmadı ı durumlar, genellikle “… 2. Tümen ...” gibi “inci” anlamında, sıralama amacıyla kullanılmaktadır. Cümle sonu oldu u durumlar da, “… ölenlerin sayısı en az 28. Fransa’da 10 …” örne inde oldu u gibi sayısal de er belirtmektedir. 4. [#*P]: noktadan önce bir rakam birli i, nokta ve sonrasında bir noktalama i areti. Bu durumun baskın ekli, “… 2.’lik için mücadele …” örne inde oldu u gibi, ~EOS, yani cümle sonu olmamadır. Ancak, “… (…kitabı sf. 27.). …” örne inde oldu u gibi, EOS, yani cümle sonu olması da söz konusudur. Aslen, cümle sonu olu durumu, toplam 50 durum içinde, 1 kere gözlenmektedir. Dolayısı ile, bu durumun tamamını, “cümle sonu de il” eklinde kabul etmek, hesaplama açısında daha avantajlıdır. Derlem açısından, bu kararın toplamda ortaya çıkardı ı hata, 1/12700 gibi çok küçük bir de erdir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 183 5. [W * TT] and [w * TT]: noktandan önce ba langıcı küçük harf veya büyük harf olan bir harf birli i, nokta ve sonrasında çift tırnak. Bu duruma uygun örneklerin, derlemde baskın olan gözlem ekil EOS, yani cümle sonu olmadır. Bilindi i gibi, çift tırnak, genellikler yazıyı hazırlayan yazarın, ba ka yazarlardan alıntıların ve konu maların aktarılması için kullanılır. Ancak, günümüz yazım eklinde, özellikle gazete ve dergi haberlerinde, çift tırna ın “… yerine “Gelme”nin …” örne indeki gibi, kesme i aretini de kar ılar halde kullanıldı ı görülmektedir. Bu durum, ayrıca dikkat edilmesi gerek bir meseledir. Çünkü, kural de il, istisnanın yaygınla masıdır. Derlemden tespit edilen ve yukarıda listelenen belirsiz durumlar, toplam 310 belirsiz durumun, 303’ünü kapsar. Cümle sonu tespit yordamını ve önermemizi de erlendirirken, yordam tarafından “belirsiz” olarak i aretlenmi olan 310 durumu da, EOS, yani cümle sonu olarak kabul edersek, yalın olarak ba arım %94,69 do ruluk de erine sahip olur. Bu de er, yalın olarak yordam kullanıldı ında elde edilecek e ik do ruluk de eridir. Amacımız, heceleme esasına dayanan önermemizle, do rulu u ne kadar arttırabilece imizi tespit etmektir. Çözümlerimizle ula tı ımız en yüksek ba arım de eri %96,24’dir. [W * W] belirsizli inin çözümü. E er bu durum için gözlenen 739 örnek, e ik de erin kabullenmesindeki gibi EOS, yani cümle sonu olarak kabul edilirse, geriye kalan 183 ~EOS gözlemi hata olacaktır. Dolayısı ile, durumun kendi içinde %19,84 (183/922) de erinde bir hata, derlem genelinde de %1,44 (183/12700) de erinde hata meydana gelecektir. Yani, derlem genelinde, e ik ba arımın ötesini olu turan %5,31 de erindeki hatanın, 1,44’ü kaynaklanmaktadır. Derlemde yapılan sadece bu durumdan incelemede, gözlemlerin B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 184 genellikle, kısaltmalar v.b. örneklerden olu tu unu belirtmi tik. Heceleme esasındaki önermemiz ile bu durumda meydana getirdi imiz iyile tirme, Çizelge 9.2.3.3.’de tablo biçiminde verilmi tir. lk de erlendirmede, heceleme ile bu durum için toplam hata oranı, kendi içinde %6,8 de erine inmi tir (27+36/922), dolayısı ile özgün de er olan %19,84 de erinden, yakla ık %65 indirgemeye kar ılık gelmektedir. Söz konusu ba arım artı ı ile, derleme yansıyan hata oranında, yani %1,44 de erinde da, %0,5 bir indirgeme meydana gelmektedir. Ayrıca, heceleme ile olu mu olan “yanlı alarm” durumları detaylı olarak incelendi inde, 27 yanlı alarmdan, 18 tanesinin tek sesli harften olu an heceler oldu u tespit edilmi tir. Ancak, Türkçe’de tek sesli harften olu an kelime sadece, “o” ve nadiren “a” (ünlem edatı) kelimeleridir. Dolayısı ile, yanlı alarmlardan 18 tanesi de kontrol altına alındı ında, kendi içinde hata oranı %4,8 de erine inmekte, derlem genelinde yaratılan toplam hata de erinden, yakla ık %0,35 dü ü meydana gelmektedir. Özetle, heceleme esasındaki önermemizle, toplam e ik ba arım de eri, %94,69’den %95,78’e çıkmaktadır (94,69 + 1,09). Çizelge 9.2.3.3: Cümle sonu tespitinde, [W*W] durumu için, heceleme önermesi ile meydana gelen hata oranları. EOS ~EOS Hece ~Hece Toplam 703 36 (hata) 739 27 (yanlı alarm) 156 183 [# * W] belirsizli inin çözümü. E er bu durum için gözlenen 36 örnek, e ik de erin kabullenmesindeki gibi EOS, yani cümle sonu olarak kabul edilirse, geriye kalan 106 ~EOS gözlemi hata olacaktır. Derleme yansıyan toplam 5,31 puanlık hatanın, 0,83 (106/12700) puanı bu durumdan kaynaklanır. Dolayısı ilk yapılacak ey, durumu ~EOS B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 185 olarak almaktır. Böylece, derleme yansıyan hata, puan olarak 0,28’e inecektir. Genel ba arım, %95,78’den, %96,06’ya çıkacaktır (0,830,28). Bu 36 hatadan 5’i, “… 3.’lük Aydın, …” örne indeki gibi, içinde kesme ile ayrılmı harf birli i içerenlerdir. Kullandı ımız simgele tirme yönteminde, “3.’lük” gibi karma birlikler rakam birli i olarak belirlenmektedir. Cümle sonu tespitinde kullanılan yordam da, noktayı aramaktadır. Nokta birinci birlik içinde kalmaktadır ancak, hem bu durum hem de [#*T] durumu tetiklenmektedir. Bu hata, simgele tirme yordamının genele hitap etmesinden, cümle sonu tespiti için uyarlanmamasından kaynaklanır. Sadece cümle sonu tespitinde kullanılacak bir simgele tirme tasarlanarak hata olu madan da önlenebilir. Ayrıca 5’i de, “… suare 18:30. Harbiye …” örne indeki gibi, içinde iki nokta üst üste i areti bulunduranlardır. Geriye kalan 26 hata ise, “… Zafer yılı : 1996. Fenerbahçe …” ve “… kazanan ilk üç numara 7 4 6. …” gibi örnekleri olanlarla, “ Tel: 0312 555 55 55. …” örne indeki gibi telefon numarası içeren durumlardan meydana gelmektedir. lk 10 hata yaratan EOS, aslen içerdikleri enformasyon ile, belirsizli e yol açmadan EOS olarak belirlenebilir. Dolayısı ile, toplamda geriye hata olan ve belirsiz olarak i aretlenmi 26 durum kalır. Ancak, bu durumlarda detaylı incelendi inde, 13 durumun tamamında, sayı, numara, rakam, yıl, sene, tarih kelimelerinden biri kullanılmı tır . Dolayısı ile, geriye ~EOS olarak belirlenmi 23, belirsiz olan 13 durum kalır. Özetle, genel ba arım %94,69’dan %96,24’e çıkar (0,28 – 0,18). 9.3. Gövdeleme Gövdeleme i leminin tanımı öyledir: B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 186 “Aynı gövdeye sahip tüm kelimelerin, genel olarak, yapım ve çekim eklerinin atılması ile, ortak bir biçime getirilmesi için kullanılan bir yordamdır.” (Lovins, 1968) Bilgi geri-getirim sahasında ve hesaplamalı dilbilim sahasında ngilizce a ırlıklı olmak üzere, analitik diller için pek çok gövdeleme yöntemi geli tirilmi tir. Analitik diller, biçimbirimsel üretkenlik açısından, Türkçe gibi biti ken dillere nazaran daha takip edilebilir niteliktedir. Ek sistemleri, örne in Türkçe’de oldu u gibi, kelimelere ait dilbilgisi özelliklerinin tamamını kar ılamak üzere kullanılmaz. Sadece belirli ve basit dilbilgisi özellikleri için kullanılır (bazı kelimeler için ön-ek ile olumlu olumsuz hal üretme, kelimelerin ço ul hallerini yapma v.b.). Dolayısı ile, gövdeleme i lemi, nispeten kolay bir i tir. Tüm gövdeleri tespit edebilmek için sadece 1200 biçimbirimsel de i ikli i üretebilen bir düzenli deyim sistemi kullanımı bile yetebilmektedir (Porter, 1980). Türkçe gibi biti ken dillerde, kelime üretimi ve kelimelerin dilbilgisi özellikleri ek sistemi kullanılarak sa lanır. Türkçe’de yapım ve çekim eklerinin kurallarına ba lı kalarak kullanımı ile, üretilebilecek anlamlı gövde sayısı, sadece tek bir kelime için dahi milyonun üzerinde olabilmektedir (Hankamer, 1984). Dolayısı ile, hesaplamalı dilbilim sahasında kullanılacak, Türkçe için bir gövdeleme yordamı, analitik dillerde oldu u kadar basit ekilde kurgulanamaz. Ancak, bilgi gerigetirim sahasında, gövdeleme yordamından beklenen, hesaplamalı dilbilim sahasındaki ile bire bir örtü mez. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 187 9.3.1. Önceki Çalı malar Bilgi geri-getirim sahasında, ngilizce gibi analitik diller ve Fransızca, Almaca gibi orta-Avrupa dilleri için kullanılan gövdeleme yöntemleri 4 ba lık altında toplanabilir: tablodan arama (table lookup), takibin de i imi (successor variety), n-gram ve ek-atma. Tablodan bakma yöntemlerinde, adından da anla ılaca ı gibi, kelimelerin yazım biçimleri ve yazım biçimlerine ait gövdeler bir tablo halinde tutulur. Yazımda kar ıla ılan harf birli i bu tabloda yazım biçimleri içinden aranır, bulunursa, kar ılık gelen gövde seçilir. Ancak, pratikte ne analitik diller için, ne de biti ken diller için böyle genel bir tablo yoktur. Sadece, kısıtlı konu ba lıkları için böyle bir tablo olu turulabilir. Ayrıca, depolama da mesele yaratan bir konudur. Takibin de i imi yönteminde, kelime veya biçimbirim sınırlarının tespiti için, sesbirimlerinin (Türkçe için harfler olmakta) büyük derlemlerden elde edilen deneysel da ılımlarından yararlanılır. Belirli bir kelime için, takibin de i imi kelime ba ından sonuna do ru uygulanır, yani Türkçe’de ba tan sonu do ru her seferinde bir harf ilerlenir. Bir kelime için takibin de i iminin de eri, hesaba daha fazla harf katıldıkça, yani ba tan sona ilerlendikçe azalır. Bir n-gram esaslı gövdeleme yönteminde, sorgu ve belge birlikleri arasındaki benzerlik ölçülür. Boyu m karakterden olu an bir birlikten, m-n+1 adet n-gram çıkar. Benzerli i ölçülecek bir birlik çifti için Dice katsayısı (Dice’s coefficient : Denklem 9.3.1.1.) hesaplanır ve n-gramların kar ılıklı de erleri bir matris haline getirilir. Daha sonra, her birlik çifti için olu turulan matrisler kullanılarak, terimler tekil-ba B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 188 kümeleme yöntemi kullanılarak öbekler haline getirilirler, dolayısı ile her öbek bir gövde, yöntemde bir anlamda gövdeleme olur. S = 2C /( A + B ) (9.3.1.1) Denklem 9.3.1.1.’de, C terimi, iki birlik tarafından ortak olarak içerilen farklı n-gram sayısını temsil eder. A ve B terimleri de, kar ıla tırılan iki birlikten her birinde içerilen farklı n-gram sayılarını temsil eder. Ek atma yöntemleri, yine adında da anla ılaca ı gibi, kelimelerin yazıda geçen biçimlerinden, ön-eklerin ve son-eklerin atılması ile kelime gövdesini olu tururlar. Porter (1980) tarafından kural tabanlı olarak geli tirilen yordam, bu sınıftaki gövdeleme yöntemlerine güzel bir örnektir. Türkçe için geli tirilmi olan birkaç gövdeleme yöntemi bulunmaktadır ve gövdeleme hem hesaplamalı dilbilim hem de bilgi geri-getirim sahasında çalı ılmı bir konu olarak, kelime dilbilgisi özelikleri içerisinde en çok incelenen konu olmu tur. Bunun haklı sebepleri vardır. Gövdeleme bilgi geri-getirim sahasında bir çok çalı ma ile geri-getirim ba arımını tutarlı ekilde arttırıcı bir unsur olarak rapor edilmi tir. Ayrıca, bilgisayar ortamında kelimelerin yazım ekillerinin do rudan depolanması da, yer açısından oldukça maliyetli bir durum meydana getirmektedir. Türkçe için geli tirilmi olan ilk gövdeleme yöntemi, L-M (Longest Match) veya en uzun e le me adıyla Kut ve arkada ları (1995) tarafından yapılan çalı mada ortaya konmu tur. Yöntemde, kelime gövdelerinin ve olası biçimlerinin yer aldı ı bir sözlük B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 189 bulunmaktadır. Belge ve sorgulardaki birlikler bu sözlükte yer alan kelimelerle harf esasında ba tan itibaren e le tirilmekte ve en uzun e le menin yakalandı ı kelime, birli in gövdesi olarak alınmaktadır. kinci yöntem, Solak ve Can (1994) tarafından, gövdeleme yapmanın, bilgi geri-getirimi üzerindeki ba arım etkilerinin ölçülmesine dair bir çalı mada ortaya konandır. A-F adıyla anılan yöntemde, güncel kullanımda olan Türkçe gövdelerin ve her gövde için, gövde üretme yordamını destekleyen 64 özelli in içerildi i bir sözlük kullanılmı tır. Belge ve sorgudaki bir birlik için, her seferinde ba tan bir harf hesaba katılarak sa a do ru ilerlerken, sözlükten e le tirme yapılmaktadır. E er e le en bir kelime kökü bulunursa, olası gövdeleri türetilmekte ve birlikle tam örtü en bir türeyi olması halinde, söz konusu türetim, birlik için olası bir gövde olarak belirlenmektedir. Bu yöntemle, bir birlik için olası birkaç gövde belirlenebilmektedir. Çalı mada, bir Türkçe birli in, yani bir kelimenin yazımdaki biçimi için ortalama 1,2 adet gövde oldu u bildirilmi tir (90.912 farklı birlik için, 111.092 gövde üretilmi tir). Solak ve Can tarafından geli tirilen bu gövdeleme yöntemi, aslen Oflazer (1993) tarafından geli tirilmi olan biçimbirimsel analiz yordamının, bilgi geri-getirim sahasında kullanılabilecek bir uyarlamasıdır. Aynı kural kümesi, iki-seviyeli dil modeli yerine, daha hızlı çalı acak ekilde tasarlanmı tır. Türkçe için verece imiz son yöntem, Sever ve Bitirim (2003), tarafından geli tirilmi olan FindStem adlı gövdeleme yordamıdır. Bu yöntem üç alt yordamdan meydana getirilmi tir: Kökün bulunması, biçimbirimsel analiz ve gövdenin belirlenmesi. Yordamlara destek olarak, güncel Türkçe kelime kökleri, kelime köklerine ait biçimbirimsel analizde kullanılacak özelikler, kelimenin olası sözcük B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 190 türleri ve kelime türetme için gerekli dizim kurallarının içerildi i bir sözlük de olu turulmu tur. FindStem yönteminin, kökün bulunması alt yordamında, incelenen birlik için olası tüm kelime kökleri tespit edilmektedir. Olası kelime kökleri bulunurken, sözlükte kodlanmı olan biçimbirimsel özellikler de (son harf de i imi “ara-arıyor”; sondaki sedasız sessizin sedalıla ması “kitap-kitabı”; orta hece seslisinin dü mesi “o ul o lum”) hesaba katılarak kökler belirlenmektedir. Biçimbirimsel analiz alt yordamında, yapım ekleri ve çekim ekleri ayrı olarak ele alınmakta ve incelenmektedir. Yapım ekleri kendi içinde, fiil kökünden türemi isim gövdeleri ve isim kökünden türemi isim gövdeleri ayrımı gözetilerek atılmaktadır. Gövdenin tespiti alt yordamında, e er önceki iki alt yordam tarafından tespit edilebilmi bir gövde veya kelime kökü yoksa, bu a amada birlik oldu u gibi bırakılmakta ve bir kayıt dosyasına konmaktadır. Çalı mada bu kayıt dosyasına atılmı olan kelime daha sonra incelenip, sözlü e eklendi i belirtilmektedir. Kayıt dosyasına atılan birliklerin ço unlu unun, yabancı kelimeler oldu u ve Türkçe’ye uyarlanarak alındı ı belirtilmi tir. Sever ve Bitirim (2003), FindStem yöntemini hem L-M hem de A-F yöntemi ile kar ıla tırmı lardır. Yöntem, gövdeleme olarak da, bilgi geri-getirim ba arımına etki olarak iki yöntemden üstün sonuçlar vermi tir. Yazarların çalı malarında belirttikleri husus, Türkçe gibi biti ken dillerde, biçimbirimsel analiz yapılmadan gövdeleme yapmanın hatalara sebep oldu udur. Örnek olarak “edebilecek” birli inin, olası kelime gövdelerinin “edebi”, “edep” ve “ede” eklinde oldu u, biçimbirimsel analiz yapılmadan, en uzun e le me fikri esasında gerçek gövdenin tespit edilemeyece i belirtilmi tir. Ayrıca, B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 191 sözlük kullanmanın da gereklili i, lehte fikirler sunularak üzerinde durulmu bir meseledir. 9.3.2. Önerilen Yöntem Bilgi geri-getirim için uyarlanacak her dilbilimsel yöntem için olması gerekti ini söyledi imiz artlar, yani sözlüksüz çalı ma ve hesaplama karma ıklı ının dü ürülmesi, önerdi imiz gövdeleme yöntemi için de geçerlidir. Yöntem kurgusal olarak, istatistik/olasılık esasına dayanmaktadır. Yöntemi vermeden önce, kullanılacak simge sisteminin tanıtılmaya ihtiyacı vardır. Dolayısı ile, tanıtımımız simge sistemi ile ba lamaktadır. 9.3.2.1 Simge Sistemi Belge veya sorgudaki, yazım biçimi olarak belirli bir birlik, yöntem anlatımı içinde, s n = h1h2 hn eklinde bir harf silsilesi olarak temsil edilmektedir. Temsilde, her harfi belirten hi ( i = 1,2, , n ) simgesi, tanımlanmı olan bir Türkçe alfabenin (A) elemanıdır ve n indisi kelimenin harf olarak uzunlu unun sayısal de erine e ittir. Yöntemde kullanılmak üzere tanımlanmı Türkçe alfabe, geçerli alfabenin 29 harfi ve ek olarak bir de “_” (alt tire, kelime sonunu belirtmek için, yani bo luk yerine kullanılmaktadır) simgesini içermektedir: A = {a, b, c, ç, d , e, f , g , , h, ı, i , j , k , l , m, n, o, ö, p, r , s, , t , u , ü, v, y, z, ' _'} (9.3.2.1.1) Birlik temsili için kullandı ımız, s n harf silsilesinin, herhangi bir kısmi harf silsilesi de, ( 1 ≤ i ≤ j ≤ n ), s n [i : j ] = hi hi +1 h j , B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 192 s n [: j ] = h1 h2 h j ve s n [i :] = hi hn ekilde üç biçimde temsil edilebilmektedir. Bu kısmi harf silsileleri içerisinde, s n [i : i + 1] = hi hi +1 ile temsil edilen ve iki harften olu an çift (2-gram) hesaplama birimi olarak kullanıldı ından dolayı, ( h1 , h2 ) i eklinde özel bir biçimsel temsile daha sahiptir ( i = 1,2,..., n ). Kullanılan indis, i, h1 = hi , h2 = hi +1 ∈ A olacak ekilde, çifte ait ilk harfin gerçek silsile içindeki sıra numarasıdır. i = n durumunda, çiftin son harfi için sıra numarası, görüldü ü gibi birli in boyunu a maktadır. Bu durumda, çift, ilk harfi silsilenin son harfi ve ikinci harfi “_” olarak alınıp, ( hn , ' _' ) i = n eklinde meydana getirilmektedir. Belirli bir harf çifti için, ( h1 , h2 ) j (1 ≤ j ≤ n max , n max simgesi Türkçe kelimelerin olası en uzun harf sayısıdır14.) bu çiftin verilen bir birlik temsili içinde bulundu unu, yani bu iki harfi aynı sıralama ile içerdi ini belirtmek üzere, (h1 , h2 ) j ∈ s n ifadesi kullanılacaktır. Bu ifade, (h1 , h2 ) i çifti ile belirtilen ve s n birlik temsilinde, i pozisyonunda bulunan belirli bir çift için, ( h1 , h2 ) i = (h1 , h2 ) j durumunu ancak i=j ise sa lanacaktır. Yani, hem harfler e le ecek hem de j indisi silsile içindeki yeri de belirtecek. Harfler silsile içinde e le iyor olsa bile, j indisi ile belirtilen yerde de illerse, ( h1 , h2 ) j çifti sn birlik temsilinin elemanı olarak sayılmayacaktır ( (h1 , h2 ) j ∉ s n ). Son olarak, g m = s n [: m] ve em+1 = sn [m + 1 :] eklinde iki temsil daha tanımlayarak simge sistemimizi belirlemi oluyoruz ( 1 ≤ m ≤ n ). Bu iki kısmi temsil ile, belirli bir birli i, ardı ık iki parçadan olu an bir harf silsileleri çifti eklinde, yani s nm = ( g m , em +1 ) biçiminde de temsil edebilmek için tanımlıyoruz. 14 Deneysel derlemimizde, rastlanan en uzun birlik 23 harften olu maktadır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 193 9.3.2.2 Sıralı Çiftler ve Örneklem Kümesi E er L kümesini, i = 1,2,..., n max olacak ekilde, Türkçe yazılı birliklerde gözlemlenebilecek tüm olası (h1 , h2 ) i sıralı çiftlerinin toplulu u olarak tanımlarsak; L kümesi, ( h1 , h2 ) i sıralı çiftleri için örneklem kümesi olur ve Denklem 9.3.2.2.1.’de verildi i biçimsel olarak temsil edilebilir. L = { (h1 , h2 )i h1 , h2 ∈ ekilde ∧ 1 ≤ i ≤ nmax } Ayrıca, Gk , E k , Tk ⊂ L olacak ekilde, Gk , E k ve Tk kümelerini, (h1 , h2 ) i çiftleri için olay kümesi olarak kabul edersek ( 1 ≤ k ≤ n max ). Gk = { (h1 , h2 ) i i = k ∧ (h1 , h2 )i ∈ g m ∧ 1 ≤ m ≤ nmax } Ek = {(h1 , h2 ) i i = k ∧ (h1 , h2 ) i ∈ em ∧ 1 ≤ m ≤ nmax } i = k = m; Tk = (h1 , h2 ) i h1 = g m [m : m] ∧ h2 = em+1[m + 1 : m + 1] ; 1 ≤ i ≤ nmax G k olay kümesi, gövde içinde gözlenen çiftleri; E k olay kümesi, ek silsilesi içerisinde gözlenen çiftleri; Tk olay kümesi de, bir birlik içerisinde, gövde ve ek birle iminde yer alan çiftleri, yani birinci harfi gövde kısmının sonunda kalan harfi, ikinci harfi de ek kısmının ba langıcında olan çiftleri içermektedir. Tanımlanan, L örneklem kümesi ve G k , E k ve Tk olay kümeleri sayesinde, verilen bir s n = h1 h2 hn birlik temsilinde, i = 1,2,..., n B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 194 sırasındaki herhangi bir ( h1 , h2 ) i çift için, gövdenin bir parçası olma olasılı ı, ek sisteminin bir parçası olma olasılı ı ve gövde ile ek sisteminin geçi inde olma olasılı ı hesaplanabilir. Pr (s n [i : i + 1]∈ Gi ) = Pr (( h1 , h2 ) i ∈ Gi ) = PG (( h1 , h2 ) i ) Pr(s n [i : i + 1]∈ E i ) = Pr ((h1 , h2 ) i ∈ Ei ) = PE ((h1 , h2 ) i ) Pr (s n [i : i + 1] ∈ Ti ) = Pr ((h1 , h2 ) i ∈ Ti ) = PT (( h1 , h2 ) i ) (9.3.2.2.1) (9.3.2.2.2) (9.3.2.2.3) 9.3.2.3 Talim Derleminden Olasılıkların Tespiti Denklem 9.3.2.2.1, .2, ve 3.’de belirtilen olasılıkların deneysel de erlerinin bulunabilmesi için kullanılacak hesaplama yöntemleri, sırasıyla, Denklem 9.3.2.3.1, .2, ve 3.’de verilmi tir. PG (( h1 , h2 ) i ) = f g ,i * w g ,i / N (9.3.2.3.1) PE ((h1 , h2 ) i ) = f e,i * we,i / N (9.3.2.3.2) PT ((h1 , h2 ) i ) = f t ,i * wt ,i / N Hesaplama için verilen denklemlerde, (9.3.2.3.3) f g ,i , f e,i , ve f t ,i simgeleri sırasıyla, (h1 , h2 ) i çiftinin i sırasında, gövde içinde görülme sıklı ı, ek silsilesi içinde görülme sıklı ı ve gövde-ek birle iminde görülmesi sıklı ıdır. w g ,i , we,i , and wt ,i simgeleri ise, i sırası için f g ,i , f e,i , ve f t ,i görülme sıklıklarına verilecek, 0 ile 1 arasında a ırlık de erleridir. A ırlık de erleri, her (h1 , h2 ) i çifti için, toplamı 1 edecek ekilde tespit edilmektedir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 195 9.3.2.4 Olasılık Esasında Gövdeleme Yordamı Denklem 9.3.2.2.1, .2, ve 3. ile, verilen bir s n = h1h2 hn birlik temsili için olası kelime gövdeleri Önerme 9.3.2.3.1.’de verildi i ekli ile tespit edilebilir. Önerme 9.3.2.3.1: E er, verilen bir s n = h1h2 hn , birlik temsili için, 1 ≤ m ≤ n sırasında, belirli bir 0 ≤ α ≤ 1 sabiti için, PE ((h1 , h2 ) m ) > PG ((h1 , h2 ) m ) ve PT ((h1 , h2 ) m −1 ) ≥ α s nm −1 = ( g m −1 , em ) ardı ık silsile çifti temsili içindeki, g m −1 kısmi harf birli i, s n = h1h2 hn birli inin, seçilen α sabit de erindeki olası gövdesi olacaktır. artı sa lanıyorsa; aynı birli in Önerme, 0 ≤ α ≤ 1 parametresi ile ayarlanabilir, bir ba ka söyleyi le uyum sa layabilir (adaptive) bir gövdeleme yöntemi tarif etmektedir. Örne in, belirli bir bilgi geri-getirim sisteminin hedef aldı ı belge uzayı için, en uygun 0 ≤ α ≤ 1 parametre de eri, ba arımın en yüksek oldu u noktanın talimle elde edilmesi ile belirlenebilir. Ayrıca, sorgu geri-beslemesinde kullanıcının alaka ile ilgili ba arım geribildirimlerine göre de i en bir parametre de eri saptamasına da gidilebilir. 9.3.3. Deneysel Sonuçlar Gövdeleme için önerdi imiz kurgunun deneysel sınamalarında, talim ve test derlemleri için BilTD derleminden farklı iki parça alınmı tır. BilTD derleminden alınan talim ve test derlemlerinin B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 196 özellikleri, ve yöntemin genel ba arımı Çizelge 9.3.3.1.’de tablo halinde gösterilmektedir. Çizelge 9.3.3.1: Gövdeleme yöntemi sınamalarında kullanılan Talim ve Test derlemi özellikleri. Derlem Talim Birlik 149,189 Farklı Bir. 36,902 Gövde 10,568 Bilinmeyen * Üretilen * Çift Say. 5,648 Ba arım(%) * Test 148,486 36,563 10,253 4,102 9828 * 95.8 Çizelgeden de görülebilece i gibi, talim derleminin boyutu 149.189 harf birli i, test derleminin boyutu da 148.486 harf birli idir. “Farklı Bir.” sütununda, farklı yazım biçimine sahip harf birli i sayısı; “Gövde” sütununda, derlem içinde gözlenen farklı yazım biçimlerine sahip gövde sayıları; “Bilinmeyen” sütununda, test derleminde bulunan, fakat talim derleminde olmayan farklı gövde sayısı; “Üretilen” sütununda, test derleminin gövdelerinden, önerilen yöntem ile üretilebilmi lerin sayısı; “Çift Say.” sütununda, talim derlemindeki harf birliklerinden elde edilen, farklı biçim ve de i ik sıralı, harf çiftleri sayısı; “Ba arım” sütununda da, önerilen yöntemin gövdeleri üretebilme do rulu u, yani yordamın ba arımı oransal olarak verilmi tir (%95,8). Derlemlerde, BilTD derlemi biçimbirim ve söz-dizim analizine sahip oldu u için gövdeleri bellidir. Ancak, BilTD derlemi otomatik olarak üretildi i için, gövde ve eklerde görülen hatalar elle düzeltilmi tir. Test derlemindeki 36.563 birlik, 10.253 farklı gövdeden türetilmi tir. Dolayısı ile, gövdeleme ile bu derlem üzerinde yakalanabilecek sıkı tırma oranı %71’dir. Bunun anlamı, bir Türkçe, bilgi geri-getirim sistemi için indeks terim listesinin %71 oranında küçültülmesidir. Söz konusu sıkı tırma oranı, gövdeleme ile test B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 197 derlemi için ula ılabilecek üst sınır de erdir. Önerilen yöntemle, 10.253 gövdeden, 9.828 tanesi do ru ekilde üretilebilmi , 1.154 birlik için üretilen gövdelerden hiçbiri gerçek gövde ile e le memi tir, yani 425 gövde bulunamamı tır. Dolayısı ile, önerilen yöntemin sıkı tırma oranı %69 de erinde kalmı tır ((9828+1154)/36563). Önerilen yöntemde, uyum sabiti α , 0 ile 1 aralı ında bir gerçek sayıdır. Bir sıralı harf çiftinin, gövde ile ek geçi inde olma olasılı ı için alt sınır de er belirlemek için kullanılmaktadır. Dolayısı ile, geçi olasılı ının en yüksek de erine e itlenirse, tüm birlikler hiçbir bölünmeye u ramadan, bütün halde gövde olarak üretilirler. E er, en dü ük geçi olasılı ının altında bir de ere, örne in sıfıra (0) e itlenirse, her birlik için, önermenin ilk artının da sa landı ı olası tüm geçi ler, gövde olma için yeterli görülüp, en yüksek derecede bölümleme ile üretim yapacaktır. Bu iki uç nokta arasında, yöntemin bir harf birli i için üretebilece i olası tüm gövdeler, α sabitinin sıfıra e itlendi i durumdaki üretimi ile kapsanmaktadır. Fakat, birlik ba ına üretilen ortalama gövde sayısının da en yüksek de erine sahiptir. Sabit büyüdükçe, ortalama dü mekte, sabitin, geçi olasılı ının en yüksek de erine e itlenmesi ile, ortalama üretilen gövde sayısı bire (1) e it olmaktadır, yani birli i aynen gövde olarak vermektedir. Sınama için, α derlemindeki birlikler sabiti sıfıra e itlenmi için üretebilece i ve yöntemin, test tüm olası gövdeler de erlendirmeye alınmı tır. Yöntem, test derleminde bulunan 36.563 harf birli i için, 72.967 olası gövde üretmi tir, yani her birlik için ortalama 2 gövde üretilmi tir. Türkçe için, ek terkip sabiti 2,86 (index of synthesis) olarak verilmi tir (Sever ve Bitirim, 2003). Ek terkibi, bir dilde, kelimelere getirilen ortalama ek sayısıdır. Yöntemin bu de erden daha az sayıda olası gövde üretmesi de, kelimedeki eklerin yalın B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 198 ekilde belirlenip gövdelere ayrılması eklinde tanımlanabilecek tamamen rastlantısal bir yöntem olmadı ını, aksine önermenin ekle me da ılımını temsil edebildi ini göstermektedir. Bir ba ka söyleyi le, önerilen istatistiksel kurgu ile, ekle menin oldu u noktalar da ılım olarak belirlenebilmektedir. Daha önceleri de, bu tip ekle me noktalarını tespite yönelik, olasılı a dayalı yöntemler denenmi tir, ancak pozisyon bilgisi bu yöntemlerde kullanılmamı tır. Önceki önermelerin ba arısızlıklarının temelinde, pozisyon enformasyonunun kullanılmamasının önemli bir etmen oldu u dü ünülmektedir. Talim derleminden, toplam 5.648 farklı biçimde, de i ik sırada harf çifti elde edilmi tir. E er bu harf çiftleri, yöntemin kelime da arcı ı olarak kabul edilirse, kelime da arcı ı kapalıdır. Bu harf çiftlerinden, 2.845 çift sadece gövdede, 1.048 çift sadece ekte ve 322 çift sadece gövde-ek geçi inde gözlenmi tir. Bu üç ayrık, harf çiftlerinin toplamı 4.215’dir. Geriye kalan 1.433 ortak çiftin, 1.397 tanesi gövde ve ek kümesi ortaklı ı içindedir. Yöntemin karar vermesi gereken harf çifti, yani önerimin birinci artının kullanıldı ı harf çifti sayısı da budur. Oran olarak, harf çiftlerinin yakla ık %50’si gövdede, %18’u ekte ve sadece %24’ü gövde ile ek ortaklı ında gözlenmektedir. Önerimin neden %95 düzeylerinde ba arım sa ladı ının, cevabı da bu oranlardan açıkça görülmektedir. Test derlemindeki birlikler için, üretilen gövdenin do ru kabul edildi i hal, üretilen herhangi bir gövde ile test derlemindeki birlik için belirlenmi olan gövdenin harf esasında tam olarak e le mesidir. Aslen, birlikler için üretilmi olası gövdeler, tamamen anlamsız kelimeler de ildir, ancak hataların yanında, örne in “seviyor” birli i için üretilen “sev-iyor” ve “sevi-yor” gövdelerinde oldu u gibi, “-i-yor” ek terkibinin iki parçasının da belirlenmesinden kaynaklanmaktadır. te B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 199 α sabiti en uygun de er için, talim edilmesi gereklili inin altında yatan sebep budur. Hatalarsa, genellikle yabancı kelimeler, kısaltmalar v.b. durumlardan kaynaklanmaktadır. Bu hataların büyük kısmı, pekala simgele tirme a amasında tespit edilebilir niteliktedir. Mesela, simgele tirme a amasında, gövdeleme i lemine tabi tutulması gereken kelimeler veya gövdeleme i leminden muaf tutulması gereken kelimeler önceden belirlenerek, gövdeleme esnasında bu hataların olu turulması önlenebilir. Önerilen yöntemle, örnek 3 birlik için üretilmi gövdeler Çizelge 9.3.3.2.’de gösterilmi tir. Sever ve Bitirim (2003) tarafından, Türkçe gövdeleme yordamları arasında kar ıla tırmaların yapıldı ı çalı mada örnek olarak kullanılan “edebilecek” ve “göz...” birlikleri ile, “abartılı” birli i incelenmi tir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 200 Çizelge 9.3.3.2: Önerilen gövdeleme yöntemi ile üretilmi gövdelere örnekler. h1 h2 gm i em PG(.) PE(.) PT(.) Gövde 1 a b 1 a bartılı 0.002776 0.000000 0.000000 2 b a 2 ab artılı 0.000466 0.000000 0.000000 3 a r 3 aba rtılı 0.002364 0.000706 0.000003 4 r t 4 abar tılı 0.000175 0.000002 0.000025 5 t ı 5 abart ılı 0.000123 0.000255 0.001478 abar 6 ı l 6 abartı lı 0.000004 0.002519 0.000103 abart 7 l ı 7 abartıl ı 0.000088 0.002748 0.000016 abartı 8 ı _ 8 abartılı 0.000000 0.009593 0.000289 abartıl 9 e d 1 e debilecek 0.008549 0.000000 0.000000 10 d e 2 ed ebilecek 0.000457 0.000000 0.002373 11 e b 3 ede bilecek 0.000022 0.000186 0.000000 ed 12 b i 4 edeb ilecek 0.000998 0.000685 0.000021 13 i l 5 edebi lecek 0.000994 0.000644 0.001985 14 l e 6 edebil ecek 0.001457 0.016941 0.000006 edebi 15 e c 7 edebile cek 0.000002 0.001278 0.000001 edebil 16 c e 8 edebilec ek 0.000036 0.001523 0.000000 edebile 17 e k 9 edebilece k 0.000002 0.002951 0.000000 18 k _ 10 edebilecek 0.000000 0.004037 0.000240 19 g ö 1 g özetmeden 0.017605 0.000000 0.000000 20 ö z 2 gö zetmeden 0.007050 0.000000 0.000000 21 z e 3 göz etmeden 0.005962 0.000000 0.000228 22 e t 4 göze tmeden 0.010047 0.000000 0.000163 23 t m 5 gözet meden 0.000296 0.000174 0.000416 24 m e 6 gözetm eden 0.000602 0.005776 0.000029 gözet 25 e d 7 gözetme den 0.000007 0.000198 0.001506 gözetm 26 d e 8 gözetmed en 0.000037 0.006912 0.000000 gözetme 27 e n 9 gözetmede n 0.000034 0.003872 0.000007 28 n _ 10 gözetmeden 0.000000 0.021110 0.000283 gözetmede Çizelgede, “h1” ve “h2” sütunlarında verilmi harflerin, birlik içinde “i” sırasındaki sıralı çift için, “PE(.)” olasılı ı, yani ek içinde olma olasılı ı, “PG(.)” olasılı ından, yani gövde içinde olma olasılı ından büyük olup da, varsa bir önceki çift için “PT(.)” olasılı ı, yani bir gövde-ek geçi inde bulunma olasılı ı sıfırdan büyük olanlar B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 201 renkli dolgu ile belirlenmi tir. Bir ba ka söyleyi le, önermeyi sa layan sıralı çiftler i aretlenmi tir. Verilen ilk örnek, “abartılı” birli idir. Bu birlik içinde, “ab isim”, “abar-fiil”, “abartı-isim” ve “abartılı-isim(sıfat)” gövdeleri vardır. Sıfat olarak kullanılan “abartılı” isim gövdesi, “abartı” isim gövdesinden, “-lı” isimden isim yapma eki ile türetilmi tir. “abartı” ismi, “abar” fiilinden “-tı” fiilden isim yapma eki ile türetilmi tir. “abar” fiili, “ab” isminden anlamca çok farklılık gösterdi i için, “-ar” isimden fiil yapma eki ile mi türetilmi tir bilemiyoruz. Fakat analizi sadece biçimbirimsel olarak yaptı ımız, anlamı ise, i e katmadı ımızı dü ünürsek, “abar” fiili, “ab” isminden “-ar” isimden fiil yapma eki ile türetilmi tir diyebiliriz. Aslen bu gövde türetimleri arasında, “abaisim”, “abart-fiil” ve “abartıl-fiil” gövdeleri de vardır. “aba” isim gövdesi, “-a” isimden isim yapma eki ile “ab” isim kökünden türetilmi olabilece i söylenebilir. Fakat, “ab”, yani “su” anlamını kar ılayan bir isim kökünden, “aba”, yani “abla, anne” veya “yünden, dövülerek yapılan kalın ve kaba kuma ” anlamını kar ılayan bir gövde türetilmi olabilir mi, sorusunun cevabını vermek bu tez kapsamını oldukça a ar. Devam edersek, “abart” fiil gövdesi, “abar” fiil gövdesinden, “-t” fiilden ettirgen fiil yapma eki ile türetilmi , bir gövde olarak kabul edilebilir. Aynı ekilde, “abartıl” edilgen fiil gövdesinin, yine “abar” fiil gövdesinden, “-l” fiilden ettirgen fiil yapma eki ile türetildi i dü ünülebilir. Çünkü, “-ı” harfi, Türkçe’de kayna tırma harfi olarak da kullanılır. Bu kadar zengin ba ka örneklerin sayısı nedir, u an için bir bilgimiz yok, ancak tek bir birlik içinde, kök olan “ab” kelimesinden di er gövdelerin biçimbirimsel türetili leri incelendi inde, rahatlıkla görülmektedir ki, söz konusu gövdelerden hangisinin yazımda kullanılan anlamı verdi inin tespiti, öyle kolayca halledilebilecek bir mesele de ildir. Bu noktada, Sever ve Bitirim (2003) tarafından yapılan B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 202 “biçimbirimsel analiz olmaksızın, bir birli e ait olası gövdenin ne oldu unu belirlemek mümkün de ildir” hükmüne katılıyoruz. Burada kastedilen biçimbirimsel analizin, anlamların da hesaba katıldı ı bir analiz olması gerekti ini vurgulamak da istiyoruz. Ayrıca, “a” harfinin ünlem edatı olması sebebi ile, bir kelime kökü oldu u da dü ünülünce, 8 harflik tek bir birlikten, toplam 8 gövde türetebilece i gibi bir gerçekle de kar ı kar ıya kalıyoruz. Önerdi imiz yöntemle, “abartılı” birli i için Çizelge 9.3.3.2.’de “Gövde” sütununda yer alan, üretilmi üç seçenek gösterilmi tir: “abar”, “abart”, “abartı” ve “abartıl”. Çizelgede gösterilemeyen, ancak her birlik için önermenin do ru oldu u, son sıralı çiftler için de, birli in kendisi, gövde olarak üretilmektedir. Dolayısı ile, “abartılı” gövdesi de üretilenler arasındadır. Ayrıca, önerme hiçbir sıralı ikili için geçerli olamamı sa, birli in yine kendisi, gövde olarak üretilmektedir. Yukarıda, “abartılı” birli i için verilen dilbilimsel çözümlemenin ı ı ında, be seçenekten, yani “abar”, “abart”, “abartı”, “abartıl” ve “abartılı” seçeneklerinden hangisinin gerçek gövde olarak alınması gerekti i belirsizdir. Çünkü, hepsi anlamca aynı olan ve “abar” fiil kökünden türetilmi isim ve fiil gövdeleridir. “abar” fiil kökünü almak ta yanlı de ildir, “abartılı” isim (sıfat) gövdesini almak da; hatta aradaki türetimlerden birini de gövde olarak almak, aslen hata de ildir. Çizelgede verilen ikinci örnek çözümleme, “edebilecek” birli idir. Bu birlik için önerilen yöntemle, her ey dahil, dört olası gövde üretilmi tir: “ed” (yani “et-fiil”), “edebi”, “edebil” ve “edebile”. Çizelgeden takip edilebilece i gibi, “et” fiil kökünden itibaren, birli e eklenen harflerin ekte bulunma olasılıkları “PE(.)” çok yüksek seyretmi tir, aynı zamanda gövdede bulunma olasılı ı da “edebil” fiil gövdesinden itibaren çok küçük de erlerde kalmı tır. Sever ve Bitirim B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 203 (2003) tarafından verilen “edebilecek” birli i, aslen bir birle ik fiildir. “et-” fiili ile “bil-” fiilinin birle mesinden meydana gelmi tir. Ba ka fiillerle, birle ik fiil yapabilen, “bil-” fiilinin i levi, birle ti i fiile iktidar anlamı katmaktır. “bil-” fiilinin önüne gelen fiil, genellikle isim fiil (gerund) halindedir: yap-a bil, ed-e bil, gel-e bil gibi. Birle ik fiillerde, yardımcı fiil olarak kullanılan fiil, asıl anlamının dı ında kullanılır. O yüzden, bu birlikte sanki, “-ebil, -abil” gibi bir ek varmı hissi do abilir. Fakat, Türkçe’de “-ebil”, “-abil” diye bir ek yoktur (Bu tür detaylara girmemek için olsa gerek, Kemal Oflazer15, tüm yardımcı fiil olarak kullanılan fiilleri “bil”, “ver”, “gel”, “gör”, “dur”, kal”, “yaz” ve “koy”, Türkçe’de yapım eki olarak tanımlamı tır.). Dolayısı ile, bu birli in gövdesi, esas fiil olarak “et” fiili, birle ik fiil olarak “edebil” fiilidir. “ede” isim-fiil’dir, geçici bir yapıdadır, “et-“ fiilinin “-a, -e” çekim eki ile yapılan isim-fiil halidir, yani çekim ekiyle olu turulan bir kipidir. sim-fiiller aslen, bir hareket hali kar ılarlar, daha do rusu bir hareketin, ne eklinde yapıldı ını ifade ederler. Bu açıdan, zarf olarak da kullanım alanında görülebilirler. “edebil-” birle ik fiili, en son olarak da “-acak, -ecek” fiil çekim eki alarak, sıfat-fiil (participle) haline gelmektedir. Sıfat-fiiller aslında nesneleri, isimleri ile de il de, hareketleri ile kar ılamak için kullanılırlar. Vasıflandırma ile nesneleri kar ıladıklarından dolayı, sıfat olarak kullanılmaya yatkındırlar: “yapacak” ki i, “dü -ecek” adam örneklerinde oldu u gibi. Ek aslen, fiil çekim ekidir, ancak, isim-fiilde oldu una benzer bir ekilde, çekim ekli inden çok, geçici olarak nesneleri hareketleri ile kar ıladıklarından dolayı, isim gövdesi gibi yorumlanabilir, ancak tabii, fiilin yine çekim eki ile meydana getirilen bir kipidir. Bu yüzden, iki çekim ekinin de, yapım ekli ine çok yakın bir i lev gördü ü söylenebilir, ancak bu durum çekim eki oldukları gerçe ini de i tirmez. “edep” ve “edebi” 15 Kemal Oflazer, Elvan Göçmen ve Cem Boz ahin tarafından yazılan “An Outline of Turkish Morphology” kitap bölümünde, fiil çekimleri kısmında. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 204 isim gövdelerine gelince, zaten yukarıdaki verdi imiz açıklamadan da anla ılaca ı gibi, “edebilecek” birli i ile hiçbir anlamsal alakaları kisi de, müstakil anlamlar ta ırlar. Özetle, “edebilecek” yoktur. birli ine bir gövde seçilmesi gerekiyorsa, tek bir seçenek vardır, o da “edebil” birle ik fiilidir. “et-” fiilini gövde olarak seçmek, birli in bütün halinde kar ıladı ı iktidar anlamını yok edece i için, anlamsal açıdan yanlı tır. Bu tür birle ik fiillerin, gövdeleri aslen biçimbirimsel analiz olmadan tespit edilemez. Ancak, Oflazer (1993) tarafından geli tirilmi , Türkçe’nin yegane biçimbirim analiz yordamına da, bu yardımcı fiilleri yapım eki olarak belirledi i ve daha birkaç mesele sebebiyle, bir çekince koymak istiyoruz. Örne in, “edebilecek” birli i için, biçimbirimsel analizler unlardır: et+Verb+Pos^DB+Verb+Able^DB+Adj+FutPart+Pnon (Çöz.1) et+Verb+Pos^DB+Verb+Able+Fut+A3sg (Çöz.2) Analizlerde, “^DB” bir yapım eki kullanıldı ını belirtir. Örne in, 1. çözümlemede, ilk önce “et-” kelimesinin fiil (Verb) kökü ve olumlu (Pos) oldu u vardır. Ardından “-ebil” yapım eki geldi i (^DB), yapım eki ile “et” fiilinin, tekrar fiil (Verb) oldu u ve birle tirme kipinde16 bulundu u (Able17) belirtilmi tir. En son “-ecek” yapım eki alarak sıfat oldu u (Adj) ve istisna-i sıfat çekim eki aldı ı (FutPart), bu çekim ekinin de eylemin öznesi ile uyum göstermek için iyelik eki aldı ı, ancak bu birli in iyeliksiz oldu u (Pnon) kodlanmı tır. Neden istisna-i sıfat eki deniyor, alıntı yaparak veriyoruz: 16 OSTAD kullanım kılavuzunda verildi i ekli budur. ngilizcesi “compoundingmodality” olarak belirtilmi tir. 17 OSTAD kullanım kılavuzundaki açıklamasında, “yapabilir” olarak tanımlanmı tır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 205 “Sıfatların Çekim Ekleri: Sözlüksel veya türetilmi sıfatlar çekim eki almazlar. stisnalar vardır: +Adj+PastPart ve +Adj+FutPar eylemin öznesi ile uyumu göstermek için iyelik uyum eki (+Pxxx) alırlar. Sıfatlara yapılan di er tüm bükümler ada dönü türme (type-raising) içerir ve tüm bükümler bo biçimbirim türetmesinden sonra ad üzerinde gösterilir.” OSTAD derleminin kullanım kılavuzunda, “FutPart” gelecek zaman ortacı (sıfat-fiil) olarak tanımlanmı tır. kinci çözümleme ise, “et” kelimesinin yine fiil ve olumlu oldu unu, “-ebil” yapım eki ile tekrar fiil ve birle tirme kipinde oldu unu, gelecek zamanın üçüncü tekil ahıs (A3sg) çekiminde (-ecek) bulundu unu kodlanmı tır. lk verilen, “... konuyu izleyenleri tatmin edebilecek bir rapor de il, ...” gibi bir tümcedeki birlik için çözümleme, ikinci ise “...ne demek istedi ini ifade edebilecek ...” gibi bir tümcedeki birlik için çözümlemedir. Bu çözümlemelerden de, gövdenin elde edilebilece i açıkça görülmektedir. Ancak, “birle tirme kipi (Able) ile kodlanan yapım eki de dahil, ba tan itibaren tüm harf silsilesi gövde sayılabilir” gibi bir kural konularak gövde, yani “edebil” çıkarılabilir. Aslında, analizin kodlamasında, birle tirme kipi denmez de, birle ik fiil denerek “bil” fiilinin yardımcı fiil oldu u enformasyonu da yoluna koyulabilir, yani “-ebil” diye bir ek olmadı ı (Able), onun bir yardımcı fiil oldu u da belirli hale getirilebilir. Hatta, “FutPart” ile verilen “-ecek” ekinin, aslen bir yapım eki olmadı ı, fiilin i letme eki, yani çekim eki oldu u, yalnızca bu ekle yapılan vasıf kipinin, nesneleri hareketleri ile kar ıladı ı için, sıfat biçiminde kullanılabildi i, dolayısı ile bir nevi isim oldu u enformasyonu da, tekrar kodlanarak kazanılabilir. Öyleyse çekince nerededir? Çekincemiz noktamız udur: Türkçe biçimbirim analizi yaptı ı iddia edilen bir yordamda, bir Türkçe gövdeleme kurgusu için gerekli olan, Türkçe’nin kendine has basit kurallarını B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 206 belirleyebilmek için, bu denli tadilata gidilmesi gereklili idir. Türkçe’nin neden, Türkçe’de olmayan kurallar ve bakı açısından çözümlenmeye çalı ıldı ı da, çekincemiz için bir ba ka sebeptir. Belki de, “edebilecek” birli inin, Türkçe’nin gerektirdi i çözüm olan birle ik fiilin vasıf kipi olarak basit bir belirlenme yapmak yerine, önce bir tane fiilden fiil yapma eki üretilmesi (-ebil), sonra fiillerin i letme ekininin (-ecek) yapım eki olarak kabul edilmesi ile do rudan fiilden sıfat yapılması ve Türkçe’nin do ası içerisinde çok derin ayrıntıya inilmedi i takdirde, hiçbir istisna yokken, istisna-i durum yaratılması, Türkçe’de bu yordamla hesaplamalı dilbilim çalı an ki iler tarafından, uygulamada veya kuramsal esasta haklı sebeplere dayalı olarak, daha i levsel bulunuyor olabilir. Ancak, bilgimiz dahilinde böyle bir açıklamaya rastlamadı ımız için, bu noktayı da yeri gelmi ken belirtmek istedik. Açıklayaca ımız, üçüncü ve son örnek de, “gözetmeden” birli idir. Önerilen yöntemimiz, “gözet”, “gözetm” , “gözetme”, “gözetmede” ve “gözetmeden” olmak üzere 5 farklı gövde türetmi tir. Birlik içinde, “göz” isim kökü, “-e” isimden fiil yapma eki ile, “göze” fiil gövdesine, bu fiil gövdesi de “-t” fiilden fiil yapma eki ile tekrar “gözet” fiil gövdesine çevrilmi tir. “-me” eki hem fiilden isim yapma eki olarak, hem de fiillerin olumsuz hallerini olu turmak için fiil çekim eki eklinde kullanılabilir. Ancak, “-den” eki sadece isim i letme eki, yani hal eki olarak vardır. Dolayısı ile, “gözet” fiil gövdesi, “-me” fiilden isim yapma eki ile, “gözetme” isim gövdesine çevrilmekte, en son olarak da, “-den” i letme eki alarak, ismin uzakla ma hali (ablative) bildiren ekline yani “gözetmeden” biçimine girmi tir. Dolayısı ile, birli in gövdesi “gözetme” kelimesidir. “gözetmede” biçiminin gövde olarak üretilmesinin sebebi, “-de” eklinde bir isimden fiil yapma eki olmasıdır. “gözetmeden” biçiminin gövde olarak B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 207 üretilmesinin sebebi ise, “-n” eklinde fiilden fiil yapma eki olmasıdır. Ancak, bu iki biçime yordam tarafından ba lanan olasılıklar açısından, gövdede yer alma için hep 0.0001’den küçük ve çekim eki olma için de hep 0.001’den büyük oldu u, altı çizilmesi gereken bir durumdur. Yordam ile sıralı çiftlere ba lanan olasılıklar incelendi inde görüldü ü gibi, aslında önerilen gövdeleme kurgusu, düzenlenebilecek birkaç kurgudan sadece birisidir. Ancak yeterli olan hedef ba arılmı , yani yapılan çalı ma ile, istatistik/olasılık esasında, önerilen veya daha ba ka bir kurgu ile biçimbirimsel analiz veya kelime da arcı ı olmaksızın da, Türkçe’de gövdeleme yapılabilece i gösterilmi tir. 9.4. Sözcük Türü Tespiti Sözcük türü tespit i i, kelimelerin söz-dizim içerisinde, hangi dilbilgisi i levde kullanıldı ının belirlenmesidir. Dilbilimsel olarak, kelimelerin söz-dizim içerisinde di er kelimelerle olan ili kileri, aynı zamanda kelimelerin sınıflandırmasını meydana getirir. Türkçe’de kelimeler: : isim (noun), özel isim (proper noun), fiil (verb), sıfat (adjective), zarf/belirteç (adverb), zamir/adıl (pronoun), ba laç/rabıt (conjunction), soru (Question) ve edat/ilgeç (preposition) temel sözcük türlerinde sınıflandırılır. Ayrıca, rakam, kısaltma (abbreviations) ve noktalama i aretleri (punctuations) olarak adlandırılan ve yazımda kullanılan simgeler veya simge birlikleri de mevcuttur. Bu simge veya simge birlikleri de (noktalama i aretleri hariç), yazımda kullanılırken, söz-dizim içindeki söz konusu temel sözcük türlerinden birine girerler, daha do rusu temel i levselliklerden birisini yerine getirirler. E er, özel isimler, isim türünde de erlendirilirse, Türkçe’de 8 temel sözcük türü B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 208 vardır. Temel sözcük türleri, ayrıca kendi içlerinde i levsel veya anlamsal farklılıklara dayalı olarak alt guruplara da ayrılır. 9.4.1. Önceki Çalı malar Hesaplamalı dilbilim sahasında, bir cümle içinde, bir kelimenin, daha do rusu bir birli in dilbilgisi i levinin ne oldu unun tespitine yönelik bir çok çalı ma vardır. Sahanın iki öncü çalı ması, Klein ve Simpson (1963) tarafından yapılanla, Garside ve arkada ları (1987a; 1987b) tarafından yapılandır. Bu çalı malar, kuramsal açıdan sahayı da ikiye ayırmı tır: kural tabanlı ve istatistiksel. Klein ve Simpson tarafından kural tabanlı bir sistem geli tirilmi tir. Sistemde, elle olu turulmu çok büyük bir kural tabanı ile, istisnaları halletmek için küçük bir sözlükten olu maktadır. Aynı esasta, Greene and Rubin (1971), TAGGIT adlı sistemi geli tirmi lerdir. TAGGIT, daha sonra ngilizce için bilinen ilk derlem olan, Brown derleminin ön sözcük türü tespiti için kullanılmı tır. TAGGIT, öncelikle verilen kelime için atanabilecek sözcük türlerini belirlemektedir, daha sonra, kelimenin bir öncesinde ve sonrasındaki kelimelerin biçimbirimsel analizleri üzerinden hiçbir belirsizlik ile kar ıla mıyorsa, uygun sözcük türünü atamaktadır. Daha sonra, bu sistemin yaptı ı atamalar elle kontrol edilip, düzeltilmektedir. Kural tabanlı sistemlere, Brill (1995a; 1995b) tarafından geli tirilen sözcük türü tespit yordamları da güzel örneklerdir. statistik esasına dayanan ilk çalı ma, Stolz ve arkada ları (1965) tarafından geli tirilendir. Bu sistem önce bilinen birliklere sözcük türlerini bir sözlük yardımıyla atamaktadır, daha sonra bilinmeyen birliklerin sözcük türlerini, sözcük türü akı ı temelinde artlı olasılıkları B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 209 kullanarak belirlemektedir. statistik esasına dayanan çalı maların ço unlu u, gizli Markov zinciri dil modeline dayanır. Markov zinciri dil modeline dayanan ilk çalı ma, Lancaster üniversitesinde Garside ve Leech (1987b) tarafından yürütülen, LOB (Lancaster-Oslo-Bergen) derleminin sözcük türü tespit u ra ıdır. Ancak, Markov modelinin, hem kelimeler hem de sözcük türü geçi olasılıklarının kullanımı eklinde temel kullanım biçimi, Church (1988) ve DeRose (1988) tarafından yapılan çalı malarda ortaya çıkmı tır. Bu çalı malar aslında, Chomsky (1957) tarafından, istatistiksel yordamlarla dilbilimsel özelliklerin belirlenmesi u ra ının uygunsuzlu u konusunda, yapılan ele tirilerin ardından, istatisti in hesaplamalı dilbilim sahasında tekrar dirili ini sa lamı lardır. Fakat, Markov dil modelini esas alan çalı malar çok önceden ba lamı durumdaydı: Baker (1975), Jelenik (1985), Derouault, and Merialdo (1986). Gizli Markov dil modeli esasında, Mercer (1993) tarafından yapılan çalı ma, yordamın en uygun ve en verimli ekilde çalı tırılması için hesaplama açısından ele alındı ı güzel bir çalı madır. Sözcük türü tespit yöntemleri artık çok yaygındır ve ngilizce dı ındaki diller için de geli tirilmi tir: Baskça (Aduriz, 1995), Çekçe (Haji ve Hladká, 1998), Hollandaca, talyanca, Yunanca (Dermatas and Kokkinakis, 1995), Fransızca (Chanod and Tapanainen, 1995), Almanca (Feldweg, 1995), branice (Levinger et al, 1995), Bulgarca (Megyesi, 1999), Slovence (Cussens et al, 1999), spanyolca (Sánchez León and Nieto Serrano, 1995), and sveççe (Brants and Samuelsson, 1995). Ek olarak, belirtilmesi gereken di er çalı maların içinde, Brant (2000) tarafından tasarlanan TNT sisteminin sözcük türü tespit yordamında kullanılan olasılık yumu atma yöntemi açısından; Peskin ve Savova (2004) tarafından tasarlanan gizli Markov zinciri dil modeli esasındaki kurguda kullanılan hafıza de i keni ve sözlük açısından; B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 210 Schmid (1994) tarafından geli tirilen sistem, yapay sinir a larının kullanılması açısından; Kupiec (1992) tarafından tasarlanan sistem, gizli Markov zinciri dil modeli esasındaki sözcük türü tespiti u ra ında tutarlılık meselesi açısından; Ratnaparki (1996) tarafından yapılan çalı ma en yüksek düzensizlik (maximum entropy) esasında sözcük türü tespit kurgusu açısından; Tautonava ve Manning (2000) tarafından yapılan çalı ma da, en yüksek düzensizlik esasında kurgulanacak sözcük türü tespit yordamlarında hangi özelliklerin hesaba katılması gerekti i açısından incelemeye de erdir. Ayrıca, 7 farklı dil için geli tirilmi sözcük türü tespit yöntemlerinin, Dermatas and Kokkinakis (1995) tarafından yapılmı kayda de er bir çalı madır. detaylı kar ıla tırmaları da, Türkçe için sözcük türü tespitinde, kural tabanı esasında yapılmı çalı malara örnekler, Oflazer ve Kuruöz (1994) tarafından yapılan bir çalı mayla, Oflazer ve Tür (1996;1997) tarafından yürütülen iki çalı madır. statistik sahasında, bilgimiz dahilinde bir çalı ma vardır: Hakkani-Tür ve arkada ları (2002). 9.4.2. Önerilen Yöntem Kural tabanlı olsun, istatistiksel esasta olsun, sözcük türü tespiti ba arımları, yakla ık olarak %90-%96 bandında seyretmektedir. Yaygın ekilde, tatminkar olarak kabul gören ba arım de eri %95’tir denebilir. Sözcük türü tespitinin, ba arımın yanında, ciddi iki zorlu u daha vardır: sözlük ve hesaplama karma ıklı ı. Sözlük meselesi, daha önce de bahsedildi i gibi, aslen kelime da arcı ının kapalı oldu u kabullenmesinden do maktadır. Ayrıca, biçimbirimsel üretkenli i zengin diller için, örne in Türkçe için, kelimelerin yazımda B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 211 kullanımları sırasında çok de i ik biçimlere sahip olması, ek yük getirmektedir (Bu durum, kelime da arcı ının hızlı ekilde hacim kazanmasına sebep oldu u için, depolamaya ve arama karma ıklı ına ek yük getirir). Hesaplama karma ıklı ı, kelime da arcı ının hacminden etkilenmektedir, ancak asıl kaynak kullanılan gizli Markov zinciri dil modelidir. Sözcük türü tespitinde kullanılan en yaygın gizli Markov zinciri dil modeli, 1.dereceden, geçmi e bir adım cinsidir, dolayısı ile e er Viterbi yöntemi ile çözümlenirse, O(L*|Q|3) zaman karma ıklı ına sahiptir (L : cümle uzunlu u, Q: farklı sözcük türü sayısıdır). Önerdi imiz yöntem de gizli Markov zinciri dil modelini esas almaktadır. Ancak, kullanılan sözlü ün kapalı olu u garanti altındadır. Gizli Markov zinciri dil modeli, önerimizin kuramsal alt yapısını olu turdu u için öncelikle onu tanıtmak gerekmektedir. 9.4.2.1 Gizli Markov Zinciri Markov zinciri için kullanılan gizli sıfatı, onun istatistik içindeki genel kullanımı olan görünür18 halinden ayırt etmek içindir. Bir silsile sürecinin (stochastic process), görünür Markov zinciri kurgusunda, durum uzayı (state space) ve çıktı uzayı (output space) görünürdür. Bir ba ka söyleyi le, silsile halindeki çıktı uzayı elemanlarının, silsile içindeki belirli dizili ine kar ılık gelen durumlar birebir ekilde e le mi tir. Gizli Markov zincirinde, silsile halindeki çıktı uzayı elemanları yine görünürdür, durum uzayı elemanları da belirlidir; ancak çıktı uzayındaki elemanların silsile içindeki belirli olan dizili lerine 18 Görünür Markov zinciri, ayrıca vanilla (vanilya) olarak da anlılır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 212 kar ılık gelen durumların hangisi birebir e tir, belli de ildir. Zaten, gizli Markov zinciri kurgusu ile amaçlanan, hangi durumun e le tirilece inin belirlenmesidir. Sözcük türü tespit meselesi üzerinden örneklersek, çıktı uzayını kelimeler, durum uzayını sözcük türleri olu turur. Silsile sürecine cümle kar ılık gelir. Yani, kelimelerin cümle içindeki dizili leri ile bir kelime silsilesi olu ur. Görünür halde iken, cümle içindeki yerinde bir kelimenin hangi dilbilgisi i levinde oldu unun belirli oldu u durum kastedilir. Gizli halde iken, elimizde bir cümle vardır, sözcük türleri de bellidir; ancak cümle içindeki hangi kelimenin, hangi dilbilgisi i levinde oldu u, yani sözcük türü belirsizdir. Aslen, kelimelerin sözcük türleri i aretli olan bir talim derleminde e itilen Markov dil modeli, görünür olurken; sözcük türleri tespit edilmeye çalı ılan kelimelerle olu turulmu test derlemine uygulandı ı zaman, aynı Markov dil modeli, gizli olur. Bir silsile süreci, X t olasılık de i kenlerinin bir toplulu undan meydana gelir. Alt indis, t ise uygun bir indeks kümesinden sıralı ekilde de erler olan bir parametredir. Genel olarak, indeks kümesinin elemanları, zamanın ayrık birimlerini kar ılar ve indeks kümesi T = {0,1,2,...}, sayma sayıları toplulu undan meydana gelir. ndeks kümesi, gerçek sayıların toplulu undan da meydana gelebilir. Sayma sayılarının, indeks kümesi oldu u silsile sürecine, ayrık silsile süreci (discrete time stochastic process); gerçek sayıların indeks kümesi oldu u silsile sürecine, sürekli silsile süreci (continuous time stochastic process) denir. Bir Markov süreci veya zinciri, yani {X t } , bazı özelliklere sahip bir silsile sürecidir. Bir silsile sürecinin, Markov süreci olmasını sa layan bu özellikler, iki tanedir: kısıtlı ufuk (limited horizon) ve zaman içinde de i meme (time invariance). B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 213 Kısıtlı ufuk özelli i, de eri verilen bir X m olasılık de i keni varken, s > m artını sa layan bir X s olasılık de i keninin de erlerinin, k < m artı altındaki hiçbir X k olasılık de i keninin de erinden etkilenmemesidir. Biçimsel olarak, Denklem 9.4.2.1.1.’de gösterildi i ekilde ifade edilir. Pr ( X n = k X 0 = l 0 X n −1 = l n −1 ) = Pr (X n = k X n −1 = l n −1 ) (9.4.2.1.1) Denklem 9.4.2.1.1.’de, olasılık de i kenlerine atanan k , l 0 , l n−1 de erleri, olasılık de i kenlerinin örneklem kümesinin elemanlarıdır ve Markov süreci içinde her bir de er, durum olarak adlandırılır. Dolayısı ile, bu olasılık de i kenlerinin alabilece i olası tüm de erlerinin toplulu u olan örneklem kümesi, Markov süreci içinde, durum uzayı olarak anılır. Ayrıca, kısıtlı ufuk özelli i, bir Markov zinciri isimlendirilirken, derece terimi ile kar ılanır. verilen ekilde, kısıtlı ufuk özelli ine sahip bir dereceden Markov zinciri denir ve X n olasılık kendisinden bir önceki, yani X n −1 olasılık de Örne in, denklemde Markov zincirine, 1. de i keninin, sadece i keninin de erinden etkilendi i, daha önceki olasılık de i kenlerinin etkilenmedi i, bu ekilde belirli hale getirilir. de erlerinden Zaman içinde de i meme özelli i ise, kısıtlı ufuk özelli inin zamana ba lı olmadan, zamanın herhangi bir de eri için geçerli oldu unu belirtmek için kullanılır. Bir ba ka söyleyi le, kısıtlı ufuk özelli inin, zaman indisi, n’nin, indeks kümesindeki her hangi bir elemana e itken de geçerli oldu unu belirtir. Pr ( X n = k X n −1 = l n −1 ) = Pr ( X 1 = k X 0 = l 0 ) (9.4.2.1.2) B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 214 Bir Markov sürecinde, X n −1 olasılık de i keninin de eri, mesela i iken, X n olasılık de i keninin de erinin, örne in j olması olasılı ına, bir-adım geçi olasılı ı (one-step transition probability) ismi verilir ve Pin, j−1,n simgesi ile temsil edilir ve Pin, j−1,n = Pr( X n = j X n −1 = i ) ifadesi ile hesaplanır. Simgesel gösterimde, geçi olasılı ının durumlara ba ımlılı ı dı ında zamana ba ımlılı ı da betimlenmi tir ( n − 1, n ). E er, zaman içinde de i meme özelli i sa lanıyorsa, geçi olasılıkları, dura an geçi olasılıkları (stationary transition probabilities) biçiminde adlandırılır. Dolayısı ile, Pin, j−1,n = Pi , j = Pr( X n = j X n −1 = i ) olur. Bir Markov sürecinde, X n olasılık de i keninin de erinin, örne in j olması, e er X n−2 olasılık de i keninin de erine, mesela i olsun, ba lı ise, bu Markov sürecinin derecesi19, 2 olur. E er durum uzayının eleman sayısının, s > 0 artını sa layan bir sabit ile temsil edildi i kabul edilirse, biçimsel olarak Denklem 9.4.2.1.3.’de verildi i ekilde ifade edilir. Pr ( X n = k X 0 = l0 = X n −1 = l n −1 ) = Pr ( X n = k X n−2 = l n−2 ) s −1 Pr ( X n = k X n−2 = l n−2 , X n−1 = i ) = i =0 s −1 i =0 (9.4.2.1.3) Pln −2 ,i ⋅ Pi ,k Herhangi bir Markov sürecinin, n=0 zamanında, X 0 olasılık de i keninin, durum uzayından herhangi bir de ere, mesela i olsun, e it olması olasılı ına, yani π i = P( X 0 = i) , süreci olu turan X olasılık de i kenlerinin ba langıç olasılı ı (initial probabilities) adı verilir. Bir 19 Yeri gelmi ken bir yanlı kullanımında altını çizmek gerekir. Sıfır (0) derece Markov süreci, bazen 1-gram kar ılı ı olarak dü ünülmektedir, ancak bir silsile süreci, kısıtlı ufuk özelli i ta ımıyorsa, Markov süreci olarak adlandırılmaz. Dolayısı ile, kavramsal açıdan, sıfır derece Markov zinciri tanımsız bir niteleme ve yanlı bir adlandırma olmaktadır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 215 ba ka söyleyi le, Markov sürecinin ilk ba ında, sürecin herhangi bir durumdan ba laması ihtimalidir. Bir silsile sürecinde, bir sn durumunun herhangi bir n zamanında, kendisinden önceki, sn-1 ve sn-2 durumlarına ba ımlı olsun: Pr ( X n = s n X n −2 = s n −2 , X n −1 = s n −1 ) (9.4.2.1.4) Denklem 9.4.2.1.4.’de verilen ifade, bir Markov zincirine çevrilebilir. Söz konusu çevrim, 1. dereceden bir Markov sürecinde, X n −1 olasılık de i keninin de eri, (sn-1, sn-2) sıralı çifti olarak alınarak halledilir. Aslen bu durum, 1. dereceden bir Markov sürecinde, durum uzayında geçmi e do ru bir adımın daha, X n olasılık de i keninin de erinde etki etti i anlamına gelir, daha do rusu durum uzayında geçmi in tanımlanması söz konusudur. Dolayısı ile, söz konusu Markov süreci, 1. dereceden, geçmi e bir adım Markov süreci eklinde adlandırılır. 9.4.2.2 Sözcük Türü Tespitinin Markov Süreci Olarak Tanımı Verilmi olan n tane kelimenin belirli bir silsilesi, w1 , , wn için, hangi dilbilgisi i levini kar ıladıkları, yani sözcük türlerinin, t1 , , tn ne oldu unun tespiti meselesi, Denklem 9.4.2.2.1.’de verildi i biçimde, bir olasılık modeli ile tanımlanabilir. argmax t1 ( t n P t1 tn w1 wn ) (9.4.2.2.1) Denklemdeki olasılık modeli, verilen bir w1 , , wn kelime dizisi için, kar ılık gelebilecek tüm, t1 , , t n sözcük türü dizilimleri içinden, B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 216 olasılı ı en yüksek olan sözcük türü dizisinin seçilmesi anlamına gelmektedir. Bu ifade de, Bayes olasılık dönü türümü uygulanırsa, Denklem 9.4.2.2.2.’deki hale gelir. argmax t1 P(w1 tn wn t1 tn ) ⋅ P(t1 P(w1 wn ) tn ) (9.4.2.2.2) Denklem 9.4.2.2.2.’de verilen ifade de, olasılı ın en yüksek de eri aranırken, t1 , , t n sözcük türü dizisini esas aldı ı ve tüm sözcük dizisi ihtimalleri için verilen kelime silsilesi de i medi i için, P(w1 wn ) olasılı ı sabittir. Dolayısı ile, P(w1 wn ) olasılı ı hesaplamalardan çıkartılarak, sözcük türü tespit meselesinin olasılık modeli, Denklem 9.4.2.2.3.’de verilen sade ekli ile ifade edilebilir. argmax P (w1 wn t1 t n ) ⋅ P(t1 tn ) (9.4.2.2.3) t1 tn Sözcük türü tespiti meselesinin, Markov süreci biçimine getirilmesi için, zaman içinde de i meme kabul edilip, yani dizide iki farklı yerde olan, aynı kelimenin olası sözcük türlerinden birini alması olasılı ının e it oldu u kabul edilip, kısıtlı ufuk özelli inin uygulanması gerekir. Sözcük türü tespitinin 1. dereceden Markov süreci olarak ifadesi Denklem 9.4.2.2.4.’de verilmi tir. argmax ∏ P (wi t i ) ⋅ P (t i t i −1 ) n t1 tn i =1 (9.4.2.2.3) Aynı ekilde, sözcük türü tespit meselesi için, 1. dereceden, geçmi e bir adım Markov süreci modeli de, Denklem 9.4.2.2.4.’de verildi i ifade edilecektir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 217 argmax ∏ P (wi t i ) ⋅ P(t i t i − 2 , t i −1 ) n t1 tn (9.4.2.2.4) i =1 Markov süreci denklemlerinde verilen artlı olasılıkların tahminleri, bir talim derlemi üzerinden elde edilecek f (ti − 2 , ti −1, ti ) , f (ti − 2 , ti −1) , f (t i ) ve f (ti , wi ) gözlenme sıklıkları ile hesaplanır. ∧ P(wi ti ) = ∧ P(ti ti − 2 , ti −1 ) = f (ti , wi ) f (ti ) (9.4.2.2.5) f (ti − 2 , ti −1, ti ) f (ti − 2 , ti −1 ) (9.4.2.2.6) Sözcük türü tespitinin, Markov süreci olarak tanımlanması ile, en uygun sözcük türü dizisinin bulunması meselesi bir dinamik programlama meselesi haline getirilmi olur. Bu tür dinamik programlama meseleleri için, hesaplama karma ıklı ı en dü ük yordam da, Viterbi (1967) tarafından geli tirilmi anılandır. olan ve kendi adıyla Sözcük türlerinin, Markov süreci modeli esasında tespitinde, iki sorunun çözümlenmesi gerekmektedir. Bu sorunlar, talim derleminde görülmemi , kelime-sözcük türü çiftleri ve sözcük dizilimleri için, bir olasılık atanması zorunlulu udur. Denklem 9.4.2.2.3.’de verilen 1. dereceden Markov süreci ifadesinde de görüldü ü gibi, silsilede her ∧ hangi kelime-sözcük türü çiftinin ( P ( wi ti ) = 0 ) veya sözcük türü ∧ dizisinin ( P(t i t i −1 ) = 0 ) sıfır olasılı a sahip olması durumundan, o kelime-sözcük türü çiftini veya sözcük türü dizini içine alan dizilim ihtimallerinin, toplam olasılı ı, di er olasılıkların ne oldu unun bir B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 218 ∧ önemi olmaksızın sıfır olmaktadır ∧ ( P( wi t i ) ⋅ P(t i t i −1 ) = 0 ). Hesaplamalı dilbilimde, kapalı kelime da arcı ı kabullenmesi yapan tüm dil modelleri için söz konusu çıkmaz geçerlidir. Bu tür sıfır olasılıkların önlenmesi için, talim derleminde gözlenmemi olanlar için, sıfır yerine, yine sıfıra yakın ancak sıfırdan büyük bir de er atanarak, dizilim ihtimalinin toplam olasılı ının sıfır olmasının önüne geçilir. Olasılık yumu atma yöntemi olarak adlandırılan yordamlar, söz konusu amaç için kullanılırlar. Olasılık yumu atma için geli tirilmi pek çok yöntem mevcuttur: Lidstone (1920), Good (1923), Jelenik ve Mercer (1980), Katz (1987), Witten and Bell (1991), Ney ve arkada ları (1994), Kneser ve Ney (1995). Harvard üniversitesinde, Chen ve Goodman (1998) tarafından, bahsi geçen tüm olasılık yumu atma yöntemleri, çok çe itli içeriklerde ve de i ik büyüklüklerde derlemler üzerinde de erlendirilip, derin incelemeler yapılmı ve teknik rapor halinde sunulmu tur. Raporun sonucunda, Kneser and Ney (1995) olasılık yumu atma yönteminin, di er yöntemlerden her zaman anlamlı düzeyde ba arılı oldu u belirtilmi tir. Dolayısı ile, Kneser ve Ney yöntemi, kısaca KN olarak adlandıraca ımız olasılık yumu atma yöntemi, bu tezde de, kullanılacak yöntem olarak seçilmi tir. 9.4.2.3 Önerilen Yöntemin Kurgusu Önerilen yöntem, aslen genel Markov sürecinin, çıktı uzayının tanımında, daha do rusu kelime silsilesinin tanımında yapılan basit bir de i ikliktir. Genel kurgu içerisinde, Markov sürecinin hesaplama birimi kelimelerdir. Biz, kelimeler yerine, kelimelerin sonlarından alınacak belirli sayıda harften olu an hesaplama birimi ile de, B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 219 Türkçe’de sözcük türü tespit meselesinin halledilebilece ini iddia ediyoruz. Sözcük türlerinin, yani kelimelerin cümle içindeki di er kelime veya kelimelerle olan ili kilerinin, Türkçe yazımda kelimelerin sonlarına çekim ekleri getirilerek kar ılanması, önermemize do rudan dayanak te kil etmektedir. Önce genel kurgu, yani kelimenin hesaplama birimi olarak kullanılması tanıtılacak, ardından önerimiz, sadece farkı ile ortaya konarak tanımlanacaktır. Genel Markov zinciri kurgusunu vermek için örnek bir cümle kullanaca ız: “ ten döner dönmez evimizin yakınında bulunan derin gölde yüzerek gev emek en büyük zevkimdir.”. Bu örnek cümlenin, her kelimesinin alabilece i olası sözcük türleri, Çizelge 9.4.2.3.1.’de tablo halinde verilmi tir. Çizelge 9.4.2.3.1 : Örnek cümlenin, her kelimesinin olası sözcük türleri. Kelime Sözcük Türü i ten sim ( ) döner , Fiil (F), Sıfat (S) dönmez F, S evimizin yakınında S bulunan S derin , S, F Kelime gölde yüzerek gev emek en büyük zevkimdir Sözcük Türü , Zarf (Zr) Zr F , Zr S F Örnek cümlenin ba tan 6 kelimesi için olası sözcük türleri ve kelime silsilesine kar ılık gelebilecek sözcük türü dizileri, 9.4.2.3.1.’de çizge olarak betimlenmi tir. ekil B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 220 (a) i ten döner dönmez derin gölde S F yüzerek ... S S F Zr Zr F (b) Zr S F ... F F Zr S S Olası Diziler = 1x3x2x3x2x1 = 36 ekil 9.4.2.3.1: Örnek cümlenin 6 kelimesi için olası sözcük türleri (a) ve kar ılık gelebilecek sözcük dizisi ihtimalleri (b). Cümle, Markov süreci kurgusuna alındı ı zaman, kelimeler çıktı uzayını, sözcük türleri durum uzayını olu turmaktadır. Markov süreci kurgusu içindeyken, olası sözcük türü dizileri, kelimelerin olabilece i sözcük türlerinin seçilmesi eklinde bir daraltma söz konusu de ildir. Bir ba ka söyleyi le, durum uzayında tanımlı olan tüm sözcük türleri, çıktı uzayındaki her kelimeye atanması ihtimali vardır. Türkçe için dü ünecek olursak, toplam 8 temel sözcük türü mevcuttur. Dolayısı ile, örnek cümledeki 6 kelime için, olası sözcük türü dizilerinin toplam sayısı, 6x8, yani 48 adet olacaktır. Söz konusu 48 sözcük türü dizisi ihtimalinden en yüksek olasılı a sahip olan, verilmi cümle için atanacaktır. Markov süreci kurgusu içinde, yöntemin tüm unsurlarının çizge olarak betimlenmi hali, ekil 9.4.2.3.2.’de verilmi tir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 221 Zaman Ekseni sm sm sm sm sm ... n ... A A 4 s2 s1 s2 s1 s2 s1 k1 k2 k3 k4 i ten döner dönmez evimizin e1 e2 e3 e4 s2 s1 π1 3 ... b π2 a2n 2 a11 n+1 ann+1 ... πn ... Sözcük Türleri (Durum Uzayı) 1 s2 s1 ... ... 0 ... A a2n+1 ~b a1n+1 b (k ) <bos> A A Sözcük Türü Dizisi A kn kn+1 zevkimdir <eos> en en+1 ... Kelime Silsilesi (Çıktı Uzayı) ij n ekil 9.4.2.3.2: Örnek cümlenin Markov süreci altında, sözcük türü tespit kurgusu. ekilde çizge olarak betimlenen Markov zinciri kurgusunda, cümledeki kelimelerle (kn), yani çıktı uzayı elemanları ile, sözcük türleri (s m), yani durum uzayı elemanları arasında ili kiyi kuran, bij(kn) olasılıkları; sürecin, belirli bir i. sözcük türünden ba lama ihtimali, yani sürecin si durumundan ba laması ihtimali ( π i ); sözcük türlerinin birinden di erine geçi olasılıkları (aij) tanımlanmı tır. Ayrıca, cümleye kar ılık gelebilecek belirli bir sözcük türü dizisi de, e1 , , en olasılık de i kenleri silsilesi olarak temsil edilmi tir. Bu dizideki de i kenin, e olarak adlandırılmasının sebebi, Markov sürecinin her kelimeye etiket yapı tıran bir i lem olarak dü ünülebilmesindendir ( ngilizce’sinde de Tag, yani etiket kelimesi aynen kullanılıyor). Etiketlerin üzerlerinde de, kelime için kar ılık gelen sözcük türü yazılı diye dü ünülebilir. Dolayısı ile, her etiketin üzerine, durum uzayını olu turan s1 , , s m sözcük türlerinden birisi yazılabilir. Mesele, hangi etiketin üzerinde B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 222 hangi sözcük türünün yazılaca ını bulmaktır. Özetle, kurgu açısından simge sisteminde yaptı ımız de i iklikler unlardır: kelime dizisindeki kelimeler, özgün kurguda w (word) ile gösterilirken, de i iklikle k (kelime) olarak; etiketler özgün kurguda t (tag) ile gösterilirken, de i iklikle e olarak temsil edilmektedir. Dolayısı ile, sözcük türü tespit meselesinin, olasılık kurgusu, Denklem 9.4.2.3.1.’de verildi i ekilde ifade edilmektedir. argmax e1 ( en P e1 en k1 kn ) (9.4.2.3.1) Kurguda verilen olasılıklar, Markov süreci için tanımladı ımız olasılıklara kar ılık gelmektedir. Çizgede betimlenen olasılıklardan, aij olasılıkları Pi , j = Pr( X n = j | X n−1 = i ) dura an geçi olasılıklarına, yani sözcük türü tespit meselesinin Markov kurgusunda P(t i | t i −1 ) = P(ei | ei −1 ) artlı olasılı ına; bij(kn) olasılıkları, P( wi | t i −1 , t i ) artlı olasılı ına veya yeni simgeleri ile, P(k i | ei −1 , ei ) artlı olasılı ına e ittir. Kurgu içinde, cümlenin ba ına <bos> ve sonuna <eos> simgeleri konmu tur. Bu simgeler, n=1 oldu u yerde, yani sürecin ba langıcında, ba langıç olasılıklarının, π i = Pr( X 0 = i) , artlı olasılıklar, π i = Pr( X 0 = i |< bos >) olarak ele alınmasını sa lamak amacıyla konmaktadır. Ayrıca, yumu atma yöntemlerinde olasılık da ılımlarının, bire toplanabilmesi için de gereklidir. Sondaki <eos> simgesi de, sözcük türünün cümle sonunda olma olasılı ının artlı olasılık eklinde, yani Pr(< eos >| en ) olasılıkları biçiminde hesaplamada ele alınabilmesi için konmu tur. Böylece, Markov kurgusundaki, tüm olasılıklar artlı olasılık eklinde ifade edilebilmekte, hesaplamalar tek bir düzen üzerinden yapılabilmektedir. Yukarıda Markov süreci esasında sözcük türü tespiti için genel kurgu tanımlanmı tır. Sözcük türü tespiti için, yine Markov süreci B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 223 esasında bu tezde önerdi imiz yöntem ise, Önerme 9.4.2.3.1.’de biçimsel olarak tasvir edilmi tir. Önerme 9.4.2.3.1: Türkçe sözcük türü tespiti için, genel Markov sürecini esas alan kurguda, hesaplama birimi olarak kelime kullanımı yerine, kelimelerin sonlarından belirli uzunlukta harf birlikleri alarak da sözcük türü tespiti yapılabilir. Önermemizin, Markov süreci kurgusunun unsurlarını ne ekilde yeniden tanımladı ı, ekil 9.4.2.3.3.’de çizge olarak betimlenmi tir. ekilde, genel kurgunun korundu u görülmektedir. Tek fark, çıktı uzayının kelimeler yerine, kelimelerin sonundan belirli sayıda harf ile olu turulan birliklerin kullanılmasıdır. Geri kalan kurgu unsurları aynen korunmu tur. Kelime sonundan, l kadar birlik alınmaktadır, örnek çizgede l=2 olan durum gösterilmi tir. Dolayısı ile, kn olasılık de i kenleri, knl eklinde yeni bir indisle bu durumu kar ılamaktadır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 224 π1 s2 s1 A A 4 n sm sm sm sm s2 s1 s2 s1 s2 s1 a11 n+1 ann+1 ... b π2 a2n 3 ... sm 2 ... πn ... Sözcük Türleri (Durum Uzayı) 1 a2n+1 s2 s1 ... ... 0 ... A ... Zaman Ekseni a1n+1 ~b b (k ) k1 k2 <bos> A k3 en er ez in i ten döner dönmez evimizin e1 e2 e3 e4 k4 kn <eos> zevkimdir A Sözcük Türü Dizisi A kn+1 ir ...... ... Kelime Silsilesi (Çıktı Uzayı) ij n en ekil 9.4.2.3.3: Sözcük türü tespitinin, Markov zinciri esasındaki kurgusunda, önerilen kelime sonundan belirli sayıda harf birli inin hesaplama birim olarak kullanılması. 9.4.3. Deneysel Sonuçlar Türkçe için yapılmı çalı malar içinde, bilgimiz dahilinde ba arımı %93,95 ile en yüksek de er sahip olan, Hakkani-Tür ve arkada ları (2002) tarafından istatistiksel yöntemler esas alınarak yapılandır. Kullandıkları yöntemin hesaplama birimleri kelimelerdir. Ayrıca, kelimeler önce Oflazer (1993) tarafından geli tirilen, biçimbirimsel analiz yordamı ile i lenmi tir. Hakkani-Tür, çalı masında, biçimbirimsel analiz i aretlemelerine dayanan bir kurgu ortaya koymu tur. Dolayısı ile, biçimbirimsel analiz olmadan yöntem kullanılamamaktadır. Önerdi imiz yöntemde, böyle bir art yoktur. Hesaplama birimimiz kelime sonlarından alınan belirli sayıda harf birlikleridir ve kelime üzerinde ba ka bir ön i leme gereksinim yoktur. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 225 Önerilen yöntemle ula ılmı en yüksek ba arım, kelime sonundan alınan 4 harf ile olu turulan birlikte gözlenmi olan, %85,9’dur. Genel kabul gören ba arım düzeyinden dü üktür (%90-96 bandı). Ancak, bu düzeyde bir ba arım da, Türkçe’de kapalı kelime da arcı ına dayalı, biçimbirimsel analiz gerektirmeyen bir sözcük türü tespit yordamının yapılabilece ini deneysel olarak ispatlamaya yeterlidir. Önerilen yöntem, 30 de i ik talim derlemi boyutu ve kelime sonundan alınan 7 farklı uzunlukta harf birli i için sınanmı tır. Kullanılan talim derlemi boyutları, cümle birim olarak kabul edilerek ölçeklendirilmi tir. Kullanılan talim derlemi, BilTD derlemidir ve boyutları, 250, 500, 750, 1.000, 1.250, 1.500, 1.750, 2.000, 2.500, 3.000, 3.500, 4.000, 4.500, 5.000, 7.500, 10.000, 12.500, 15.000, 17.500, 20.000, 22.500, 25.000, 27.500, 30.000, 32.500, 35.000, 37.500, 40.000, 42.500 ve 45.000’dir. Sondan alınan harf birli i boyutları, 1, 2, 3, 4, 5, 6 ve 7’dir. Markov süreci olarak, hem 1. derece, hem de 1. derece geçmi e bir adım kullanılmı tır. Ba arımlar, do ru bilinen sözcük türünün, tüm kelime sayısına bölünmesi ile elde edilmi tir. Sınamaların, 1. derece Markov süreci kurgusu ve KN olasılık yumu atma yöntemi ile yapılanlarından alınmı olan sonuçlar, ekil 9.4.3.1.’de çizge olarak verilmi tir. ekilden de görüldü ü gibi, talim derleminin tüm de erleri için, en yüksek ba arım de erleri %60-%70 bandı arasında kalmasıdır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 226 0.7000 0.6000 Ba arım Oranı L1 0.5000 L2 0.4000 L3 L4 0.3000 L5 0.2000 L6 L7 0.1000 25 0 10 00 17 50 30 00 45 00 10 00 0 17 50 0 25 00 0 32 50 0 40 00 0 0.0000 Talim Derlemi Boyutu (Cümle Sayısı) ekil 9.4.3.1: Sözcük türü tespit, sınama sonuçları. 1. dereceden Markov süreci kurgusu altında, tüm talim derlemi boyutları sondan alınan harf birliklerinin tüm uzunlukları için. Sınamanın, 1. dereceden Markov süreci kurgusu içerisinde yapılan halinde, dikkat çekici olan durum, sondan alınan tek harf birli inin, tüm talim boyutu de erlerinde istisnasız %60-%70 ba arım bandında kalmasıdır. Harf birli i için sondan alınan, harf birli i sayısı arttıkça, ba langıç ba arımı dü mekte, yani harf sayısı artarken, talim derlem boyutunun iki uç noktasına denk gelen en dü ük ile en yüksek ba arım de eri arasındaki makas açılmaktadır. Sınamanın, 1. derece, geçmi e bir adım Markov süreci kurgusu içinde alınan sonuçlar ekil 9.4.3.2.’de verilmi tir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 227 1.0000 0.9000 Ba arım Oranları 0.8000 L1 0.7000 L2 L3 L4 L5 0.6000 0.5000 0.4000 L6 L7 0.3000 0.2000 0.1000 0 00 0 40 50 0 32 00 0 25 50 0 17 00 00 10 45 00 30 50 17 00 10 25 0 0.0000 Talim Derlemi Boyutu (Cümle Sayısı) ekil 9.4.3.2: Sözcük türü tespit, sınama sonuçları. 1. derece, geçmi e bir adım Markov süreci kurgusu altında, tüm talim derlemi boyutları ve sondan alınan harf birliklerinin tüm uzunlukları için. Sınamanın, ekil 9.4.3.2.’de gösterilen sonuçlarında, en yüksek ba arımlar, %80-%90 bandında kalmaktadır. Bir harften olu an birlik, yine %60-%70 bandında seyretmi tir. Geçmi e bir adım ile sa lanan ba lam derinli inin, tek harften olu an birli e etkisi olmamı tır. Fakat, ba lamın derinle mesi, harf uzunlu unun 2, 3, 4 ve 5 oldu u birlikler üzerindeki etkisi lehtedir. Özellikle 3 ve 4 harften olu an birlikler, 10.000 kelimelik talim derlemi boyutundan itibaren, hep %80 ba arımın üzerinde kalmı tır. Zaten, 4 harften olu an birlik, 30.000 cümlelik talim düzeyinde ve sonrasında %85 ba arımının hep üzerinde kalmı ve son olarak 45.000 cümlelik talim derlemi boyutunda, %85,92 ba arım ile, sınamanın en yüksek de erini olu turmu tur. Sondan 5 harf alınarak olu turulan birlik için, 42.500 cümlelik talim düzeyinde, %85 ba arım yakalanmı tır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 228 Markov zinciri dil modelinin, 1. derecesi için yapılan sınamada harf sayısı bire e it birlik için her talim derlemi boyutunda tutarlı sonuç alınmasının sebebi, deneysel olasılık da ılımına, yani derlemimiz için tek harf uzunlu undaki birli in gerçek olasılı ına küçük talim boyutlarından itibaren ula ılmasıdır. ki ve üzeri harf sayısı için deneysel olasılı a yakınsamanın, talim derleminde daha büyük boyutlarda gerçekle mesi ise istatistiksel açıdan beklenen bir sonuçtur. Çünkü, harf sayısı arttıkça, olasılı ı belirlenecek farklı durum sayısı artmaktadır, yani durum ba ına dü en gözlem sayısı dü mektedir. Bu durum aynı zamanda gözlenmemi durumlar için devreye giren yumu atma yöntemine daha çok ba vurulması anlamına gelmektedir. Eldeki verilerin ı ı ında, bir harf uzunlu unun en yüksek ba arımda olması durumuna sebep olarak, yumu atma yöntemini, elimizdeki derlemi, uyguladı ımız yöntemi veya belirleyicili in genel ba arımda olumsuz yönde etki etti ini önerebiliriz. Ancak, ba lamın bir kelime daha arttırılması ile, yani 1. derecede bir adım geçmi e yönelinmesi ile, durumun de i mesi, yani en yüksek ba arımın dört harf uzunlu undaki birli e ait olması ve ba arımda genel anlamda geli me kaydedilmesi, sorgulanması gereken ilk konu olarak yumu atma yöntemini ortaya çıkartır. Fakat, yumu atma yöntemleri bu tezin kapsamına girmemektedir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 229 10. GENEL STAT ST KLER Tez kapsamındaki çalı malarda üç Türkçe, üç de ngilizce derlem olmak üzere toplam altı derlem kullanılmı tır. Bu derlemlerin genel özellikleri ve istatistikleri di er çalı malara temel te kil edece inden dolayı toplu halde bu bölümde ele alınacaktır. Türkçe için kısa adları BilTD, OSTAD ve ODTÜ olan üç derlem vardır. BilTD ve OSTAD elimizdeki dilbilimsel özellikleri i aretlenmi derlemlerdir. ODTÜ derlemi dilbilimsel özellik i aretlemesi olmayan ancak boyut olarak en büyük derlemimizdir. Sadece derlem içindeki belgeler birbirinden ayrı tırılmı ve her belgenin genel yapısal özellikleri i aretlenmi tir. aretlenen yapısal özellikler çok detaylıdır: belgenin türü (makale, roman, haber v.s.), ba lı ı, yazarı, yayın evi, basım tarihi, kelime sayısı v.s. gibi belgenin genel özellikleri ve paragraf sınırları, atıflar gibi yazı içindeki i aretlemeler yapılmı tır. BilTD ise ODTÜ derlemi kadar yapısal özellik i aretlemesine sahip de ildir. Ancak, BilTD derleminde her kelimenin biçimbirimsel analizi de yapılmı tır. Ayrıca, belge sınırları, ba lık ve cümle sınırları da i aretlenmi tir. OSTAD aslen ODTÜ derleminden seçilen bazı belgeler ve bu belgelerin içerisinden seçilen bazı paragraflardan olu turulmu tur. OSTAD derleminde de, BilTD derleminde oldu u gibi her kelimenin biçimbirimsel analizi yapılmı tır. Ayrıca, kelime gurupları belirlenmi , her kelime veya kelime gurubunun sözdizimsel cümle analizi yapılmı tır, yani cümle unsurları (fiil, fail, nesne v.b.) i aretlenmi tir. Aslen, OSTAD ile BilTD arasındaki tek fark sadece dilbilimsel çözümleme esasında de ildir. OSTAD elle i aretlenmi tir. Oysa BilTD, otomatik i aretleme ile olu turulmu tur. Dolayısı ile, OSTAD, dilbilimsel özelliklerin belirlenmesinde olu abilecek yorum farkı dı ında hatasızdır! Fakat BilTD, her i aretli özelli i için belli bir miktar hata payı ta ımaktadır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 230 Bu üç derlemin özet istatistikleri, toplu halde Çizelge 10.1.’de tablo eklinde verilmi tir. Çizelge 10.1. BilTD, ODTÜ ve OSTAD derlemlerinin genel özellikleri. “*” karakteri olan hücreler derlemlerin söz konusu özelli inin belli olmadı ını gösterir. Birlik Sayısı Derlem Harf Rak+Nok Toplam 51,209 13,700 64,909 OSTAD 587,277 124,836 712,113 BilTD 1,924,653 431,351 2,356,004 ODTÜ 569,887 3,133,026 Toplam 2,563,139 * * Birle ik 2,511,930 Kelime Gövde Belge Parag Cümle 17,487 5,201 33 94,230 20,268 2,383 * 978 58,356 200,048 * 2,457 7,262 48,070 * 311,765 25,469 3,394 60,813 55,332 234,843 21,095 * * * Çizelgede, “Birlik Sayısı” ba lı ı altında üç sütün bulunmaktadır (Birlik terimini, derlem içindeki yazıda geçen herhangi bir gurup simge toplulu u için kullanıyoruz, yani kelimeler, rakamlar, noktalama i aretleri v.s.). “Harf” sütunu bu birliklerden yalnızca alfabe karakterleri ile olu turulmu olanları, “Rak+Nok” sütunu ise birliklerden, rakamla olu turulmu olanları ve noktalama i aretlerini, “Toplam” sütunu ise, yalın olarak bu birlik sayılarının toplamını göstermektedir. “Kelime” sütununda, her derlemde bulunan farklı birlik sayısı (sadece harf birlikleri için) ve “Gövde” sütununda da, derlemlerdeki farklı gövde sayıları verilmi tir. Bu sütunlarda verilen de erler aslen derlemlerin kelime zenginli ini, yani kelime da arcı ını göstermektedir. BGG sistemlerinde bu sayılar, özellikle kelime sayısı önemlidir. Türkçe için gövdeleme i leminin depolama açısından önemini de, kelime ve gövde esasındaki boyut farkı ortaya koymaktadır. Aynı ekilde, “Belge”, “Paragraf” ve “Cümle” sütunlarında derlemlerin söz konusu özelli e kar ılık gelen de erleri vardır. Çizelgede, “Toplam” satırının altında verilen bir de “Birle ik” ba lıklı satır bulunmaktadır. Bu satırdaki de erler, üç derlem belirli B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 231 özellikleri göz önüne alınarak harmanlanınca, yani birle tirilince elde edilen yeni derlemin, yani birle ik derlemin (BirTD) özelliklerini vermektedir. Örne in, sadece kelime sayıları üzerinden yapılacak çalı malar için BilTD ve ODTÜ harlamanı olu turulmu tur. OSTAD, ODTÜ derleminin zaten bir parçası oldu undan, bu harmanda tabii ki yer almayacaktır. Dolayısı ile, birle ik derlemin harf birli i sayısı, BilTD ve ODTÜ toplamına, yani 2.511.930’a e it olmaktadır. Bu birle ik derlemin, kelime da arcı ı boyutu ise, 234.843’tür. Fakat, gövde esasında bir çalı ma için, ODTÜ derlemi harmana katılamayacaktır, dolayısı ile birle ik derlem bu kez BilTD ve OSTAD derlemlerinden olu acak, birlik sayısı 638.486, gövde olarak kelime da arcı ı 21.095 olacaktır. Bu harmanlama, incelemenin özelliklerine uyan derlemlerle, tez içerisinde hep benzer ekilde yapılmaktadır. Genel istatistiklerin yanında, derlemlerin olu turuldu u belge türleri de önemli bir konudur. Genel kabullenme, belgelerin içeri ine ba lı olarak ta ıdıkları enformasyon de erlerinin de, de i ti i yönündedir. Örne in makale, gazete yazıları gibi belgeler gerçek ki i, kavram ve olaylarla ilgili oldukları için ta ıdıkları enformasyon açısından roman, deneme gibi hayali ki i ve olayları içeren belgelerden daha farklı ekilde ele alınırlar. Dilbilim çalı malarının kullanılı amaçlarına uygun ekilde belge türü üzerinden derlemler olu turulması gereklili i de vardır. Elimizdeki derlemler, belge türleri açısından zengindir. ODTÜ derlemi hemen her tür belgeyi belirli oranlarda içermektedir. ODTÜ derleminde bulunan belge türleri ekil 10.1.’de verilmi tir. OSTAD derlemi, ODTÜ derleminden bazı belgelerin belirli paragrafları alınarak olu turulmu tur. BilTD ise, sadece gazete yazılarından olu mu tur. Yani tek bir belge türüne sahiptir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 232 Haber 42% Makale 8% Ara tırma 5% Söyle i 1% Kö e Yazısı 8% Öykü 11% Di er 3% Gezi Yazısı 2% Deneme Roman 7% 13% ekil 10.1: ODTÜ derlemindeki belge türleri OSTAD derleminde de, ODTÜ derlemindeki belge türü çe itlili i korunmu tur. ekil 10.2.’de de, OSTAD için belge türleri ve oransal da ılımları gösterilmi tir. Haber 28% Ara tırma 6% Makale 9% Roman 18% Öykü 24% Gezi Yazısı 3% Deneme 12% ekil 10.2: OSTAD derlemindeki belge türleri B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 233 10.1. Tanımlayıcı statistikler BilTD, ODTÜ ve OSTAD derlemlerinin ihtiva etti i birlik, kelime ve gövde sayılarının toplam (birle ik de il yalın toplamlar) üzerinden, göreceli oranları ekil 10.1.1.’de bindirilmi sütunlar çizgesi olarak verilmi tir. 100 75 64 80 90 80 70 60 50 40 20 DERLEM 30 30 ODTÜ 23 20 BilTD 10 6 0 BIRLIK_H KELIME OSTAD GÖVDE ekil 10.1.1 : BilTD, ODTÜ ve OSTAD derlemlerinde bulunan birlik (harf), kelime ve gövde sayılarının toplam üzerinden göreceli oranları. Sütunlardaki bölümler derlemleri, rakamlar toplam üzerinden oranları (%) temsil etmektedir. Gövde sütunu ODTÜ derlemini içermez. ekilde, ODTÜ derleminin biçimbirim analizi olmadı ı için gövde sayısı da yoktur (en sa daki sütun). Gövde sütunu, yalnızca BilTD ve OSTAD derlemlerini, sadece iki derlemin toplamı üzerinden oransal olarak vermektedir. Burada kayda de er özellik, derlemlerin yazım ekli olarak kelime zenginliklerini ortaya çıkaran, “kelime” sütununda görülmektedir. Derlemler, toplam birlik sayıları ile orantılı olarak kelime zenginli ine katkıda bulunmamaktadır. BilTD yalın B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 234 boyut oranından (%23), daha fazla bir oranda (%30) katkıda bulunurken, ODTÜ derlemi yalın boyut oranından (%75), daha dü ük bir oranda (%64) katkı sa lamaktadır. Ancak bu oranlar, bir çıkarım yapabilmek için henüz güvenilir de ildir, sadece fikir vericidir. Çünkü OSTAD derlemi, bildi imiz gibi ODTÜ derleminin bir parçasıdır. Aynı durumun birle ik derlem, yani BirTD derlemi üzerinden incelenmesi güvenilir sonuçları verecektir. BirTD derlemi üzerinden, kelime ve gövde için tanımlayıcı istatistikler, sırasıyla Çizelge 10.1.2 ve ekil 10.1.3.’de verilmi tir. BirTD derlemi olu turulurken, BilTD, ODTÜ ve OSTAD derlemlerinden hangisinin, kelimelerin kayna ı oldu unun da kodlaması söz konusu olmu tur, bu amaçla basit bir kodlama, Denklem 10.1.1’de verildi i ekilde kullanılmı tır. Derlem = BilTD + (10 * ODTU ) + (100 * OSTAD) (10.1.1) Denklemde verilen kodlamada, e er kelime bir derlemde varsa, denklemde BilTD, ODTÜ ve OSTAD yerine bir, e er yoksa sıfır konarak, BirTD içindeki her kelimeye kaynak derlemi de erlerinden 1, 10, 100; 11, 110, 101 ve 111 birisi atanmı tır. Anla ılaca ı gibi, de erlerden ilk üçü sadece bir tek derlemde gözüken kelimeleri, di erleri ise derlemlerin olası tüm kesi im kümeleri içinde gözüken kelimeleri belirler. Örne in bir kelimede atanmı derlem de eri 111 ise, bu kelime her üç derlemde de, e er 100 ise sadece OSTAD derleminde var demektir. Bu sayede hem bireysel, hem de kesi im içindeki kelimeler rahatlıkla belirlenebilmektedir. BirTD derlemini olu turan kelimelerin, kaynak derlemleri açısından sayısal de erler, Çizelge 10.1.1.’de tablo halinde verilmi tir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 235 Çizelge 10.1.1: BirTD için kelimelerin geldikleri derlemler üzerinden istatistikleri. “Derlem” sütunundaki de erler, Denklem 10.1.1’den elde edilmi tir. DERLEM 1 10 11 110 111 Toplam Frekans 34,795 134,639 47,931 5,974 11,504 234,843 (%) 14.82 57.33 20.41 2.54 4.90 100 Yı ın (%) 14.82 72.15 92.56 95.10 100.00 Çizelgede, kelimelere atanan iki derlem kodlama de eri görüldü ü gibi yoktur. Bunlar 100 ve 101’dir. ODTÜ derlemi, OSTAD derlemini tamamen kapsadı ı için, olmayan bu iki derlem kodu unlardır: “100”, yani sadece OSTAD’da olup, BilTD ve ODTÜ’de olmayan; “101”, yani BilTD ve OSTAD’da olup, ODTÜ’de olmayan. Tabii ki bu iki durum imkansızdır. O yüzden frekansları, yani gözlenme sıklıkları sıfırdır ve de erlendirme dı ı kalmı lardır. 70 60 57 50 40 30 Oran (%) 20 10 20 15 5 0 1 10 11 110 111 DERLEM ekil 10.1.2 : Birle ik derleminin (BirTD), kelime esasında kelime da arcı ını olu turan kaynak derlemler ve oransal katkıları. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 236 Birle ik derlemin kelime da arcı ına, en büyük katkı, beklendi i gibi ve bir önceki de erlendirmenin aksine, tek ba ına yakla ık %57 ile ODTÜ derleminden (10) olmu tur. Yalnız ba ına BilTD derlemi (1) yakla ık %15 katkıda bulunmu tur. ki derlemin ortak katkısı (11) ise yakla ık %20 civarıdır. OSTAD ile ODTÜ’de olup BilTD derleminde olmayan kelimeler (110) yakla ık %3’dür, aslen bu sayı ODTÜ derleminin yalnız katkısı ile birlikte de erlendirilmelidir (%60). Üçünün kesi im kümesinde (111) ise toplam kelime sayısının yakla ık %5’ bulunmaktadır. Bu oran da aslen, yalnızca BilTD ile ODTÜ ortaklı ıdır (11) ve toplama eklenebilir (%25). OSTAD katkısı ODTÜ içine dahil edilmi ekilde özetleyecek olursak, BilTD tek ba ına kelime da arcı ına %15, ODTÜ tek ba ına %60 ve birlikte %25 katkıda bulunmu lardır. Kelimeler açısından elimizdeki üç derlemin durumu budur, bir de aynı derlemleri gövdeler esasında incelemekte fayda vardır. Ancak, bu noktada elimizdeki en büyük derlem olan ODTÜ, biçimbirimsel analizi olmadı ı için, onun çok küçük bir parçası olan OSTAD ile yetinmek zorundayız. Bu kez birle ik derleminin, sadece BilTD ve OSTAD derlemlerinden olu tu u durumu göz önüne alınarak Denklem 10.1.1.’de verilen kodlamada ufak bir de i iklik yapılmı , denklemden 100 katsayısı çıkartılıp, ODTÜ yerine OSTAD alınarak yeni birle ik derlem için gereken kodlama elde edilmi tir (Derlem = BilTD + (10 * OSTAD)). Böylece birle ik derlemin her kelimesi için, üç de er üretilmektedir: 1 (BilTD), 10 (OSTAD) ve 11 (hem BilTD hem OSTAD). Çizelge 10.1.2.’de gövdelerle ilgili istatistikler verilmi tir. ekil 10.1.3.’de de, çizelgede verilen istatistiklerin çizgesel olarak gösterimi yapılmı tır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 237 Çizelge 10.1.2 : Gövde esasında BirTD derlemi için tanımlayıcı istatistikler. DERLEM 1 10 11 Total Frekans 15,894 827 4,374 21,095 (%) Yı ın (%) 75.34 75.34 3.92 79.27 20.73 100.00 100 Çizelgeden de anla ılaca ı gibi, oranlar nispetinde, gövdeler de kelimelerden, kelime da arcı ına yaptıkları katkı açısından bir farklılık göstermemektedir. 80 75 60 40 Oran(%) 20 21 0 1 4 10 11 DERLEM ekil 10.1.3 : BilTD ve OSTAD derlemlerinin, gövdeler esasındaki kelime da arcı ına yaptıkları katkılar. BGG sahasındaki yöntemlerin kullandıkları kelime da arcı ının boyutları, sistemlerin depolama ve verimlilik meseleleri açısından önemlidir. Kelime da arcı ı ile BGG sistemleri arasındaki ili ki, belgelerin indeks terimler ile temsil edilmesi, indeks terimlerin de belgeler içinde geçen birliklerden olu turulması sebebine dayanır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 238 Dolayısı ile, kelime da arcı ının, kolay yönetilebilir boyutların üzerine çıkması, sistemlerin çok büyük belge sayıları ile u ra mak zorunda oldukları göz önünde tutulunca, kabul edilemez bir durum olmaktadır. E er dilbilimsel özellikler ile geri-getirim, bu tezde oldu u gibi öncelikli bir konu ise, hesaplamalı dilbilim içinde kelime da arcı ı, yani bir sözlük kullanan mevcut yöntemlerin hemen hiç birinin do rusal hesaplama karma ıklı ına sahip olmaması da göz önünde bulundurulması gereken bir ba ka boyuttur: BGG sistemlerinde dilbilimsel yöntemlerin kullanımı ile bir geli me kaydedilmi olsa dahi, yöntemlerin kullanılabilirli i açısından hesaplama karma ıklı ı, mesele olmaya devam edecektir (en azından u anki teknoloji için). Hesaplama karma ıklı ının önemli etmenlerinden biri, yöntemde kullanılan kelime da arcı ı boyutudur. Aslen, dilbilim çevrelerinde kelime da arcı ı boyutu açısından yaygın olan görü , da arcı ın boyutlarının, derlem boyutu sonsuza giderken belirli bir sabit de ere ula aca ı, yani genel anlamda kapalı bir kelime da arcı ı oldu udur. Bu kabullenme do ruysa, kelime da arcı ının boyutu hesaplama karma ıklı ı açısından sabit olacak, dolayısı ile sadece depolama ile alakalı bir meseleye dönü ecektir. Ancak, yaptı ımız çalı malar, Türkçe için kapalı kelime da arcı ı kabullenmesi yapılamayaca ını göstermektedir20. Türkçe kelime da arcı ının derlem büyüklü ü ile ne tür bir ili ki sergiledi i, tüm bu meselelere ı ık tutaca ı için tanımlanması gereken bir konudur ve ilerleyen kısımlarda detaylı olarak incelenmektedir. 20 Aynı bulgular ngilizce için de deneysel olarak gösterilmi tir (Mandelbrot, 1961; Kornai, 2002). B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 239 10.2. Türkçe için Zipf Güç Kanunları ncelemesi Türkçe için, Zipf güç kanunları ne kadar uyumludur, parametreler için de erler nelerdir gibi soruların cevaplarını bu bölümde verece iz. Bu amaçla, önce Zipf birinci kanunu (Bölüm 7.2.1), elimizdeki BilTD, ODTÜ ve OSTAD derlemlerinin her birine, daha sonra da birle ik derleme uygulayaca ız. Böylece de i imleri ve derlemler arası farklılı ı da gözlemleyebilece iz. Ancak, öncelikle yapaca ımız incelemeye benzer ara tırmaların alt yapısını olu turmak için, birkaç genel istatistiksel konuyu tanıtmamız gerekmektedir. 10.2.1. statistiksel ncelemeler için Alt Yapı statistiksel de erlendirmelerin temelinde, belirli bir kitlenin (population) özellikleri ile ilgili, nicel veya nitel tanımlamaları çıkarmak veya belirli bir kitle özelli inin bilinmeyen de erlerini tahmin etmek vardır. E er bir “tahmin” yapmak söz konusu ise, kitlenin tahmin edilmek istenen özelli i ilgili kuramsal bir model, yapılacak tahminlerin hesaplamaları için gereklidir. statistik ile kitle özelli i tahminlerinde kullanılan modeller matematikseldir. Böyle bir matematiksel model üzerinden, kitlenin belirli bir özelli in tahmini de erini hesaplamak için gerekli olan veridir. Veri ise, kitleden belirli ilkelere ba lı kalınarak seçilen ve boyut olarak kitleden çok daha küçük olan bir ö eler toplulu u üzerinden elde edilmektedir. te, bu kitleden boyut olarak küçük olan, kitlenin bilinmeyen özelli inin de er tahmini için hesaplamalarda kullanılan, alt kitle gurubuna örneklem (sample) denir. statistiksel incelemeler için verilen bu öykü, tüm do al olaylar için genel geçerdir. De i ik kitle özellikleri ve artlar için sadece matematiksel model ve örneklem seçimi için esas alınacak ilkeler B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 240 de i iklik gösterirler. E er örnek olarak yazılı bir dil için kurgulama yapacak olursak, kitlemiz aslen yazılmı olan ve yazılabilecek tüm metinlerden metinlerdir! Örneklem ise, daha önce yazılmı olu turaca ımız bir derlem olacaktır. Aynı ekilde, bir ba ka bakı açısından, söz gelimi, kitlemiz önceden yazılmı belgelerden olu an tek bir derlem de olabilir, mesela ODTÜ derlemi kitlemiz olabilir. Bu kez örneklem, ODTÜ derlemindeki belgelerin belirli bir kısmı ile olu turulacak alt guruplar olacaktır. Özetle kitle, tahmin edilmek istenen özelli in ne oldu una göre, örneklem ise kitlenin ne oldu una göre de i im gösterir. Demek ki, BilTD, ODTÜ veya OSTAD tahmin edece imiz özelli in tanımına göre kitle veya örneklem olarak alınabilir. Olasılı a dayalı iddiaların deneysel temelinde, frekans oranlarının sabitle mesi kanunu vardır. Bu ilke, örne in herhangi bir kelimenin (w), örneklem içindeki göreceli frekansının f n = Fn (w) / n , örneklem büyüklü ü (n) sonsuz giderken, f (w) gibi sabit bir göreceli frekansa e it olaca ını söylemektedir. Bu sabit göreceli frekansa gerçek olasılık adı da verilmektedir. Bir ba ka söyleyi le, örneklem büyüklü ü yeterince büyütülünce örneklem içindeki göreceli frekanslar, yani olasılıklar, 0 ≤ f ( w) ≤ 1 gibi sabit de erlere yakınsarlar, bu sabit de erler de tabii onların kitle içindeki gerçek olasılıklarıdır. Bu ilkenin geçerlili i için, geçerli olması gereken en kritik kabullenme, kitle özelli inin alabilece i olası tüm de erlerin önceden belirli veya hesaplanabilir oldu udur (gerçek sayılar söz konusu ise 0 ≤ x ≤ ∞ gibi bir aralıkta oldu u veya bir zar atıldı ında gelebilecek sayıların 1 ile 6 arasında olabilece inin bilinmesi gibi.). Yani, tahmin edilecek özelli in alabilece i de erlerin, sayılabilir ve sınırlı bir kümeden veya sayılabilir ve sınırsız bir kümeden gelmesi gerekir, sayılamaz ve sınırsız kümelerle çalı ıldı ında durum tamamen de i mektedir: deneysel bir B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 241 olasılıktan, yani yakınsanacak bir sabit gerçek olasılıktan bahsetmek mümkün de ildir. te bu kabullenme, hesaplamalı dil bilimde deneysel yöntemler kullanılacaksa, neden kapalı kelime da arcı ına gereksinim duyuldu unun sebebini de açıklamaktadır. Demek ki, boyutu devamlı büyüyen bir derlem, örneklem olarak alındı ında, kelimelerin gözlenme sıklıkları, yani frekansları veya göreceli frekansları açısından öyle bir iddianın geçerlili ini deneysel sonuçların anlamlılı ı açısından sorgulamak gerekir: E er kelime da arcı ı kapalı de ilse, toplam olasılıktan (yani bir), örneklem büyüklü ü arttıkça her kelime ba ına dü en payın hiçbir zaman sıfır olmayacak ekilde giderek dü mesi gerekir. Dolayısı ile, hiçbir kelimenin olasılı ının sabitlenmemesi, derlem büyüklü ü arttıkça de i mesi gerekir. Deneysel hesaplamalı dilbilim çalı malarında, örneklem büyüklü ü arttıkça kelime frekansları büyük de erlere çıktı ı için, aslında yalın ekilde frekanslara bakarak bir sabite yakla ıp yakla madıkları, gözlemlenerek anla ılamaz. Zipf ilkelerinde verilen ifadelerin, log-log ölçe inde incelenmesi de bu görselli in gereklili indendir. Ço u nicel dilbilimsel uygulamada, üstel olarak artan boyutlarda derlemler kullanılır ve Zipf ifadesine yakın ili kiler 4 5 genellikle 10 -10 aralı ındaki bir büyüklükte yakalanır. Çünkü, küçük derlem boyutlarında kelime da arcı ının büyüme hızı oldukça yüksektir. Dolayısı ile, Zipf kanunlarında verilen ifadelerdeki, kapalı kelime da arcı ı kabullenmesine yakınsama ancak büyük derlemlerde söz konusudur. Zipf güç kanunları ile ilgili istatistiksel çalı mamızda, o anki inceleme esaslarına uyması ko ulu ile, mevcut tüm derlemlerden yararlanılacaktır: BilTD, ODTÜ, OSTAD ve birle ik derlem BirTD. Bu bölümde, derlemler üzerinden sınayaca ımız iddialar, Zipf birinci B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 242 kanunu ve birinci kanun için Mandelbrot ifadesi olacaktır (Bölüm 7.2.1). Mandelbrot ifadesindeki W parametresi için en az 3, uygun olan derlem boyutlarında da 4 veya 5 sabit de er üzerinden sınama yapaca ız: 10, 100 ve 1000; 10,000 veya 100,0000. Mandelbrot özgün çalı masında ngilizce için, W=100 de erinde ifadenin en uygun halini elde etti ini belirmi tir. Biz de, Türkçe için W parametresinin en uygun de erini tahmin edece iz. Kelimeler esasında yapılacak bu çalı ma, aynı zamanda gövdeler için de yapılacaktır. Ancak, tezin hedefinin, BGG sistem ba arımlarının dilbilimsel özellikler kullanılarak arttırılması oldu u dü ünüldü ünde, tüm durumların detaylı açıklamalarını vermek tez kapsamımızı oldukça a acaktır. O yüzden sadece BilTD derlemi için detaylı inceleme yaparak, de erlendirme için önemli noktaları belirttikten sonra, geri kalan derlemler için sadece parametre de erleri ve sıra dı ı veya önemli buldu umuz detayları belirtmekle yetinece iz. 10.2.2. BilTD Derleminin Zipf Birinci Kanun ncelemesi BilTD derlemi biçimbirimsel dilbilim analizinden geçirildi i için, hem kelime hem de gövde esasında Zipf ve Mandelbrot ifadelerinin sınamaları yapılmı tır. 10.2.2.1 Kelime esasında inceleme Zipf birinci kanun ve Mandelbrot ifadesinin, BilTD derlemi için uyum de erleri Çizelge 10.2.2.1.1.’de tablo halinde verilmi tir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 243 Çizelge 10.2.2.1.1 : BilTD derlemi için, kelime esasında Zipf ve Mandelbrot ifadeleri ile do rusal ili ki uyum sınamaları. Model Zipf W=10 W=100 W=1,000 W=10,000 Rsq 0.995 0.996 0.998 0.995 0.949 N 94,228 94,228 94,228 94,228 94,228 F 1.900E+07 2.400E+07 5.700E+07 1.800E+07 1.749E+06 Sigf 0.000 0.000 0.000 0.000 0.000 b0 5.3089 5.3332 5.4499 6.0148 8.8358 b1 -1.0933 -1.0986 -1.1235 -1.2417 -1.8094 Çizelgede BilTD derlemi için Zipf ve Mandelbrot ifadelerinin tüm uyum de erlendirmeleri topluca verilmi tir. Bundan sonraki tüm derlemlerde de yine topluca, aynı biçimde verilecektir. Dolayısı ile, bu çizelgede açıklananlar aksi belirtilmedikçe di er derlem çizelgeleri için de geçerlidir. “Model” sütununda, uyum için sınanan ifadenin kısa adı verilmi tir: Zipf, Zipf birinci kanunu; W=10, Mandelbrot ifadesinde W parametresi de erinin 10 oldu u durum; aynı ekilde W=100, 1,000 ve 10,000 satırları da Mandelbrot ifadesi içindir. “Rsq” (R2) sütunu uyumun belirleyicilik katsayısıdır (coefficient of determination). Aslen bu de er do rusal regrasyon (linear regression) yöntemindeki çoklu korelasyon katsayısının ( − 1 ≤ R ≤ 1 ), yani tahmin edilen de erler ile gerçek de erler arasındaki kar ılıklı do rusal ili kiyi temsil eden de erin (correlation) karesidir. De er ne kadar büyükse, do rusal ili ki o kadar güçlüdür. R2 de erinin bir olması veri içindeki tüm de i imin belirlendi ini, yani model ile tam temsil edildi ini; sıfır olması modelin de i imi açıklayamadı ını gösterir. “N” sütununda uyum için de erlendirmeye alınan kelime sayısı, daha do rusu kelime da arcı ı boyutu verilmi tir (e er gövde esasında de erlendirme yapılıyorsa, gövde sayısı olacaktır). “F” sütununda, do rusal regrasyona ait ANOVA21 tablosunun, F istatistik de erleri listelenmi tir. Verilen 21 ANOVA, ngilizce’si Analysis Of Variance (varyans analizi) olan yöntemin kısa adıdır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 244 do rusal ili kiye dayalı, model uyum de erlerinin, istatistiksel açıdan anlamlı olması için, F istatistik de erinin belli bir anlam düzeyi için, örne in α=0.001 de eri için, kritik bir e ik de erden büyük olması gerekir. Zaten “Sigf” sütunundaki de er hangi anlam düzeyinde verilen F istatistik de erinin, söz konusu e ik de erden büyük oldu unu göstermektedir. Tabloda görüldü ü gibi, tüm “Sigf” de erleri noktadan sonra üç basamak hassasiyetinde sıfırdır, yani verilen F de erlerinin hepsi α=0.001 anlam düzeyinin e ik de erinden büyüktür. Dolayısı ile istatistiksel olarak anlamlıdır. Çizelgede, son iki sütun olan, “b0” ve “b1” ise, y = b0 + b1 ⋅ x eklinde bir do rusal ili ki modelinin kar ılık gelen de erlerinin listesidir. Bu do rusal modelde, “b0” y-eksenindeki kaydırma miktarı (HN), “b1” ise do runun e imidir (BN). Tabloda, R2 de eri kalın biçimde yazılı olan satırdaki, daha do rusu en büyük R2 de erine sahip satırdaki sabitler, incelenen derleme en uygun olan modeli ve parametre de erlerini gösterir. BilTD derleminin kelimeleri için, W=100 parametre de eri olan Mandelbrot ifadesi, en uygun modeldir. Görsel kar ıla tırma açısından, için, ekil 10.2.2.1.1.’de Zipf ifadesi ekil 10.2.2.1.2.’de de Mandelbrot ifadesinin W=100 parametre de eri için, modellerin tahmin etti i ve BilTD derleminde gözlenen de erlere ait yayılım çizgeleri (scatter plot) verilmi tir. Mandelbrot, ngilizce için, W parametresinin de erini 100 ve “b0” parametresinin de erini 1.15 olarak vermi tir. BilTD derlemi, bu açıdan ngilizce ile paralellik göstermi tir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 245 ekil 10.2.2.1.1: BilTD derleminin, kelime esasında Zipf ifadesi ile uyumu. Kelime frekanslarının logaritmaları (log_f) y-ekseni, frekanslara ait sıra numaralarının logaritmaları (log_r) x-eksenidir. Düz çizgi, Zipf ifadesi ile tahmin edilen de erlerdir. ekilde, Zipf ifadesinin, Mandelbrot’un belirtti i gibi, BilTD derlemindeki kelime frekansları ile sıra numaraları arasındaki ili kiyi özellikle küçük sıra numaraları için (çizgenin sol üst kö esi) pek iyi ekilde temsil edemedi i rahatlıkla görülebilmektedir. Küçük sıra numaraları derlemde en sık gözlenen kelimelerdir ve Zipf ifadesi bu kelimelerin frekanslarının çok üzerinde tahminler yapmı tır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 246 ekil 10.2.2.1.2 : BilTD derleminin, kelimeler esasında Mandelbrot ifadesinin W=100 parametre de eri için uyumu. Modeller üzerinde yapılan hesapların da gösterdi i gibi, ekilde verilen Mandelbrot ifadesi, Zipf ifadesinden çok daha iyi tahmin de erleri üretmi tir. Her iki ekilde de, derlemdeki kelime frekanslarının (y-ekseni) orta noktasından, a a ı ve yukarı ilerledikçe, sıra numaraları arasında atlamalar olmaktadır. Atlamanın büyüklü ü, nokta üzerine yatay bir çizgi ile betimlenmi tir. Çizgi ne kadar geni se, sıra numaraları arasındaki atlama o kadar büyüktür. Sıra numarasındaki atlamanın sebebi, derlemde aynı frekansa sahip olan kelimelere ortak bir sıra numarası atanmasındandır. Bu ortak sıra numarası, e itli in ba ladı ı noktadan, bitti i noktaya kadar olan gerçek sıra numaralarının B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 247 ortalamasıdır. Örne in 2, 3, 3, 4 de erlerinin sıra numaraları: 1, 2.5, 2.5 ve 4 olacaktır. Elbette, aynı de erlere sıra numarası vermenin tek yolu bu de ildir ve herhangi birisi buradaki gibi incelemeler için kullanılabilir. Ancak, alınan sonuçlar aynı, sonuçları yorumlama ekli farklı olacaktır. Teknik sebeplerden bu ekilde bir sıralama, bizim için en uygun olandır. 10.2.2.2 Gövde esasında inceleme BilTD derlemini olu turan gövdeler için, Zipf ve Mandelbrot ifadelerinin do rusal ili ki uyum sınamasının sonuçları, Çizelge 10.2.2.2.1.’de tablo halinde verilmi tir. Çizelge 10.2.2.2.1: BilTD derlemi için, gövde esasında Zipf ve Mandelbrot ifadeleri ile do rusal ili ki uyum sınamaları. Model Zipf W=10 W=100 W=1,000 W=10,000 Rsq 0.974 0.979 0.993 0.994 0.933 N 20,266 20,266 20,266 20,266 20,266 F 7.466E+05 9.653E+05 2.683E+06 3.654E+06 2.807E+05 Sigf b0 0.000 6.8477 0.000 6.9555 0.000 7.4187 0.000 9.5800 0.000 22.5267 b1 -1.6085 -1.6356 -1.7498 -2.2634 -5.1139 Çizelgedeki de erlerden de rahatlıkla görülebildi i gibi, BilTD derleminin, kelime ve gövde esasında uyum parametreleri açısından belirgin bir fark vardır. Bu farkın iki anlamı vardır. E er kelime da arcı ı kapalı ise, gövde esasında kelime da arcı ı boyutu, kelime esasında kelime da arcı ı boyutundan hem daha küçük olacak, hem de daha küçük derlem büyüklüklerinde gerçek olasılıklara ula acaktır, yani gövdelerin kelime da arcı ı gerçek boyutlarına daha hızlı yakınsayacaktır. Fakat, e er kelime da arcı ı açıksa, gövdelerle B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 248 kelimeler arasında derlem büyüklü ü sonsuza giderken bir fark kalmayacaktır, yani ikisi de durmadan artarak büyüyecektir. BilTD derleminin, gövde esasında, Zipf ifadesi ile uyum çizgesi ekil 10.2.2.2.1.’de ve Mandelbrot ifadesi ile, W=1000 parametre de eri için uyum çizgesi de ekil 10.2.2.2.2.’de verilmi tir. ekil 10.2.2.2.1: BilTD derleminin, gövde esasında, Zipf ifadesi ile uyum çizgesi. ekilde görüldü ü gibi, gövdeler için Zipf ifadesi, BilTD derlemindeki gövdelerin de i imini temsil etmekten oldukça uzaktır. Özellik, ifade ile tahmin edilen frekans de erleri, yüksek frekanslı gövdeler için gerçekle en de erlerin çok üzerinde kalmı tır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 249 ekil 10.2.2.2.2: BilTD derleminin, gövde esasında, Mandelbrot ifadesi ile W=1000 parametre de er için uyumu çizgesi. Mandelbrot ifadesi, yazarın özgün çalı masında da belirtti i gibi, derlemlerdeki gözlenme sıklı ı ile sıra numarası arasındaki ili kileri Zipf ifadesinden her zaman daha iyi temsil etmekte, ek parametreleri ile uyumu kolayla tırmaktadır. 10.2.3. ODTÜ Derleminin Zipf Birinci Kanun ncelemesi ODTÜ derlemi, daha önce de belirtildi i gibi biçimbirimsel analize sahip olmadı ı için, Zipf ve Mandelbrot ifadelerinin do rusal ili ki uyumu için sadece, kelime esasında sınanabilmi tir. Sınama sonuçları Çizelge 10.2.3.1.’de tablo halinde verilmi tir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 250 Çizelge 10.2.3.1: ODTÜ derleminin, kelime esasında, Zipf ve Mandelbrot ifadesi ile do rusal ili ki uyum sınamaları. Model Zipf W=10 W=100 W=1,000 W=10,000 W=100,000 Rsq 0.996 0.997 0.998 0.998 0.968 0.881 N 200,048 200,048 200,048 200,048 200,048 200,048 F 5.000E+07 5.900E+07 1.100E+08 8.000E+07 6.041E+06 1.487E+06 Sigf b0 0.000 5.9173 0.000 5.9324 0.000 6.0078 0.000 6.3846 0.000 8.1909 0.000 19.3420 b1 -1.1429 -1.1459 -1.1610 -1.2353 -1.5814 -3.5950 ODTÜ derleminin boyutları, Mandelbrot ifadesi için W=105 seviyesindeki sınamanın da yapılabilmesine izin vermi tir. ODTÜ derlemi, kelime esasında BilTD derlemi ile benzer ekilde, en yüksek seviyedeki do rusal ili kiyi Mandelbrot W=100 parametre de eri için vermi tir. ekil 10.2.3.1’de Zipf ifadesi ile uyum çizge olarak da verilmi tir. ekil 10.2.3.1 : ODTÜ derlemin, kelime esasında, Zipf ifadesi ile uyum çizgesi. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 251 10.2.4. OSTAD Derleminin Zipf Birinci Kanun ncelemesi OSTAD derlemi, ODTÜ derleminden alındı ı için, tabii olarak geni letildi inde, ODTÜ derlemindeki özelliklere sahip olacaktır. Mevcut hali ile, birinci güç ilkesine uyumu ve özellikleri hakkında fikir edinmek için yine de sınanmı tır. 10.2.4.1 Kelime esasında inceleme Çizelge 10.2.4.1.1’de OSTAD derleminin kelime esasında sınama sonuçları tablo halinde verilmi tir. Çizelge 10.2.4.1.1 : OSTAD derleminin, kelime esasında Zipf ve Mandelbrot ifadesi ile do rusal ili ki uyum sınamaları. Model Zipf W=10 W=100 W=1,000 Rsq 0.999 0.998 0.989 0.944 N 17,476 17,476 17,476 17,476 F 2.700E+07 1.100E+07 1.579E+06 2.969E+05 Sigf 0.000 0.000 0.000 0.000 b0 3.1364 3.1828 3.3917 4.4435 b1 -0.7664 -0.7781 -0.8300 -1.0819 OSTAD derleminde en dikkat çeken özellik, Zipf ifadesinin en yüksek uyumu göstermesidir. OSTAD derleminin boyut olarak, 104 ile 105 arasında kalması, söz konusu aralıkla ilgili istatistiksel alt yapı anlatımında verilen tespiti de do rular niteliktedir: “Ço u nicel dilbilimsel uygulamada, üstel olarak artan boyutlarda derlemler kullanılır ve Zipf ifadesine yakın ili kiler genellikle 104-105 aralı ındaki bir büyüklükte yakalanır.”. ekil 10.2.4.1.1.’de verilen Zipf ifadesi ile uyum çizgesi, böyle bir dü ünceyi destekler niteliktedir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 252 ekil 10.2.4.1.1: OSTAD derlemin, kelime esasında, Zipf ifadesi ile uyum çizgesi. 10.2.4.2 Gövde esasında inceleme Çizelge 10.2.4.2.1.’de, OSTAD derleminin gövde esasında sınama sonuçları vardır. ekil 10.2.4.2.1’de Zipf ifadesi ile tahmin edilen de erlerle uyumun, ekil 10.2.4.2.2’de de, Mandelbrot ifadesinin, W=100 parametre de eri için tahmin edilen de erlerle uyumun yayılım çizgesi verilmi tir. Çizelge 10.2.4.2.1: OSTAD derleminin, gövde esasında Zipf ve Mandelbrot ifadesi ile, do rusal ili ki uyum sınamaları. Model Zipf W=10 W=100 W=1,000 Rsq 0.969 0.979 0.992 0.973 N 5,199 5,199 5,199 5,199 F 1.631E+05 2.462E+05 6.865E+05 1.860E+05 Sigf 0.000 0.000 0.000 0.000 b0 4.4432 4.6184 5.3456 9.1818 b1 -1.1998 -1.2509 -1.4564 -2.4714 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 253 ekil 10.2.4.2.1: OSTAD derlemin, gövde esasında, Zipf ifadesi ile uyum çizgesi. ekil 10.2.4.2.2 : OSTAD derleminin, gövdeler esasında, Mandelbrot (W=100) ifadesi ile uyum çizgesi. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 254 OSTAD derleminin, gövde açısından yapılan sınamasının en dikkat çekici noktası, büyük derleminin, yani ODTÜ derleminin kelimeler esasındaki karakteristiklerine yakınsıyor olmasıdır. 10.2.5. Birle ik Derlemlerin Zipf birinci kanun incelemesi Bu bölümde, BilTD, ODTÜ ve OSTAD derlemlerinin harmanlanması ile olu turulan birle ik derlem, BirTD, Zipf birinci kanunu ile uyum açısından incelenmi tir. Önceki incelemelerde, derlemlerin bireysel uyum özellikleri elde edildi i için, bu inceleme ile, kanunun uyumunda, büyüyen bir derlem açısından ne tür de i imler oldu u da gözlenebilecektir. Kelime esasında yapılan incelemede kullanılan birle ik derlem, BilTD ile ODTÜ harmanıdır. Gövde esasında, birle ik derlem BilTD ve OSTAD harmanı ile elde edilmi tir. Dolayısı ile, BirTD derleminin ba lama göre içeri i de i mektedir, yani kelime esasında incelemede BilTD ve ODTÜ harmanı; gövde esasında incelemede BilTD ve OSTAD harmanıdır. 10.2.5.1 Kelime esasında inceleme Çizelge 10.2.5.1.1: BirTD derleminin, kelime esasında, Zipf ve Mandelbrot ifadesi ile do rusal ili ki uyum sınamaları. Model Zipf W=10 W=100 W=1,000 W=10,000 W=100,000 Rsq 0.995 0.996 0.997 0.998 0.975 0.892 N 234,843 234,843 234,843 234,843 234,843 234,843 F 4.700E+07 5.300E+07 8.700E+07 1.400E+08 9.117E+06 1.943E+06 Sigf b0 0.000 6.2635 0.000 6.2777 0.000 6.3493 0.000 6.7091 0.000 8.4196 0.000 18.6018 b1 -1.1915 -1.1944 -1.2085 -1.2786 -1.6030 -3.4286 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 255 BilTD boyut olarak, ODTÜ derleminin dörtte biri olmasına ra men, birle ik derlemde etkisi büyük olmu tur. BilTD ve ODTÜ ayrı olarak, Mandelbrot ifadesinin W=100 parametre de eri ile temsil edilirken; birle ik olarak, uyumu W=1000 parametre de erine sıçratmı lardır. Bu sonuç, derlem boyutunun artması açısından de erlendirildi inde, kelime zenginli inde bir artı ı i aret etmektedir. Kelime zenginli indeki artı demek, kelime da arcı ının boyutunda artı demektir. 10.2.5.2 Gövde esasında inceleme Çizelge 10.2.5.2.1 : BirTD derleminin, gövde esasında, Zipf ve Mandelbrot ifadesi ile do rusal ili ki uyum sınamaları. Model Zipf W=10 W=100 W=1,000 W=10,000 Rsq 0.974 0.980 0.992 0.995 0.934 N 21,093 21,093 21,093 21,093 21,093 F 7.846E+05 1.009E+06 2.732E+06 4.054E+06 2.990E+05 Sigf b0 0.000 6.8964 0.000 7.0017 0.000 7.4554 0.000 9.5706 0.000 22.1407 b1 -1.6127 -1.6390 -1.7505 -2.2515 -5.0134 Birle ik derlemin, gövde esasında uyumu da, bu kez kelimeler ile paralellik göstermi tir. Derlem boyutunun artması, gövde esasında da kelime zenginli ini aynı ekilde arttırmı tır. Oysa, bireysel incelemelerde, gövdeler zenginlik açısından kelimelerden daha dü ük de erlere sahip olmaktaydı. E imin 1 ve altındaki de erleri kapalı kelime da arcı ına; birden büyük e im de, açık kelime da arcı ına delildir. Bu noktadan hareketle, e er, e imin sayısal de eri, iki derlem arasında, kelime da arcı ı boyutunun artı hızlarını kar ıla tırmak, yani hangisinin daha zengin kelime da arcı ına sahip oldu unu ölçmek için nicel bir ölçüt olarak kabul edilirse, gövde esasında e im (-2.2515), B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 256 kelime esasındaki e imden (-1.2786) büyük oldu u için: “gövde esasındaki kelime da arcı ı, kelime esasındaki kelime da arcı ından, boyut açısından geni lemeye daha meyillidir.” de denebilir. 10.3. ngilizce için Zipf Birinci Kanun ncelemesi Türkçe için yaptı ımız incelemeleri, iddiaların asıl kayna ı olan ngilizce için bir birle ik derlemde de yaparak, Zipf birinci güç kanunu tartı mamızı bitiyoruz. Kullanaca ımız birle ik derlem, üç çok yaygın ve serbest eri imli ngilizce derlemin harmanıdır: Time, Cranfield ve Medlars. Time derlemi adında anla ılaca ı gibi, Time gazetesinin makalelerinden; Cranfield derlemi, aerodinamik sahasındaki ara tırma makalelerinden olu mu tur. Medlars derlemi ise, SMART BGG sisteminin demirba derlemidir. Bu üç derlemin ve harmanı olan birle ik derlemin genel özellikleri Çizelge 10.2.6.1.’de verilmi tir. ngilizce için tanımlayıcı genel istatistikler, Türkçe ile kar ıla tırılınca bir nokta gerçekten dikkat çekicidir: Türkçe ile da arcıklarının büyüklü ü açısından, ancak ngilizce kelime Türkçe derlemler gövdelenirse, e it artlara gelinmektedir. ngilizce birle ik derlemin birlik sayısı 654,728 ve kelime sayısı 32,301’dir. Türkçe birle ik derlemin birlik sayısı 638,486 (BilTD ve OSTAD birlik sayıları toplamı), kelime sayısı 94,230’dur ve gövde sayısı 21,905’dir. Çizelge 10.2.6.1 : Time, Cranfield, Medlars ve birle ik derlemlerinin genel özellikleri. Derlem Time Cranfield Medalars Toplam Birle ik Birlik Kelime Belge 249,567 20,856 425 258,509 8,189 1,400 161,605 12,609 1,034 669,681 41,654 2,859 654,728 32,301 * B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 257 ngilizce birle ik derlem için, Zipf ve Mandelbrot ifadeleri ile uyum sınamaları, Çizelge 10.2.6.1.’de tablo halinde verilmi tir. Çizelge 10.2.6.1: ngilizce birle ik derlemin, Zipf ve Mandelbrot ifadeleri ile, kelime asasında uyum sınaması. Model Zipf W=10 W=100 W=1,000 W=10,000 Rsq 0.985 0.988 0.994 0.992 0.935 N 32,301 32,301 32,301 32,301 32,301 F 2.163E+06 2.644E+06 5.506E+06 4.021E+06 4.647E+05 Sigf b0 0.000 5.9951 0.000 6.0577 0.000 6.3413 0.000 7.6853 0.000 15.1910 b1 -1.3499 -1.3648 -1.4316 -1.7388 -3.3507 Aldı ımız sonuçlar, Kornai (2002) tarafından yapılan çalı mada da belirtildi i gibi, ngilizce’nin aslen yaygın olarak kabul edildi i ekilde kapalı bir kelime da arcı ına sahip olmadı ı, aksine derlem büyüklü ü sonsuza giderken kelime da arcı ı boyutunun da, sonsuza gitti i ve açık oldu u iddiası ile paraleldir (bütün e imler birden büyük). ngilizce birle ik derlem için, Zipf ve Mandelbrot ifadeleri ile tahmin edilen de erlerle, gerçekle en de erlerin yayılım çizgesi, sırasıyla, ekil 10.2.6.1 ve ekil 10.2.6.2.’de verilmi tir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 258 ekil 10.2.6.1: ngilizce birle ik derlemin, kelime esasında Zipf ifadesi ile uyum çizgesi. ekil 10.2.6.2: : ngilizce birle ik derlemin, kelime esasında Mandelbrot (W=100) ifadesi ile uyum çizgesi. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 259 ngilizce derlem için yapılan incelemenin sonuçları, Mandelbrot tarafından yapılan özgün çalı mada da belirtilen de erlerle de uyumludur (W=100 için en iyi uyum). Ancak, Mandelbrot, e imi 1.15 olarak vermi tir. Elimizdeki derlemden elde etti imiz sonuç 1.43’dür. Bu de er verilenden oldukça büyüktür. Fakat Kornai (2003), buldukları sonuçlarla, bu ekilde benzer farklılıklar oldu unu bildirmi tir. Bu farklılı ın çe itli sebepleri olabilir. Örne in, elimizdeki ODTÜ derleminin kelime esasındaki sonuçları, Mandelbrot’un sonuçları ile çok daha uyumludur. ODTÜ derlemi belge türleri açısından zengin ve boyut olarak oldukça büyüktür. Birle ik ngilizce derlemimiz için, bu iki özellikten de bahsetmek mümkün de ildir. Ancak, ngilizce derlemle yaptı ımız çalı madan çıkardı ımız bir sonuç daha vardır. ngilizce derlem, Türkçe’de gövdelerle benzer karakterler sergilemektedir. Yani, e er kapalı kelime da arcı ı varsa, daha hızlı gerçek boyutlarına yakınsamaktadır. Kanımızca bu sonuçlar, geneli ngilizce üzerinden geli tirilmi BGG yöntemlerinin, Türkçe’de neden gövdelerle çalı ıldı ında, kelimelerle çalı ıldı ından daha iyi sonuçlar alındı ının da bir izahı olmaktadır. Kelime da arcı ının açık veya kapalı olmasından ba ımsız olacak ekilde, Türkçe için gövdelerle çalı manın daima kelimelerle çalı maktan daha iyi sonuçlar verece i ortadadır. Bu durum tabii ki, Türkçe için, Türkçe’nin özelliklerine has yöntemler geli tirilmeden, sadece ngilizce üzerinde yapılan çalı maların, do rudan kullanımı için geçerlidir. Di er hallerde, bu ekilde bir iddiamız yoktur. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 260 10.4. Türkçe için Kelime Da arcı ı (KD) ncelemesi 10.4.1. Kelime Da arcı ı Boyutları– Zipf Birinci Kanun Derlem boyutu ile kelime da arcı ının boyutu arasındaki ili kiyi Kornai (2002), Denklem 10.3.1.1.’de oldu u ekilde üstel bir ili ki olarak vermi tir. Denklemde, 0 ≤ ρ ≤ 1 parametresi, derlem boyutu ile kelime da arcı ı boyutu arasındaki üstel ili kinin katsayısıdır. Bu katsayı ngilizce için, deneysel olarak Kornai tarafından ρ ≈ 0.75 olarak saptanmı tır. Katsayının hesaplanması için Denklem 10.3.1.2.’de verilen ifadedeki, B parametresi, Zipf birinci kanun ifadesindeki e imdir (B). Denklem 10.3.1.1. ve 10.3.1.2.’de verilen ili kiler gere i, e er, kelime da arcı ının boyutu ile derlem boyutu (N) arasında bulunan üstel ili ki katsayısı ρ > 0 ⇔ B > 1 olursa, derlem boyutu sonsuza giderken, kelime da arcı ı boyutu da sonsuza gidecektir lim V ( N ) → ∞ . N →∞ V (N) ≥ N ρ (10.3.1.1) 1 B ρ= (10.3.1.2) Özetle, Denklem 10.3.1.1.de verilen ili kinin anlamı udur: Zipf ifadesinin uyum e imi birden büyük olmak artı ile, e er bir dil için kelime da arcı ı ile örneklem boyutu arasında, söz konusu ili ki varsa, o dil için “kapalı kelime da arcı ı vardır.” denemez. Yaptı ımız deneysel çalı mada, yani Türkçe’nin Zipf ifadesi ile uyum sınamalarında, elde edilen e imlerin birden büyük olması (B > 1), Türkçe için kapalı kelime da arcı ı hipotezinin reddedilmesine delil olmaktadır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 261 Kelime esasında, Türkçe birle ik derlem için Çizelge 10.3.1.1.’de ve ngilizce birle ik derlem için Çizelge 10.3.1.2.’de, Zipf kanunları çerçevesinde incelenmi tüm modeller üzerinden Denklem 10.3.1.1. kullanılarak hesaplanmı kelime da arcı ı boyut katsayıları listelenmi tir. Çizelge 10.3.1.3.’de de, gövde esasında kelime da arcı ı boyut katsayıları verilmi tir. Çizelge 10.3.1.1: Türkçe birle ik derlemin kelime esasında incelenen her Zipf modeli için, kelime da arcı ı büyüme katsayıları. Model Zipf W=10 W=100 W=1,000 W=10,000 W=100,000 Rsq b0 0.995 6.2635 0.996 6.2777 0.997 6.3493 0.998 6.7091 0.975 8.4196 0.892 18.6018 b1 (-1)/b1 -1.1915 0.8393 -1.1944 0.8372 -1.2085 0.8275 -1.2786 0.7821 -1.6030 0.6238 -3.4286 0.2917 Çizelge 10.3.1.2 : ngilizce birle ik derlemin kelime esasında incelenen her Zipf modeli için, kelime da arcı ı büyüme katsayıları. Model Zipf W=10 W=100 W=1,000 W=10,000 Rsq b0 0.985 5.9951 0.988 6.0577 0.994 6.3413 0.992 7.6853 0.935 15.1910 b1 (-1)/b1 -1.3499 0.7408 -1.3648 0.7327 -1.4316 0.6985 -1.7388 0.5751 -3.3507 0.2984 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 262 Çizelge 10.3.1.3 : Türkçe birle ik derlemin gövde esasında incelenen her modeli için, kelime da arcı ı büyüme katsayıları. Model Zipf W=10 W=100 W=1,000 W=10,000 Rsq b0 0.974 6.8964 0.980 7.0017 0.992 7.4554 0.995 9.5706 0.934 22.1407 b1 (-1)/b1 -1.6127 0.6201 -1.6390 0.6101 -1.7505 0.5713 -2.2515 0.4441 -5.0134 0.1995 Çizelgelerde hesaplanmı olan katsayıların, her derlem türü için kuramsal olarak, o derlem için seçilecek olanı, söz konusu Zipf veya Mandelbrot ifadelerinin en uygun oldu u haldeki de ere denk gelendir. Türkçe için genel bir katsayı vermeden önce, her üç derlem için hesaplanmı tüm katsayılar için kar ılık gelen derlem boyutları üzerinden, kelime da arcı ı tahminlerini ve gerçek de erlerini kar ıla tırmalı olarak incelemekte fayda vardır. Çizelge 10.3.1.4., 11.3.1.5. ve 11.3.1.6.’da söz konusu tahmin edilen ve gerçek de erler liste halinde verilmi tir. Çizelge 10.3.1.4: Kelime esasında Türkçe birle ik derlemin, tüm Zipf modelleri üzerinden kelime da arcı ı boyut (KDB) tahminleri. “1M” ve “10M” derlemleri, Hakkani-Tür (2002) çalı masında verilen bir ve on milyonluk derlemlerin kelime da arcı ı sayılarıdır. Son sütundaki “µ” de erleri ise Mandelbrot W=100 ve 1000 katsayılarının ortalaması üzerinden tahminleri göstermektedir. Tahmin edilen Kelime da arcı ı boyutu Mandelbrot Zipf 10 100 1000 10000 µ 8,963 8,767 7,886 4,822 867 6,166 69,449 67,594 59,369 32,497 3,970 43,924 188,070 182,606 158,535 82,229 8,325 114,176 235,173 228,216 197,618 101,270 9,829 141,467 108,560 105,546 92,222 49,276 5,533 67,411 749,804 725,576 619,876 298,358 23,271 430,052 Derlem (Kelime) Adı Boyut KDB OSTAD 51,209 17,487 BilTD 587,277 94,230 ODTÜ 1,924,653 200,048 BirTD 2,511,930 234,843 1M 1,000,000 106,547 10M 10,000,000 417,775 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 263 Çizelge 10.3.1.5: Kelime esasında ngilizce birle ik derlemin, tüm Zipf modelleri üzerinden kelime da arcı ı boyut tahminleri. Tahmin edilen Kelime da arcı ı boyutu Mandelbrot Zipf 10 100 1000 10000 9,959 9,007 5,889 1,270 41 10,222 9,242 6,036 1,296 41 7,218 6,551 4,347 990 36 20,348 18,259 11,551 2,212 54 Derlem (Gövde) Adı Boyut KDB Time 249,567 20,856 Cranfield 258,509 8,189 Medalrs 161,605 12,609 BirTD 654,728 32,301 Çizelge 10.3.1.6: Gövde esasında Türkçe birle ik derlemin, tüm Zipf modelleri üzerinden kelime da arcı ı boyut tahminleri. Tahmin edilen Kelime da arcı ı boyutu Mandelbrot Zipf 10 100 1000 10000 832 747 490 123 9 3,777 3,309 1,975 365 14 7,885 6,827 3,891 618 18 3,978 3,482 2,071 379 14 Derlem (Gövde) Adı Boyut KDB OSTAD 51,209 5,201 BilTD 587,277 20,268 ODTÜ 1,924,653 * BirTD 638,486 21,095 Katsayılar üzerinden ngilizce için kelime ve Türkçe için gövde esasında yapılan kelime da arcı ı boyutu (KDB) tahminleri, görüldü ü gibi gerçek de erlere yakın de ildir. Ancak, de erler halen, Denklem 10.3.1.1. ile önerilen üstel artı iddiasının, aksi delilleri de de ildir. Fakat, bu derlemler için, ancak zayıf alt sınırlar olarak kullanılabilecek özelliktedirler. Çizelge 10.3.1.4.’de, kelime esasındaki Türkçe birle ik derlem için, özellikle Zipf ve Mandelbrot (W=10) ifadeleri için hesaplanan tahminler, derlem boyutu 106 seviyesinin çevresi sınır olacak ekilde çok yakın tahminlerdir. Fakat 107 seviyesi için Hakkani-Tür (2002) B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 264 tarafından bildirilen gerçek kelime da arcı ı boyutlarından çok yukarıda kalmaktadırlar. Mandelbrot ifadesinin W=1000 parametre de eri, yani Türkçe birle ik derlem için ey uygun model, çizelgeden de görüldü ü gibi, 107 seviyesi de dahil olmak üzere yakın alt sınır olma özelli i göstermektedir. Çizelge 10.3.1.4.’de son sütunda “µ” ba lı ı altında verilen tahminler, Mandelbrot ifadesini W=100 ve W=1000 parametre de erleri için bireysel olarak hesaplanan büyüme katsayılarının ortalaması ( µ = ( ρ100 + ρ1000 ) / 2 = 0.8048 ) üzerinden kelime da arcı ı boyut tahminleridir. Bu tahminler tahminlerinin tamamından daha iyidir. 107 çizelgedeki seviyesi Özetle, deneysel çalı malarımız, Türkçe için kelime da arcı ının büyüklü ü ile derlem büyüklü ü arasında, kelimeler için, üstel bir ili ki, yani güç ili kisi oldu una dair deliller sunmaktadır. Türkçe kelime da arcıkları, derlem büyüklü ü arttıkça, Denklem 10.3.1.1. ifadesi alt sınır olacak ekilde, derlem büyüklü ü ile do ru orantılı, ancak üstel bir artı göstermi tir. Dolayısı ile, elimizdeki deneysel deliller ı ı ı altında unu söyleyebiliriz ki: Türkçe çalı malarda, ancak derlem büyüklü ü sınırlandırılıp, sabitlendi inde, yani istatistiksel çalı manın kitlesi, söz konusu derlem olunca, kapalı kelime da arcı ına dayalı kuramlar geçerli olabilir. Türkçe için kelime da arcı ının derlem boyutu ile, üstel bir ili ki içinde büyüme alt sınır katsayısı olarak: kelime esasında ρ ≈ 0.7821 ve gövde esasında ρ g ≈ 0.4441 önerilmektedir. Ayrıca, Zipf birinci kanunu için yaptı ımız çalı maların ı ı ı altında, sezgisel olarak belirledi imiz bir nokta daha vardır: verdi imiz gibi genel bir parametre de eri belirlemek elbette mümkündür, ancak belge türleri B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 265 esasında kısıtlı, ancak daha belirleyici katsayılar bulunması ve genel bir katsayının belge türlerinin derlem içindeki da ılımı ile ili kilendirilmi olarak tahmin edilmesi daha tutarlı ve anlamlı olacaktır. 10.4.2. Kelime Biçimleri – Zipf kinci Kanun Bu bölümde kelime da arcı ı içindeki, kelimelerin yazıda görülme ekilleri ile ilgili özellikleri için matematiksel ili kiler tanımlanacak ve ifadelerin parametreleri deneysel olarak tespit edilecektir. Bu konu, kuramsal olarak Zipf ikinci kanunu (Bölüm 7.2.1) ile alakalıdır. BGG sahasındaki yansıması ise, i lev ve içerik kelimelerin ayrı tırılması konusuna dayandı ı için, tez kapsamımız açısından da oldukça önemlidir. ncelememiz öncelikle, çok dü ük frekanslı kelime biçimleri ile ba layacaktır. lintili olarak, kelime da arcı ının zenginli i konusu da, dü ük frekanslı kelimeler sayesinde tanımlanacaktır. kinci olarak, kelimelerin belirli bir metinin içeri ini temsili açısından içerik ve i lev kelimeler olarak birbirinden ayrı tırılması konusu tanıtılacaktır. 10.4.2.1 Dü ük frekanslı kelimeler Kelime da arcı ının, derlem boyutunu ile birlikte büyüyece i sonucuna, sebep olarak gösterilebilecek dil özelliklerinden biri biçimbirimsel üretkenliktir (productive morphology). Analitik bir dil olarak ngilizce için dahi geçerli olan böyle bir sebep (Kornai, 2002), Türkçe gibi eklemeli ve biçimbirimsel üretkenli i çok geli kin bir dil için daha da önemli bir etmen olacaktır. Kelime esasında yaptı ımız B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 266 incelemeler de bu duruma i aret etmi tir. Fakat, Türkçe için kelimelerin yazıda kullanıldıkları biçimleri açısından, tek bir kelime için milyon seviyelerinde farklı kelime ekli üretme kapasitesinde olu u, zaten tek ba ına yeterli bir delildir (Hankamer, 1984). Biçimbirimsel üretkenlik, aslen kelime biçimlerinden sadece bir kere gözlenen (hapax legomena), sadece iki kere gözlenen (dis legomena) gibi çok dü ük frekanslı kelimelerin kelime da arcı ındaki sayısını arttırır. Ancak, bu kelime biçimlerinin, kelime da arcı ı içindeki toplam sayısının “daima” %40’den fazla olması, biçimbirimsel üretkenli i gerçekten büyük bir mesele haline getirir. Üç, dört, be kere veya daha çok gözlenen kelime biçimleri elbette vardır, ancak özellikle hapaks kelime biçimleri tabii olarak açık kelime da arcı ı konusu açısından, di erlerinden çok daha önemlidir. Çünkü, bunlar daha önce görülmemi kelime biçimleridir ve sayıları ile derlem boyutu arasındaki ili ki nispetinde, kelime da arcı ı boyutlarını do rudan etkilerler. Hatta, “kelime da arcı ı boyutunun artı ında baskın sebep, hapaks kelimelerdir” demek daha iyi bir tanım olur. Hapaks kelimelerin, kelime da arcı ının boyutları üzerinde bu denli baskın bir etmen olması kar ısında dilbilimciler tarafından geli tirilen açıklama, yazı içinde geçen harf dı ı birliklerin varlı ıdır, daha do rusu rakamlardır. Bu noktada, Türkçe için yaptı ımız yukarıdaki çalı maların tamamının rakamlardan arınmı çalı malar oldu unu, bir kez daha belirtelim. Hapax kelimelerin sebeplerinden birisi elbette rakamlardır, ancak ba ka önemli sebepler de vardır. Hapaks kelimelerin olu masının ba lıca sebepleri içinde, biçimbirimsel üretkenlik ve rakamlar dı ında yanlı yazım, yazımda kullanılan yabancı kelimeler, özel isimler gibi daha belirli sebepler de vardır. ngilizce için verilen sonuçlarda rakamlar çıkarıldı ında gözlemlenen B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 267 hapaks kelime oranları yine %50’nin üzerindedir: %56 sadece harf birlikleri, rakamlarla birlikte %69,8 (Kornai, 2002). Görüldü ü gibi, hapakslar, yani bir kelime da arcı ında sadece bir kere gözlemlenen kelimeler, bir derleme ait kelime da arcı ı büyüklü ünün yakla ık olarak yarısından fazlasını olu turmaktadır. Kelime esasında birle ik Türkçe derlem için, kelime da arcı ındaki farklı kelime biçimleri ve sayıca kelime da arcı ı içindeki da ılımı Çizelge 10.3.2.1.1.’de çe itli istatistikler ile birlikte verilmi tir. Çizelge 10.3.2.1.1: Kelime esasında Türkçe birle ik derlemin, kelime da arcı ındaki farklı kelime biçimleri, gözlenme sıklıkları ve istatistikleri (Skewness*, Türkçe çarpıklık anlamına gelmektedir). i 1 2 3 4 5 6 7 8 9 10 V(i,N) 116,939 35,960 17,602 10,983 7,515 5,522 4,201 3,402 2,693 2,314 % Top(%) i V(i,N) % Top(%) N 49.8 49.8 15 1,178 0.5 91.5 Ortalama(i) 15.3 65.1 20 707 0.3 93.3 Medyan(i) 7.5 72.6 30 327 0.1 95.3 Std. Sapma(i) 4.7 77.3 35 290 0.1 95.9 Skewness* 3.2 80.5 50 137 0.1 97.1 % i 1 2.4 82.8 75 68 0.0 98.1 10 1 1.8 84.6 100 42 0.0 98.6 20 1 1.4 86.1 150 30 0.0 99.1 30 1 1.1 87.2 500 2 0.0 99.8 40 50 2 1.0 88.2 1,004 1 0.0 99.9 234843 11.45 2.00 218.50 188.32 % i 60 2 70 3 80 5 90 13 Çizelgede görüldü ü gibi, Türkçe’de de hapaks kelimelerin (i=1) durumu farklı de ildir. Hapaks kelimelerin, yani bir kere gözlemlenen kelime biçimlerinin sayısı, kelime da arcı ının %49,8’ini; iki kere gözlemlenen kelime biçimlerinin sayısı ile birlikte %65’ini olu turmaktadır. Sadece 100 kere gözüken kelimelere gelindi inde ise toplam 234.843 kelimelik, kelime da arcı ının yakla ık %98’ini B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 268 kapsanmaktadır. Demek ki, beklendi i gibi hapaks kelime meselesi Türkçe için de gayet önemli bir konudur. Zipf kanunlarının birincisi ile ikincisi arasında, aslen güçlü bir ili ki vardır. Bu ili ki, Denklem 10.3.2.1.1.’de verildi i gibidir, yani, e er bir da ılım, Zipf birinci kanununa uyuyorsa, Zipf ikici kanununa da e imi Denklem 10.3.2.1.1. ile hesaplanan de erle uyar (kuramsal ispat için, Kornai (2002)). DN = B N /(1 + BN ) (10.3.2.1.1) Denklemede, DN, ikinci kanun ifadesindeki e im, BN ise birinci kanun ifadesindeki e imdir. Türkçe için deneysel olarak, Zipf birinci kanun ifadesinin en uygun halinde, yani Mandelbrot ifadesinin W=1000 parametre de eri için, elde etti imiz e im − BN = b1 = −1.2786 ile, Denklem 10.3.2.1.1.’den hesaplayaca ımız de er, Zipf ikinci kanun ifadesinin e imini vermelidir. Yani Zipf ikinci kanun ifadesi için, tahmin edilen deneysel e im de eri D N = (1.2786) /(1 + 1.2786) = 0.5611 ’dir. BirTD derlemi için, Zipf ikinci kanun ifadesi uyum sınaması sonucu Çizelge 10.3.2.1.2.’de verilmi tir. Kar ıla tırma amacıyla, ekil 10.3.2.1.1.’de, tahmin edilen ve gözlenen de erler yayılım çizgesi eklinde de gösterilmi tir. Çizelge 10.3.2.1.2: Kelime esasında Türkçe birle ik derlemin, Zipf ikinci kanun ifadesine uyum sınamasının sonucu. Model Rsq N F Sigf b0 b1 Zipf 0.998 926 5.164E+05 0.000 2.8455 -0.5516 Çizelgede görüldü ü gibi, Türkçe birle ik derlem için, Zipf ikinci kanun ifadesinin uyumundaki e im, tahmin edilen e ime çok yakın bir B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 269 de er çıkmı tır. Bu sonuç da, Zipf birinci kanunu ile ikinci kanunu arasında iddia edilen güçlü ba lantının, deneysel olarak Türkçe için geçerli oldu unu göstermektedir. ekil 10.3.2.1.1.’de görüldü ü gibi, Türkçe kelime da arcı ını olu turan kelime biçimlerinin, kelime da arcı ı içindeki sayıları, Zipf ikinci kanununa uymaktadır. Zipf, özgün çalı masında e imi, 0.5 olarak vermi tir. Türkçe için bu de er, deneysel olarak elimizdeki birle ik derlemlerle de uyu maktadır. ekil 10.3.2.1.1 : Kelime esasında Türkçe birle ik derlem için, Zipf ikinci kanun ifadesinin tahmin etti i kelime biçimi adedi ile gözlemlenen kelime biçimi adedinin yayılım çizgesi. Zipf ikinci kanunu açısından, gövdelerin durumu beklendi i gibi kelimelerden biraz daha farklıdır. Çizelge 10.3.2.1.3.’de, BilTD ve B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 270 OSTAD derlemlerinin harmanı ile olu turulmu , gövde esasında birle ik derlem için kelime da arcı ının istatistikleri verilmi tir. Çizelge 10.3.2.1.3: Gövde esasında Türkçe birle ik derlemin, kelime da arcı ındaki farklı kelime biçimleri, gözlenme sıklıkları ve istatistikleri (Skewness, Türkçe çarpıklık anlamına gelmektedir). i 1 2 3 4 5 6 7 8 9 10 V(i,N) 7,693 2,959 1,504 1,017 751 659 462 387 311 255 % Top(%) i V(i,N) % Top(%) N 36.5 36.5 15 145 0.7 80.5 Ortalama(i) 14.0 50.5 45 37 0.2 89.9 Medyan(i) 7.1 57.6 75 11 0.1 92.7 Std. Sapma(i) 4.8 62.4 100 10 0.0 94.0 Skewness 3.6 66.0 150 2 0.0 95.6 % i 10 1 3.1 69.1 300 2 0.0 97.7 1 2.2 71.3 464 2 0.0 98.6 20 1 1.8 73.2 608 2 0.0 99.0 30 2 1.5 74.6 2,167 1 0.0 99.9 40 2 1.2 75.8 3,900 1 0.0 99.9 50 21095 36.19 2.00 274.52 35.97 % i 60 4 70 7 80 15 90 46 Çizelgede görüldü ü gibi, Türkçe’de gövdeler esasında hapaks ekillerin (i=1) durumu oransal olarak kelimelerden iyidir. Hapaks gövdelerin, yani bir kere gözlemlenen gövde türlerinin sayısı, kelime da arcı ının %36,5’ini (kelimelerde %49,8), iki kere gözlemlenen kelime biçimlerinin sayısı ile birlikte %50’sini (kelimelerde %65,1) olu turmaktadır. Dolayısı ile gövdeler, medyan etrafında daha iyi bir da ılım göstermi tir. “Skewness” de eri, yani Türkçe olarak çarpıklık de eri olan 35,97 bu da ılımın normal da ılımdan ne kadar saptı ının bir ölçüsüdür. De erin sıfır oldu u zaman da ılım normal demektir. Kelimeler için “Skewness” de eri de 188.32’dir. ekil 10.3.2.1.2.’de kelimeler (a) ve gövdeler (b) için verilen çizgelerde, da ılımların birbirlerinden farklılı ını görsel olarak da seçilebilmektedir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 271 (b) (a) ekil 10.3.2.1.2 : Kelimeler (a) ve gövdeler (b) için kelime da arcıkları. X-ekseni derlem içinde gözlenme sıklı ı, y-ekseni söz konusu gözlenme sıklı ının kaç kere gözlendi i, yani frekansların frekansları. Ortalama üzerinde referans normal da ılım da gösterilmektedir. Da ılım açısından da incelemeler sonucunda, gövdeler için istatistiksel çıkarımlar açısından kelimelere nazaran daha uygun bir karakteristik elde edildi i söylenebilir. Gövdelerin, Zipf ikinci kanun için Denklem 10.3.2.1.1.’de verilen ifade ile hesaplanan tahmini e imi: DN = (2.2515) /(1 + 2.2515) = 0.6924 ’dir. Zipf ikinci kanun ifadesi için derlemden hesaplanan de erse, Çizelge 10.3.2.1.4.’de verilmi tir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 272 Çizelge 10.3.2.1.4: Gövde esasında Türkçe birle ik derlemin, Zipf ikinci kanun ifadesine uyum sınamasının sonuçları. Model Rsq N F Sigf b0 b1 Zipf 1.000 644 1.422E+06 0.000 2.6951 -0.6994 ekil 10.3.2.1.3.’de de, gövde esasında Zipf ikinci kanununun birle ik derleme uyumunun, yayılım çizgesi verilmi tir. ekil 10.3.2.1.3 : Gövde esasındaki Türkçe birle ik derlem için, Zipf ikinci kanun ifadesinin tahmin etti i kelime biçimi sayıları ile gözlemlenen kelime biçimi sayılarının yayılım çizgesi. Gövdeler için Zipf ikinci kanun ifadesinin hesaplanan e im de eri 0.6994’dür. Denklem 10.3.2.1.1. ile hesaplanan tahmini ise 0.6924’dür. Görüldü ü gibi hata kelimelerden çok daha azdır. Ancak burada, Mandelbrot denklemi için yaptı ımız çalı maların belirli sabitlerle oldu unun altını çizmek istiyoruz. Mandelbrot ifadesinde W parametresinin en iyi de erini tespit etmeye dönük bir çalı ma ile elde B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 273 edilecek birinci ilke e imi, muhakkak Zipf ikinci kanun e iminin, Denklem 10.3.2.1.1. ile yapılan tahmindeki hatayı dü ürecektir. Elde etti imiz deneysel sonuçlar, Zipf birinci kanunu ile ikinci kanunu arasında bir ba ımsızlı ın oldu u hipotezini reddetmeye yetecek delilleri sunmaktadır. 10.4.2.2 Farklı kelime biçimlerinin gözlenme sıklıkları Kelime da arcı ı içindeki kelimelerin derlemde gözlenme sıklıklarının frekansları, örne in hapaks kelimelerin, yani derlemde yalnızca bir kez gözlemlenen kelimelerin frekanslarının tahmin edilmesi için Zipf ikinci kanunu Denklem 10.3.2.2.1.’de verildi i ekilde hesaplamaya çok daha yatkın bir hale getirilebilir. Bu denklem elbette, derlem büyüklü ünün sonsuza gitti i durumdaki asimptotik durum için geçerlidir. V (i, N ) = mV ( N ) / i ρ +1 Denklemde m bir sabit sayıdır. E er (10.3.2.2.1) ∞ i =1V (i, N ) = V ( N ) / i ρ +1 e itli i sa lanmak isteniyorsa, B > 1 için da ılımı tutarlı hale getirecek, B=1 durumundan hesaplanan m = 6 / π 2 , üstten sınır katsayısı olarak kullanılabilir (Aslen bu çarpım sabiti, ζ simgesi Reimann fonksiyonu olmak üzere, m = 1 / ζ ( ρ + 1) eklinde hesaplanmaktadır.) Denklemde verilen ifade, Zipf ikinci kanun ifadesindeki KN sabit teriminin normalizasyonu ile elde edilmi tir. Bu normal de er K N = log(V ( N )) /( ρ + 1) olarak alınarak, Denklem 10.3.2.2.2.’de verilen ifade elde edilir. log(i) = log(V ( N )) /( ρ + 1) − log(V (i, N )) /( ρ + 1) (10.3.2.2.2) B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 274 Zipf birinci kanun incelemesi sonucunda elde etti imiz, kelime da arcı ı büyüme katsayısı, ρ ≈ 0.7821 ve m sabiti için 6 / π 2 = 0.607927 de eri Denklem 10.3.2.2.1.’de yerine konursa, Türkçe kelime da arcıklarındaki kelimelerin, derlem içinde gözükme sıklıklarının frekanslarının tahmini Denklem 10.3.2.2.3.’de verilen ifade ile hesaplanabilir. V (i, N ) = 6 π 2 V ( N ) / i1.7821 (10.3.2.2.3) Denklem kullanılarak tahmin edilen ve birle ik derlemin kelime da arcı ında olan kelimelerin gerçek gözlenme sıklıklarının frekansları kar ıla tırma amacı ile Çizelge 10.3.2.2.1.’de verilmi tir. Çizelge 10.3.2.2.1: Kelime esasında Türkçe birle ik derlemin, kelime da arcı ındaki farklı kelime biçimlerinin gözlenme sıklıkları ve tahmin edilen de erleri. i V(i,N) Tahmin i V(i,N) Tahmin 1 116,939 142,767 15 1,178 1,145 2 35,960 41,511 20 707 686 3 17,602 20,154 30 327 333 4 10,983 12,070 35 290 253 5 7,515 8,110 50 137 134 6 5,522 5,860 75 68 65 7 4,201 4,452 100 42 39 8 3,402 3,509 150 30 19 9 2,693 2,845 500 2 2 10 2,314 2,358 1,004 1 1 Kelimeler esasında yaptı ımız bu çalı mayı, gövdeler esasında da tekrarlayacak olursak, gövdeler için Zipf birinci denkleminden elde etti imiz kelime da arcı ı büyüme katsayısı, ρ g ≈ 0.4441 ve yine m sabiti için 6 / π 2 = 0.607927 de eri alınırsa, Türkçe kelime B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 275 da arcıklarındaki gövdelerin, derlem içinde gözükme sıklıklarının frekanslarının tahmini de Denklem 10.3.2.2.4. kullanılarak hesaplanabilir. V (i, N ) G = 6 π 1.4441 V ( N ) / i 2 (10.3.2.2.4) Denklem kullanılarak hesaplanan ve gövde esasında birle ik derlemin kelime da arcı ında olan kelimelerin, gerçek gözlenme sıklıklarının frekansları da Çizelge 10.3.2.2.2.’de verilmi tir. Çizelge 10.3.2.2.2: Gövde esasında Türkçe birle ik derlemin, kelime da arcı ındaki farklı kelime biçimlerinin gözlenme sıklıkları ve tahmin edilen de erleri. i 1 2 3 4 5 6 7 8 9 10 V(i,N) Tahmin i V(i,N) Tahmin 7,693 12,824 15 145 257 2,959 4,713 45 37 53 1,504 2,624 75 11 25 1,017 1,732 100 10 17 751 1,255 150 2 9 659 965 300 2 3 462 772 464 2 2 387 637 608 2 1 311 537 2,167 1 0 255 461 3,900 1 0 Özetle, Denklem 10.3.2.2.1. ile iddia edilen udur: Zipf birinci kanununu, en azından orta ve dü ük frekans bandında sa layan derlemler, Zipf ikinci kanununu da en azından dü ük frekans bandında sa larlar. Kelimeler için ekil 10.3.2.1.1. ve gövdeler için ekil 10.3.2.1.3.’de verilen yayılım çizgelerinde de görüldü ü gibi, Zipf ikinci kanunun uyumu, istatistiksel anlamlılık açısından mükemmele yakındır. Dolayısı ile kelime da arcı ı için, derlem içinde yüksek B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 276 frekansa sahip kelimelerin, orta ve dü ük frekans bandındakilerden izole edilerek de erlendirilmesi gibi bir ayrıma gidilmesine gerek yoktur. 10.4.2.3 Hapaks kelimeler ve da arcık zenginli i Zipf ikinci kanunu için Denklem 10.3.2.2.1.’de verilen ifadede i=1 (hapaks) için, mV(N) kadar, yani tüm kelime da arcı ının %60’ı kadar ( 6 / π 2 = 0.607927 ) bir miktar tahmin edilmektedir. ki kere gözlenen kelimeler de hesaba katılırsa, toplam kelime da arcı ının yakla ık dörtte üçü kapsanmaktadır. Bu deneysel buluntular, nicel dilbilim sahasında da yo un ekilde desteklenmektedir. Örne in, Herdan’ın (1960) özgün çalı masında, Zipf ikinci kanununa alternatif Waring da ılımı için sadece olarak geli tirdi i, 0.4 ≤ V (1, N ) / V ( N ) ≤ 0.6 aralı ında de erleri tablo halinde vermesi bunun bir delilidir. Çünkü, “dilin uygulamalı çalı malarında, kar ıla ılması muhtemel kelimeler” bu aralık içinde kalmaktadır. Baayen (2001), lim V (1, N ) / V ( N ) > 0 olması durumunda, N →∞ V(1,N) de erinin, az rastlanan olayların çok gözükmesi (large number of rare events - LNRE) ilkesine ba lı olarak sonsuza gidece ini tanımlamı tır. Ayrıca, Baayen aynı çalı masında, kelimelerin gözlenme sıklıklarının da ılımı ile ilgili olarak, çok büyük derlemlerle çalı ılsa dahi LNRE bandında kalındı ını belirtmi tir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 10.4.3. 277 lev ve çerik Kelimeler ( ndeks Terimler) Dilbilim sahasındaki çalı maların kelime frekansları ile ilgili olanlarının, yani istatistiklere dayalı çalı maların temelinde, belirtilsin veya belirtilmesin Bernoulli deneysel kurgusu vardır. Bu kurgu gere ince kelimelerle ilgili, tabii ba lantılı olarak kelime da arcı ı ve kitle ile ilgili bir takım kabullenmeler yapılması gereklili i do ar. Kelimelerle, daha do rusu bir derlemde gözlemlenecek birliklerle ilgili yapılan kabullenmeler unlardır: tüm birlikler, oranları belirli bir ekilde, tek bir torbada durmaktadırlar; birlikler bu torbadan çekilir (yani yazımda gözlenir) ve tekrar torbaya atılır; herhangi bir birli in torbadan çekilmesi (yazıda gözlemlenmesi) olasılı ı bir di er birli in çekilmesi olasılı ından ba ımsızdır. Elbette bu kurgu gerçek yazılı belgelerin do asını temsil etmez, ancak istatistiksel yöntemlerin dil üzerinde uygulanabilmesini mümkün kılar. Bir kere böyle bir kurgu kabullenilince, temel ilkelerden ayrılmadan kurgu üzerinde de i ikliklere gitmek elbette mümkündür. Örne in Mandelbrot (1961), bu kurguda tek bir büyük torba U yerine, iki ayrı torba, yani i lev (görev) kelimeler için UG ve içerik kelimeler için UI kullanılmasını önermi tir. Bunun sebebi olarak da, i lev kelimelerin yazım kuralları tarafından yönlendirilen ve yazarın inisiyatifinde olmayan kelimeler oldu unu, onun için yazarın aktarmak istedi i içeri i olu turmada kullanaca ı kelimelerle, ilgisinin bulunmadı ını söylemi tir. Bu çalı mada, biz de söz konusu söyleme katılıyor ve tek bir büyük torba yerine iki ayrı torba oldu u varsayımını kabulleniyoruz. lev kelimeler, yazım kuralları tarafından yönetilmektedir. Bu yüzden yazım içerisinde, içerikten ba ımsız olarak gözlemlenirler. çerik kelimelerse, bir metin içinde ancak metinin konusu ile alakalı B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 278 kelimeler olabilir, dolayısı ile her metinde i lev kelimeler gözlemlenebilir, fakat içerik kelimelerin gözlenmesi için metnin konusunun benzer olması gerekir. Sonuç olarak, bir derlemde i lev kelimelerin, içerik kelimelerden daha fazla gözlemlenmesi gerekir. te, i lev ve içerik kelimeler arasında bu ba lam üzerinden bir ayrım yapılabilir. lev kelimelerin tespiti için, derlem içinde yüksek frekanslı birliklerin incelenmesi gerekir. Takip eden bölümde yüksek frekanslı kelimelerin incelemesi ba lı ı altında, Türkçe için, i lev ile içerik kelimeler arasında, görülme sıklı ını esas alan bir sınır belirleme çalı ması verilmi tir. 10.4.3.1 Yüksek frekanslı kelimeler statistiksel açıdan bakıldı ında, bir derlem içindeki metinlerde birlik olarak nelerin kabul edildi i, pek o kadar tutarlı bir durum de ildir. Örne in “ ... 1980’ler ...” tek bir birlik midir, yoksa “1980” rakam, “’” noktalama i areti ve “ler” ek olmak üzere üç ayrı birlik midir, veya ikisi birden midir, tamamen derlemin ilk i leni sürecine ba lıdır, yani simgelemenin (tokenization) nasıl yapıldı ı ile alakalıdır. Bir ba ka örnekte ise “ ... “hayır”da hayır var. ...” gibi aynı kelime eklinin hem içerik, hem de i lev durumunda oldu u birlikler de mevcuttur. Dolayısı ile, gerçekte içerik ile i lev kelimelerin arasına, en azından frekans esasında belirgin bir çizgi çekmenin imkanı yoktur. Her iki torbada da, aynı kelimelerin de i ik anlamları için, ekilleri e olan temsillerinin bulunması gerekmektedir. Bu mesele, anlamsal boyutta çözümlenebilecek bir u ra tır. Frekanslarla kesin bir sınır çizilemez. Ancak, bir sınır belirli bir hata oldu u kabullenmesi ile konabilir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 279 UG torbasında, yani i lev kelimelerden k adet oldu unu var sayarsak, Zipf birinci kanun tertibindeki sıralamada, birinciden k’ıncı sıra numarasına kadar olan kelimeler, k dahil olmak üzere, UG torbasındadır diyebiliriz. Dolayısı ile r > k sıra numarasına sahip kelimeler de, UI torbasında olacaktır, yani içerik kelimeleri olacaktır. E er tüm i lev kelimelerin toplam olasılık yo unlu unun Pk = kr=1 p r oldu unu kabul edersek ve Zipf birinci kanunun da, UG için gerçekten belirleyici bir ifade oldu u var sayılırsa, i lev kelimelerle içerik kelimelerin sınır noktasında, Pk olasılı ının, Zipf birinci kanun ifadesinin e im parametresi (B) ile hesaplanacak Pk ≈ 1 / k B de erine e it olması beklenir. Dolayısı ile, Denklem 10.4.3.1.1.’deki ifade, derlemdeki kelimeler üzerinden yapılacak e im (B) tahminleri ile i lev ve içerik kelimeler arasına bir sınır, k de eri belirleyebilir. B = − log( p k ) / log( k ) (10.4.3.1.1) Örne in, birle ik Türkçe derlem için Zipf birinci kanun ifadesi ile uyumunun en iyi oldu u durumda (Mandelbrot, W=1000), elde etti imiz e im, B=1.2786 de eridir. Bu de erin üzerinde kalan e im tahminlerine ait kelimeleri i lev kelimeler UG, altında kalan kelimeleri de içerik kelimeler UI, olarak kabul edebiliriz. Çizelge 10.4.3.1.1.’de Türkçe birle ik derlem için Denklem 10.4.3.1.1. ile hesaplanan e im tahminleri verilmi tir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 280 Çizelge 10.4.3.1.1: Kelime esasında Türkçe birle ik derlem için Zipf birinci kanun e im tahminleri (k=1 de eri, k=1.4 alınmı tır; log(1)=0). Kelime bir ve bu da de için çok o gibi ile türkiye istanbul bunu beni tüm yani sadece söz türkiye'nin geldi ona veya olmak genç ki i gece ali abd birkaç açık erdo an geri ırak olsun milli k 1 2 3 4 5 6 7 8 9 10 38 74 100 101 102 103 104 105 132 149 150 151 152 153 154 156 158 162 184 185 186 187 198 199 200 p 0.024031 0.018371 0.012073 0.008353 0.008244 0.005724 0.003964 0.003639 0.003593 0.003488 0.001397 0.000878 0.000726 0.000703 0.000701 0.000694 0.000693 0.000659 0.000594 0.000533 0.000530 0.000528 0.000524 0.000519 0.000514 0.000513 0.000505 0.000494 0.000449 0.000447 0.000433 0.000432 0.000404 0.000403 0.000401 B Kelime 11.0809 bizi 5.7664 kendisine 4.0204 mustafa 3.4517 henüz 2.9814 ahmet 2.8816 hangi 2.8421 bilgi 2.7007 üstelik 2.5618 güçlü 2.4574 sırada 1.8072 iir 1.6353 rahat 1.5696 etmesi 1.5732 alanda 1.5704 alınması 1.5692 karısı 1.5662 tl 1.5738 yıldan 1.5215 mahmut 1.5063 sanal 1.5053 konunun 1.5043 alanı 1.5037 belge 1.5034 de i ikli i 1.5036 bulmak 1.5012 aslan 1.4995 antalya 1.4965 bankalar 1.4783 aynen 1.4774 cinayet 1.4820 cumhuriyeti 1.4812 do um 1.4774 doları 1.4767 düzeyinde 1.4764 denildi k 343 343 344 346 346 347 348 501 502 503 1,002 1,002 1,002 1,002 1,005 1,935 1,935 1,941 1,941 1,941 1,941 1,941 1,941 1,941 1,941 1,951 1,951 1,965 1,965 1,965 1,980 1,980 1,980 2,305 2,321 p 0.000278 0.000278 0.000275 0.000275 0.000275 0.000274 0.000273 0.000205 0.000204 0.000203 0.000115 0.000115 0.000115 0.000115 0.000115 0.000063 0.000063 0.000063 0.000063 0.000063 0.000063 0.000063 0.000063 0.000063 0.000063 0.000062 0.000062 0.000062 0.000062 0.000062 0.000061 0.000061 0.000061 0.000054 0.000053 B 1.4032 1.4032 1.4036 1.4027 1.4027 1.4022 1.4019 1.3661 1.3665 1.3664 1.3129 1.3129 1.3129 1.3129 1.3127 1.2784 1.2784 1.2787 1.2787 1.2787 1.2787 1.2787 1.2787 1.2787 1.2787 1.2785 1.2785 1.2781 1.2781 1.2781 1.2777 1.2777 1.2777 1.2701 1.2699 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 281 Çizelge 10.4.3.1.1.’de tahmin edilen e im, B de erleri iki sütun halinde verilmi tir. Bu listelemede, örnekleri yukarıda bahsetti imiz konuları da kapsayacak ekilde seçmeye dikkat ettik. Öncelikle, “Türkiye”, “Ali”, “ABD”, “Erdo an”, “Irak” v.b. kelimelerin i levsel oldukları veya bir metnin içinde içeri e katkı sa layacak anlamsal öneme sahip olmadıkları söylenemez. Dolayısı ile, bu kelimeler içerik olması gerekirken, derlemlerin özellikle gazete yazılarından seçilmi olması sebebiyle, i lev kadar frekansları olu mu tur. Ancak, bu hatalar dı ında liste incelendi inde aslen iddia edildi i gibi bir sınır için yer oldu u da gözükmektedir. Çizelgede dolgulu alanın içinde (“karısı” ve “antalya” kelimeleri arasındaki alan) bu geçi in ba langıcı ve biti i gözükmektedir. Geçi noktası, ba langıçtan itibaren süre gelen e imdeki sistematik dü ü ün, B=1.2786 e im de erinin de altına ini i ve daha sonra yaptı ı sıçrama ile tekrar B=1.2786 de erinin üzerine çıktı ı aralık içindedir. Daha sonra dü ü sistematik olarak B=1.2786 altına do ru devam eder. Yapılan e im tahminlerinin söz konusu seyrinden de çıkan sonuç, kelimelerin gerçekten tek bir büyük torba ile temsil edilemeyece i, dolayısı ile i lev kelimelerin UG, içerik kelimelerin UI gibi, iki ayrı torba kurgusu ile ele alınması iddiasının geçerlili idir. E er i lev kelimeler, bu yöntemle tahmin edilecek olursa, sıra numarası 1941’de dahil olmak üzere 1 ile 1941 arasındaki tüm kelimeler i lev kelimeler olarak ele alınacaktır. Dolayısı ile, Türkçe birle ik derlem için i lev olarak i aretlenen kelimelerin sayısı 1944 olacaktır. Bu 1944 i lev kelimenin derlem içindeki toplam frekansı 1.349.004’dür. Geriye kalan 232.899 kelime, içerik olarak i aretlenecektir. Söz konusu 232.899 içerik kelimenin ise, derlem içindeki toplam frekansı 1.162.926’dir. Sonuç olarak, Türkçe derlemdeki i lev kelimelerin, toplam frekans içindeki oranı yakla ık %53 olacaktır (1.349.004 / 2.511.930). Bu oranlar ngilizce için yapılmı çalı malarla da örtü mektedir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 282 çerik ve i lev olu için, Zipf birinci kanununun yardımı ile kelimeler için yaptı ımız i lemleri, gövdeler için de yapmak mümkündür. Yapılan deneysel çalı malarda, Zipf birinci kanun ifadesinin, gövde esasında birle ik derleme en uygun oldu u durumdaki Mandelbrot denkleminin W parametresi yine 1000 idi. Bu parametre de eri için e im B=2,2515 olarak bulunmu tu. Denklem 10.4.3.1.1. ile, gövdeler içinde B e im tahminleri Çizelge 10.4.3.1.2.’de verilmi tir. Gövdeler için, i lev kelimelerin e imin sıçrama noktası ile tespiti, kelimelerdeki kadar anlamlı bir sonuç vermemi tir. Çizelgede görüldü ü gibi, B=2,2515 sıçrama noktası çok ba larda kalmı tır. Çizelgede ayrıca, Mandelbrot W=1000 parametresinin dı ında, W=100, W=10 ve Zipf ifadelerinin de kesme noktaları belirlenmi tir. Sıra numarasında devam ettikçe görülmektedir ki, bu noktalardan hiç birisi anlamlı bir kesim sınırı verememektedirler. Tahminlerin, bir ini ardından çıkı yaptı ı, sıra numarası 1000 etrafındaki de erler de çizelgede gösterilmi tir. Ayrıca, tam bir fikir vermesi açısından, tüm yapılan tahminler ekil 10.4.3.1.1.’de yayılım çizgesi olarak da verilmi tir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 283 Çizelge 10.4.3.1.2: Gövde esasında Türkçe birle ik derlem için Zipf birinci kanun e im tahminleri. Kelime bir ol ve bu de et yap da için ver al türkiye o gel çık yıl il çok ara var kendi daha gibi ne sonra söyle konu iste ben gerek son kadar i devlet ülke k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 38 39 40 41 42 43 p 0.020941 0.020421 0.019411 0.016495 0.012852 0.008959 0.007948 0.007886 0.005870 0.005586 0.005475 0.005108 0.004863 0.004334 0.004297 0.004119 0.003966 0.003760 0.003721 0.003477 0.003307 0.003299 0.003213 0.003050 0.003022 0.003015 0.003010 0.003006 0.002967 0.002510 0.002508 0.002506 0.002432 0.002390 0.002380 B Kelime k p 11.4900 söz 100 0.001400 5.6138 önem 101 0.001383 3.5881 özel 102 0.001346 2.9609 göster 103 0.001345 2.7055 hal 104 0.001343 2.6316 göre 105 0.001335 2.4846 ö retim 951 0.000193 2.3288 operasyon 951 0.000193 2.3383 nüfus 951 0.000193 2.2529 bakım 957 0.000191 2.1717 ça ır 957 0.000191 2.1236 ça rı 966 0.000189 2.0765 acaba 966 0.000189 2.0618 vali 1,004 0.000179 2.0124 tanık 1,004 0.000179 1.9808 ço u 1,004 0.000179 1.9518 yasadı ı 2,024 0.000065 1.9317 tekstil 2,024 0.000065 1.8998 tofa 2,024 0.000065 1.8898 sı ın 2,024 0.000065 1.8760 zarf 3,028 0.000034 1.8486 Ziya 3,028 0.000034 1.8308 Zülfü 3,028 0.000034 1.8226 sevk 3,028 0.000034 1.8025 yurtsever 5,225 0.000013 1.7814 sperm 5,225 0.000013 1.7616 söylemez 5,225 0.000013 1.7427 sosyoloji 5,225 0.000013 1.7285 sosyolojik 5,225 0.000013 1.6461 stohos 5,225 0.000013 1.6345 bediüzzaman 7,547 0.000007 1.6236 bedensel 7,547 0.000007 1.6208 benston 7,547 0.000007 1.6150 zoralım 11,923 0.000003 1.6061 Mondros 17,249 0.000001 B 1.4269 1.4265 1.4293 1.4265 1.4239 1.4222 1.2476 1.2476 1.2476 1.2474 1.2474 1.2477 1.2477 1.2480 1.2480 1.2480 1.2655 1.2655 1.2655 1.2655 1.2834 1.2834 1.2834 1.2834 1.3133 1.3133 1.3133 1.3133 1.3133 1.3133 1.3368 1.3368 1.3368 1.3693 1.3885 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 284 ekil 10.4.3.1.1 : Gövde esasında Türkçe birle ik derlem için, Zipf birinci kanun e im tahminlerinin yayılım çizgesi. Gövdeler için yapılan incelemelerde, Zipf kanunları da dahil olmak üzere, kuramlara uyum açısından bir düzensizlik söz konusudur. Ancak, bilinen ve deneysel olarak gösterilmi olan gerçek, Türkçe için gövdelerle çalı mak, BGG geri-getirim ba arımını arttırıcı bir unsurdur (Solak, 1994; Ekmekçio lu, 1996; Sever, 2003). Ayrıca, OSTAD derlemi incelememizde, gövdelerin ana kitlenin benzer karakteristi ini, kelimelerden daha çabuk gösterdi ini belirtmi tik. Yapılan incelemelerin ı ı ı altında sonuç olarak unu söyleyebiliriz: Gövdeler esasında kurgulanacak bir BGG sisteminde, frekansların ifade edece i karakteristik, kelime esasındaki e lenik bir BGG sisteminden istatistiksel açıdan anlamlı düzeylerde farklı olacaktır. Bu farklılı ın pozitif yönde oldu una da imdiye kadar yapılmı çalı malar delil olacaktır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 285 11. NDEKS TER M SEÇ M Bu tezin amacı, genel anlamı ile dilbilimsel özelliklerin kullanımı ile BGG sistemlerinde ba arımın artırılmasıdır. Bu amaç çok çe itli yollardan gerçeklenebilir. Biz özel olarak BGG sistemlerinde yazılı belgelerin sayısal temsilinde, yani indeks terimlerin seçiminde dilbilimsel özellikleri kullanarak temsili güçlendirmeyi, dolayısı ile BGG ba arımını arttırma yolunu seçiyoruz. Amaca uygun alt yapının hazırlı ını da, Türkçe’nin belirli dilbilimsel özelliklerinin mevcut da ılım ve istatistiksel özelliklerini belirleyerek yapaca ız. Bu bölümde, sözcük türü (isim, fiil, sıfat v.s.) , kelime gurubu (“kur un kalem” v.s.) ve cümle unsuru (fiil, fail, zarf, yer tamlayıcısı) olmak üzere Türkçe’nin üç dilbilimsel özelli ini sırasıyla inceleyece iz. Deneysel çalı malarda, BilTD ve OSTAD derlemleri kullanılmı tır. ODTÜ derlemi, dilbilimsel özellikler i aretli olmadı ı için incelemelerimizin dı ında kalmaktadır. Genel istatistikler ba lı ı altında yapılan çalı malarda kullanıldı ı ekline ek olarak, OSTAD derleminde belge türü “haber” olan metinlere ait indeks terimler de elle i aretlenmi tir. OSTAD derleminde elle indeks terimleri i aretlenmi olan belgelerin istatistikleri Çizelge 11.1.’de verilmi tir. Çizelge 11.1 : OSTAD derleminde elle i aretlenmi belge istatistikleri. Belge No Parag Say Cümle Say Birlik Say 1 39 86 1,182 2 47 110 1,512 3 27 78 1,075 4 49 114 1,528 5 40 114 1,613 6 46 104 1,614 7 37 86 1,247 8 61 94 1,487 9 48 97 1,684 394 883 12,942 Toplam B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 286 Çizelgede de görüldü ü gibi, elle i aretlenen belge sayısı, BGG sistemlerinin ba arım ölçümlerinde genelde kullanılan boyutların altında kalmaktadır. Mümkün olan en büyük boyutu yakalamak için incelemelerde 394 paragraf, belge olarak kabul edilecektir. Derlemi olu turan 12,942 birlik, 104 ile 105 arasında kalmaktadır. Dolayısı ile, hesaplamalı dilbilim çalı malarında kullanılan genel derlem boyutlarına uygun oldu u söylenebilir. Fakat, BGG sistem sınamaları için, çok uygun oldu unu söyleyemiyoruz. Aslen, OSTAD derleminin tümü de erlendirmeye alınsa dahi, BGG sistem sınamaları için çok uygun oldu u söylenemez. Ancak, Türkçe için dilbilgisi özellikleri i aretlenmi tek derlem budur. Toplam 12,942 birlikten sözcük türü açısından de erlendirmeye alınan toplam 10 temel sözcük türüne ait harf birlikleri sayısı 9,575’dir. Söz konusu derlem büyüklü ünü, 4,955 farklı kelime biçimi olu turmaktadır, yani kelime esasında kelime da arcı ı boyutu 4,955’dir. Bu 4,955 kelime biçiminden 2,525 tanesi indeks terim olarak belirlenmi tir. ndeks terim olarak i aretlenenler, toplam 9,575 olan derlem boyutunun, 3,953 birli ini olu turmu tur. Gövde esasında kelime da arcı ı, 2,165’dir. Bu gövdelerden 1,393 tanesi indeks terim olan birli in gövdesini te kil etmektedir. Gövdeleme ile BGG ba arımının de i imi ara tırması, tez kapsamımızın dı ındadır. Dolayısı ile, elde edilebilen yerlerde istatistik olarak verilecek, ancak BGG ba arımı esasında incelemeyecektir. Türkçe yazılı metinlere ait indeks terimlerin, metnin içeri ini temsildeki önemini nicel olarak belirlemede, birliklerin (kelimeler, sayılar v.b.) gözlenme sıklıkları, temel de i im ölçütü olarak kullanılacaktır. Çalı ma ile amaçlanan, elle i aretlenmi olan indeks terimlerin, derlem içinde birliklerin gözlenme frekansları ile ne kadar belirlenebildi inin tespit edilmesidir, yani indeks terim olan birliklerin de i iminin (veya ta ınan enformasyonun), birliklerin frekanslarının B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 287 de i imi ile ne kadar izah edilebildi idir. Bu ba lamdaki beklenti, dilbilimsel özelliklerin, frekanslarla ta ınan enformasyon dı ında da bir miktar, daha do rusu anlamlı düzeylerde enformasyon ta ıdı ıdır. E er frekanslarla ta ınan enformasyon, zaten dilbilimsel özelliklerle ortaya çıkarılacak enformasyonsa, dilbilimsel özelliklerin kullanılmasının bir anlamı olmayacaktır (BGG sahasında, u an yaygın olan kanı budur). statistiksel olarak bu durum, frekanslarla dilbilimsel özelliklerin ba ımlı olması veya aralarında bir kar ılıklı ili ki (co-variance) olması ile tanımlanabilir. Ancak bizim beklentimiz, ba ımsız olmaları veya kar ılıklı ili kilerinin olmamasıdır. Ba ka bir söyleyi le, birinin de i iminin di eri ile açıklanamaması, birinden di erinin de i iminin tahmin edilememesi gerekir. E er frekansla dilbilimsel özellikler ba ımsızsa, dilbilimsel özelliklerin devreye alınması, metin içindeki toplam de i imin frekans ile temsil edilen kısmı dı ında kalan kısımların da de erlendirme içine katılabilmesine imkan tanıyacaktır. Fakat, dilbilimsel özellikler ile izah edilen de i imin BGG ba arımı açısından anlamlı olup olmadı ı, kullanılıp kullanılmaması gereklili i ise bir ba ka meseledir. Örne in bir geri-getirim yöntemi içerisinde, frekans ile dilbilimsel özellikler tamamen di eri ile simetrik, ters yönde ve aynı miktarda enformasyonu temsil eder duruma getirilebilirler, e er bu yöntem de örne in vektör uzayı modelini esas alıyorsa, bir vektör di er vektörün yarattı ı tüm de i imi dengeleyece i için, sonuç olarak çok büyük bir ba arım dü ü üne de sebep olabilir. Dolayısı ile, ba ımsız bir enformasyon varlı ının tespitinin sonrasında, bu enformasyonun, kullanılan yöntem veya yöntemler açısından da incelenmesi gerekmektedir. Ancak, bir yöntemin, hatta bilinen tüm yöntemlerin ba arımlarında anlamlı bir artı olmaması, tanımladı ımız özelliklere sahip herhangi bir ek de i im temsilinin, kökten faydasız oldu una delil olarak kabul edilemez. E er varsa, bu ek de i imin B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 288 faydasını ortaya koyacak bir yöntem bulunması çalı malarını ba latmak için, delil olarak kabul edilebilir. Çizelge 11.2 : BilTD ve OSTAD derlemlerinde yapılmı olan biçimbirimsel i aretlemede temel sözcük türü kodları. Sıra 1 2 3 4 5 6 7 8 9 10 11 12 13 1+1 Kod Noun Adj Adv Verb Pron Conj Det Post Quest Interj Num Dup Punc Prop Açıklama simler Sıfatlar Zarflar/Belirteçler Fiil Zamirler (ben, sen, o, nereye, hepimiz, kim, v.b.) Ba laçlar (ve, ama, ki, ile, v.b.) Belirleyenler (bir, her, bu, u, her, hiçbiri, v.b.) lgeçler (diye, gibi, için, do ru, v.b.) Soru eki ile ba layıp ayrı yazılan sözcükler (mi, mı, mısınız v.b.) Ünlemler (oh, off, nah, hadi, aaa, tabi, aferin, haydi, v.b.) Sayılar Tekrar edilerek olu turulmu , yansımalı kelimeler. Noktalama i aretleri Özel sim Çizelge 11.2.’de, deneysel çalı malarda kullanılacak BilTD ve OSTAD derlemlerinin biçimbirimsel i aretlemesinde, temel sözcük türleri için tanımlanmı kodlar listelenmi tir. Bu bölümde yapılan çalı maların istatistikleri verilirken de söz konusu kodlar korunmu tur. Son satırda verilen “Prop” yani özel isim, aslen bir ana tür olarak i aretlenmemi ancak, de erlendirme içine alındı ı için listeye dahil edilmi bir yan sözcük türü’dür. aretleme esnasında, Noun kodundan, yani isimden sonra getirilerek ismin bir özel isim oldu u belirlenmektedir. Bu i aretleme kodları Oflazer’in (1993) Türkçe için iki seviyeli dilbilimsel tanımlamasında kullandı ı biçimbirim i aretlemesinden alınan kodlardır. Çizelgede 12. sırada verilen Dup kodu (tekrar), aslen Bölüm 2.’de kelime gurubu kapsamına aldı ımız bir dilbilgisi özelli idir. Tekrarları, kelime guruplarından ayrı tutmak, B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 289 onları bir bütün olarak, ayrılmaz birlik eklinde kabul edip (yani tek bir nevi kelime), kelime türü eklinde de erlendirmek de makul bir yakla ım olabilir. Ancak, biz sözcük türü de erlendirmemizde bu kodu kullanmıyoruz ve çıkartıyoruz. Sıra numarası 11 ve 13 olan, Num ve Punc, yani sayılar ve noktalama i aretleri de tabii, de erlendirmemiz dı ındadır. Dolayısı ile bu bölümdeki çalı malarda, 10 temel kod ve bir de özel isimleri belirleyebilmek için Prop yan kodu olmak üzere toplam 11 kod kullanaca ız. Özel isim de erlendirmemiz de, ana sözcük türleri de erlendirmelerine ek olarak verilecektir. Bölüm 10.’da Zipf güç kanunları incelenirken, içerik ve i lev kelime ayrı tırması meselesi içerisinde, derlem içinde gözlenme sıklı ı yüksek olan birliklere odaklanmı bir yöntem ile i lev kelimelerle, içerik kelimeler arasında bir sınır noktası da belirlemeye çalı mı tık. Bu sınır noktasından yukarıda kalan birlikler i lev kelimeler, sınırın altında kalan kelimeler de içerik kelimeler olarak kuram gere i kabul edilmi ti. Ancak, i lev kelimeler olarak belirlediklerimizin arasında içerik kelimeler; içerik kelimeler olarak belirlediklerimizin arasında da i lev kelimeler oldu u da belirtilmi ti. te bu durum, derlem üzerinde görülme sıklı ına dayalı olan tüm geri-getirim yöntemlerinin ba arımlarını etkileyen, daha do rusu ba arımlarını dü üren durumdur. Geleneksel geri-getirim yöntemlerinin hemen hepsi, görülme sıklı ına dayalı kurgulara sahiptir. Dolayısı ile mesele de geneldir. Derlemde görülme sıklıklarını esas alan bir yöntemin kör noktası diyebilece imiz yer ise, dü ük frekanslı kelimelerdir. Dü ük frekanslı kelimelerin kelime da arcı ının boyutları açısından önemi, yine Zipf güç kanunları incelemesinde de erlendirilmi ti. Zipf kanunları incelenirken, kelime da arcı ının derlem boyutu ile birlikte üstel ve do ru orantıyla büyüyece i iddiasına, dü ük frekanslı kelimeleri esas alan bir bakı açısından Türkçe için deneysel olarak deliller göstermi tik. Aslen, B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 290 dü ük frekanslı kelimelerin kelime da arcı ı boyutları açısından önemli bir etmen olmasının yanında, indeks terim seçiminde de önemi büyüktür. Çünkü, dü ük frekans içersinde bir de i imden söz edilemez. Bir kere gözlenen bir kelime, bir belgede tek bir yerde gözlenmi tir. Oysa, geri-getirim yöntemleri frekans içindeki de i imleri belirleyebildi i ölçüde ba arıma sahip olmaktadır. Dü ük frekanslı kelimelerin i lev veya içerik olduklarının belirlenebilmesi için gözlenme sıklı ı dı ında bir etmenden faydalanması gerekmektedir. Söz konusu bu etmenle ek bir belirleyicilik kazanmalıdır. Aynı durum aslında yüksek frekanslı birlikler ve orta frekanslı birlikler için de geçerlidir. Dilbilgisi özellikleri bu yönde ba vurulabilecek araçlardan bir tanesidir. Geleneksel geri-getirim yöntemlerinde örne in, özel isim olan birlikler ister dü ük frekanslı olsun, ister yüksek frekanslı olsun içerik kelime olarak ele alınmaktadır. Bu tez kapsamında, dilbilgisi özellikleri aynı bakı açısından ele alınıp, indeks terim (içerik kelime) olu u belirleyicilik açısından incelenmi tir. ndeks terimlerle ilgili çalı ma iki a amaya ayrılmı tır. Birinci a amada, derlemi olu turan birlikler içerisinden indeks terimlerin belirlenmesi üzerinde durulmu . kinci kısımda, seçilen indeks terimlerin bulundukları metnin içeri ini temsilde önemi belirlemeye yönelik çalı malar yapılmı tır. lerleyen kısımlarda öncelikle “Genel Da ılımlar” ba lı ı altında, dilbilgisi özelliklerinin frekans esasında yalın da ılımları tanımlanmı ve ardından elle i aretlenmi indeks terimler üzerinden da ılımları verilmi tir. ndeks terimlerin belirlenmesinde dilbilgisi özelliklerinin kullanımı bu ekilde ara tırıldıktan sonra, seçilmi indeks terimlerin bulundukları metnin içeri ini temsilde önemini ölçeklendirmek için geleneksel geri-getirim yöntemlerinin ngilizce derlemlerde ba arım olarak en iyi olanlarının a ırlıklandırma yordamları frekans esasında Türkçe için sınanmı tır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 291 Türkçe için de erlendirme sonucunda en iyi olarak belirlenen gerigetirim yönteminin ba arım de erleri, e ik olarak kabul edilmi ve son olarak dilbilgisi özelliklerinin BGG sistemlerinin ba arımına katkısı istatistiksel olarak ara tırılmı tır. 11.1. Genel Da ılımlar 11.1.1. Sözcük Türleri Türkçe’de i levsel açıdan kelimeler/sözcükler ele alındı ında, üç tür kelime vardır: isimler, fiiller ve edatlar. Yazılı dilin temel unsurları, yani yazıda anlamı kar ılayan unsurlar, isimler ve fiillerdir. Edatlar ise yazılı anlatımın kuralları içinde, i levsel olarak görevli, tek ba larına anlamları soyut ve havada kalan, ancak isimlerle ve fiillerle kullanıldıklarında anlam kazanan yardımcı unsurlardır. levsel olarak aslen isim soyundan gelen, yani isim ba lı ı altında genel olarak toplanan, ancak görev olarak birbirlerinden farklı alt guruplar da vardır: özel/cins isimler, sıfatlar, zamirler ve zarflar. Özel isimler tek bir nesnenin, cins isimler ise bir gurup nesnelerin ve kavramların adlarıdır. Sıfatlar nesnelerin vasıf isimleridir. Zamirler nesneleri geçici olarak kar ılamak için, dilde kullanılan ve sayıca kısıtlı isimlerdir (bu, u, o v.b.). Zarflarsa fiillerin zamanını, olu eklini, yerini, v.b. tanımlayan isim soylu kelimelerdir. Edatlar da kullanı ekline göre kendi içinde çe itli guruplar altında toplanırlar: Ünlem edatları, ba lama edatları ve son çekim edatları. Fiiller de kendi içlerinde yapılarına ve kullanılı larına göre çe itlere ayrılır: fiiller, sıfat fiiller (partisipler-ortaç) ve isim-fiiller (gerundiumlar). B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 292 Türkçe’deki sözcük türlerinin dilbilimsel detayları Bölüm 2.’de Türkçe ba lı ı altında detaylı ekilde ele alınmı tı. Burada bu sözcük türlerinin yazılı metinler içindeki sayısal da ılımları açısından incelemesini yapaca ız. Zipf kanunları ile tür ayrımına gitmeden yaptı ımız çalı malara ek bir enformasyon olup olmadı ını, daha do rusu kelimelerin frekansları ile türleri arasında kar ılıklı ili ki olup olmadı ını inceleyece iz. Böyle bir ba lantı ile, i lev ve içerik kelimelerin ayrımlarının yapılıp yapılamayaca ı ikinci tartı ma konusu olacak. Dolayısı ile yazılı belgelerin sayısal temsillerine katkının olup olmayaca ının tartı ması bu ba lamdan verilecektir. BilTD ve OSTAD derlemleri, ayrıca ikisinin harmanı ile olu turulan birle ik derlem için, ana sözcük türlerinin kelime da arcı ı içindeki oransal da ılımları, kelime esasında Çizelge 11.1.1.1.’de, gövde esasında Çizelge 11.1.1.2.’de verilmi tir. Sözcük türü oransal da ılımı OSTAD derlemi için, hem kelime hem de gövde esasında ekil 11.1.1.1.’de, çizge olarak da verilmi tir. Çizelgelerde de görüldü ü gibi, her iki derlem ve dolayısı ile birle ik derlem için, isim türünde kelimeler (noun) kelime da arcı ı içinde %50’inin üzerinde bir orana sahiptir. sim türünü, kelime esasında fiil (verb) ve gövde esasında sıfat (adj) türü takip etmektedir. OSTAD derleminde, di er iki derlemden farklı olarak, isim türü oranı gövde esasında %70’in altında kalmı tır (%58,4). Harman ile olu turulan BirTD derlemi a ırlıklı olarak (yakla ık 3/4), BilTD derleminin etkisinde oldu u için, tabii olarak yakın sonuçlar vermi tir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 293 Çizelge 11.1.1.1: Kelime esasında sözcük türlerinin kelime da arcı ı içindeki oransal da ılımları. BilTD OSTAD BirTD Tür Frekans % Yı . (%) Frekans % Yı . (%) Frekans % Yı . (%) Adj 7,063 7.2 7.2 2,054 11.4 11.4 7,786 7.4 7.4 Adv 2,427 2.5 9.6 716 4.0 15.3 2,663 2.5 10.0 Conj 32 0.0 9.7 27 0.1 15.5 35 0.0 10.0 Det 1,388 1.4 11.1 14 0.1 15.5 1,393 1.3 11.3 Interj 35 0.0 11.1 31 0.2 15.7 48 0.0 11.4 Noun 69,160 70.3 81.5 11,014 60.9 76.6 72,743 69.4 80.8 Postp 47 0.0 81.5 38 0.2 76.9 52 0.0 80.9 Pron 313 0.3 81.8 180 1.0 77.9 335 0.3 81.2 Ques 34 0.0 81.9 23 0.1 78.0 37 0.0 81.2 Verb 17,849 18.1 100.0 3,981 22.0 100.0 19,688 18.8 100.0 Toplam 98,348 100.0 18,078 100.0 104,780 100.0 Çizelge 11.1.1.2 : Gövde esasında sözcük türlerinin kelime da arcı ı içindeki oransal da ılımları. BilTD OSTAD BirTD Tür Frekans % Yı . (%) Frekans % Yı . (%) Frekans % Yı . (%) Adj 3,536 12.4 12.4 1,358 19.0 19.0 3,797 12.8 12.8 Adv 1,042 3.7 16.1 486 6.8 25.9 1,127 3.8 16.6 Conj 32 0.1 16.2 27 0.4 26.2 35 0.1 16.7 Det 988 3.5 19.7 13 0.2 26.4 992 3.3 20.0 Interj 35 0.1 19.8 31 0.4 26.9 48 0.2 20.2 Noun 20,192 71.0 90.9 4,165 58.4 85.3 20,941 70.4 90.6 Postp 47 0.2 91.0 38 0.5 85.8 52 0.2 90.7 Pron 46 0.2 91.2 29 0.4 86.2 52 0.2 90.9 Ques 4 0.0 91.2 4 0.1 86.3 4 0.0 90.9 Verb 2,502 8.8 100.0 978 13.7 100.0 2,699 9.1 100.0 Toplam 28,424 100.0 7,129 100.0 29,747 100.0 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 294 Pron 1.00% Postp 0.21% Ques 0.13% Verb 22.02% Postp Pron 0.53% 0.41% Adj 11.36% Interj 0.17% Det 0.08% Verb 13.72% Adj 19.05% Noun 58.42% Adv 4% Noun 60.92% Ques 0.06% Conj 0.15% Adv 7% Interj 0.43% (a) Det 0.18% Conj 0.38% (b) ekil 11.1.1.1 : OSTAD derlemi, kelime (a) ve gövde (b) esasında kelime da arcı ı içinde sözcük türü oranları. Sözcük türlerinin, “derlem içinde görülme sıklı ı” açısından oranları da, genel de erlendirme içinde ele alaca ımız ikinci unsurdur. Tabi, görülme sıklı ı açısından oranlardan bahsetti imiz için kelime esası veya gövde esası diye bir ayrıma gidilememektedir. Çünkü, görülme sıklı ı açısından kelimelerle gövdeleri arasında sözcük türü ba lamında bir fark yoktur. Dolayısı ile, kelime türlerinin derlem içinde görülme sıklı ı oranları topluca (kelime yada gövde esasında yorumlanabilir), Çizelge 11.1.1.3.’de verilmi tir. OSTAD derlemi için sözcük türlerinin görülme sıklıklarına göre oranları ayrıca 11.1.1.2.’de çizge olarak da verilmi tir. ekil B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 295 Çizelge 11.1.1.3 : Sözcük türlerinin derlem içinde görülme sıklıklarının oransal da ılımları. BilTD OSTAD BirTD Tür Frekans % Yı . (%) Frekans % Yı . (%) Frekans % Yı . (%) Adj 85,650 12.2 12.2 6,087 11.8 11.8 91,737 12.2 12.2 Adv 31,124 4.4 16.6 3,510 6.8 18.7 34,634 4.6 16.8 Conj 34,678 4.9 21.6 2,503 4.9 23.6 37,181 4.9 21.7 Det 29,435 4.2 25.8 2,217 4.3 27.9 31,652 4.2 25.9 Interj 430 0.1 25.8 132 0.3 28.1 562 0.1 26.0 Noun 418,726 59.6 85.5 24,351 47.4 75.5 443,077 58.8 84.8 Postp 15,730 2.2 87.7 1,298 2.5 78.0 17,028 2.3 87.0 Pron 14,568 2.1 89.8 2,476 4.8 82.9 17,044 2.3 89.3 Ques 1,898 0.3 90.0 296 0.6 83.4 2,194 0.3 89.6 Verb 69,938 10.0 100.0 8,508 16.6 100.0 78,446 10.4 100.0 Toplam 702,177 100.0 51,378 100.0 753,555 100.0 Derlem içinde gözlenme sıklı ı açısından, kelime türleri bu sefer üç derlemde de paralel oranlar sergilemi tir. sim türü birinci, sıfat türü ikinci ve fiil üçüncü en büyük orana sahiptir. Verb 16.56% Adj 11.85% Ques 0.58% Adv 7% Conj 4.87% Det 4.32% Pron 4.82% Interj 0.26% Postp 2.53% Noun 47.40% ekil 11.1.1.2 : OSTAD derlemi, derlem içinde gözlenme sıklı ına göre sözcük türü oranları. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 296 11.1.1.1 ndeks terim da ılımları OSTAD derleminde, sözcük türlerinin indeks terim da ılımları Çizelge 11.1.1.1.1’de tablo halinde, ekil 11.1.1.1.1.’de çizge olarak verilmi tir. “Ques”, yani soru sözcük türü de erlendirmede yoktur. Çizelge 11.1.1.1.1 : OSTAD derleminde sözcük türlerinin indeks terim da ılımları. Söz.Türü indT f Söz.Türü indT f Adj 1 207 Noun 0 2,099 Adj 0 1,019 Noun 1 3,690 Adv 1 7 Postp 0 290 Adv 0 375 Pron 1 0 Conj 0 515 Pron 0 170 Det 0 280 Verb 1 48 Interj 0 8 Verb 0 867 Interj 1 0 Çizelgede, her sözcük türünün indeks terim (içerik) olarak gözlenme sıklı ı (indT=1) ve indeks terim olmadı ı (i lev) gözlemler (indT=0) tablo halinde listelenmi tir. 100% 0.36 80% 60% 0.83 1.00 1.00 0.95 0.98 1.00 1.00 1.00 40% 0.64 0 1 20% 0.00 0.00 0.05 In te rj N ou n Po st p Pr on Ve rb D et C on j 0.02 0.00 0.00 0.00 Ad v 0.17 Ad j 0% ekil 11.1.1.1.1 : OSTAD derleminde sözcük türlerinin indeks terim da ılımları. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 297 Yukarıda verilen sözcük türlerinin kendi içinde oransal de erlendirmesinde, en yüksek oran (%64) ile isim sözcük türünde çıkmı tır. sim sözcük türünü, %17 ile sıfatlar (Adj), %5 ile fiiller (Verb) ve %2 ile zarflar (Adv) takip etmektedir. Genel toplam üzerinden, indeks terimlerin sözcük türü da ılımları da 11.1.1.1.2.’de verilmi tir. ekil Verb 1.2% Adj 5.2% Noun 93.4% ekil 11.1.1.1.2: ndeks terimlerin sözcük türü da ılımları. Genel da ılım göz önüne alındı ında, indeks terimlerin %93’ü isim sözcük türünde gözlenmi tir. Bu sonuç, genel kabul ile paraleldir. Genel kabulde, metin içindeki harf birliklerinin, metin içeri ine anlamca katkıda bulunanlarının isim sözcük türünde oldu u belirtilir. Ancak, sözcük türlerinin kendi içinde indeks terim olu da ılımı göz önüne alındı ında, aslen “isim sözcük türündeki kelimeler indeks terimdir.” eklinde bir önermenin yapılamayaca ı da açıktır. Çünkü, isim sözcük türü içinde indeks terim olu un belirsizli i %36 gibi yüksek bir de erdir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 298 Lahtinen (2000), sözcük türlerinde aynı yakla ımı ngilizce için kullanmı tır. Oransal da ılımları indeks terimlerin seçiminde ve metin içinde önemini tespitte de kullanmı tır. Yani sözcük türlerinin indeks terim da ılımlarını sadece indeks terim seçimi için de il, ayrıca terimin bulundu u metnin içeri ine anlamsal katkısı ile de ili kilendirmi tir. Lahtinen deneysel ara tırmasının sonunda, dilbilimsel özelliklerin indeks terimleri seçebildi ini, metin içinde önemini tespitte de yardım edebildi ini bildirmi tir. Sözcük türü ve indeks terimlerin topluca da ılımsal de erlendirmesi, Çizelge 11.1.1.1.2.’de tablo halinde verilmi tir. Çizelge 11.1.1.1.2: OSTAD derleminde, sözcük türü ve indeks terimlerin toplu de erlendirmesi. ndeks Terim Söz.Türü Adj Adv Conj Det Interj Noun Postp Pron Verb 0 frek P(SözT|.) frek P(SözT|.) frek P(SözT|.) frek P(SözT|.) frek P(SözT|.) frek P(SözT|.) frek P(SözT|.) frek P(SözT|.) frek P(SözT|.) Toplam P(ind) 1,019 0.18 375 0.07 515 0.09 280 0.05 8 0.00 2,099 0.37 290 0.05 170 0.03 867 0.15 5,623 0.59 1 207 0.05 7 0.00 0 0.00 0 0.00 0 0.00 3,690 0.93 0 0.00 0 0.00 48 0.01 3,952 0.41 Toplam 1,226 0.13 382 0.04 515 0.05 280 0.03 8 0.00 5,789 0.60 290 0.03 170 0.02 915 0.10 9,576 P(ind=0|.) P(ind=1|.) 0.83 0.17 0.98 0.02 1.00 0.00 1.00 0.00 1.00 0.00 0.36 0.64 1.00 0.00 1.00 0.00 0.95 0.05 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 299 11.1.1.2 Özel isimlerin indeks terim da ılımı Özel isimler, isim sözcük türünün bir alt parçasıdır. Dolayısı ile, katkısı tamamen isim sözcük türü tarafında kapsanır. Ancak, katkı isim sözcük türü içerisinde kalmasına ra men, indeks terim belirleyicili i açısından çok güçlüdür. Lahtinen (2000) tarafından da ngilizce için belirtildi i gibi, özel isimler daima indeks terim olurlar. Bir özel isim, bir ki i ismi iken, ön ad ve soyadı birlikteli inde sadece soyadının indeks terim olarak alınması da rastlanan bir durumdur. OSTAD derleminde yapılan elle i aretlemelerde, toplam 495 farklı özel isme rastlanmı tır. Bu özel isimler derlemde, 883 kez gözlenmi tir. Tüm gözlemler indeks terimdir. Bir ba ka söyleyi le, özel isim olan her isim sözcük türü, indeks terim olarak alınmı tır. 11.1.2. Cümle Unsurları Türkçe bir cümlede temel unsurlar, fiil, fail, nesne, yer tamlayıcısı ve zarf’tır. Yani cümlede fiil ile onun gerektirdi i unsurlar bulunur. Hükmün geni li ine göre cümlede, cümle unsurlarından biri, bir kaçı veya hepsi bulunur. Fiil ve fail cümlenin esas unsurları, nesne, zarf ve yer tamlayıcısı da cümlenin yardımcı unsurlarıdır. Bir cümlede ancak bir fiil unsuru bulunur. Di er unsurların ise cümlede aynı cinsten bir veya birkaç tanesi bulunabilir. Yani bir cümlede birkaç fail, birkaç nesne, birkaç yer tamlayıcısı ve birkaç zarf bulunabilir. Cümlede bu unsurlardan ba ka bir de ba lama ve ünlem edatları veya ünlem gurupları bulunabilir. Fakat bunlar esas hareketle, fiille ilgili olmayan ve cümleye sadece ilave edilmi durumda bulunan unsurlardır. Genellikle cümlelerin ba larında, sonlarında ve cümleler arasında bulunurlar. Parantez eklinde cümle içine girdikleri de görülür. Bunlara B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 300 cümle dı ı unsurlar denir. Cümle unsurlarının daha geni açıklamaları Bölüm 2.’de Türkçe ba lı ı atında ilgili bir kısım olarak verilmi tir. OSTAD derlemi cümle unsurlarının da ılımını inceleyebilece imiz tek derlemdir. Bilgimiz dahilinde, cümle unsurları i aretli olan ba ka bir Türkçe derlem yoktur. OSTAD derleminde cümle unsurlarının i aretlenmesi için kullanılan kodlar Çizelge 11.1.2.1.’de tablo halinde verilmi tir. Çizelge 11.1.2.1 : OSTAD derleminde cümle unsuru i aretlemesinde kullanılan kodlar. Kod * ABLATIVE.ADJUNCT APPOSITION CLASSIFIER COLLOCATION COORDINATION DATIVE.ADJUNCT DETERMINER ETOL INSTRUMENTAL.ADJUNCT INTENSIFIER LOCATIVE.ADJUNCT MODIFIER Açıklama Cümle unsuru olarak belirlenemeyen yabancı kelimeler Yer isteyen soru kelimelesi (-den hali) ki nokta ile açıklanan kelimeler v.b. isim-isim eklinde tamlamalarda, birinci kelimeye verilen kod Kelime gurubu Ba laç kodu Yer isteyen soru kelimelesi (-e hali) Belirleyiciler (Bu, u v.b.) Birle ik fiil Araç isteyen soru kelimesi (Neyle, nasıl gibi) Vurgulayıcılar Yer isteyen soru kelimelesi (-de hali) Sıfatları adlara, zarfları sıfatlara veya fiillere, ilgi tümcelerini fiillere ve zaman bildiren isimleri fiillere ba layan kod De il kelimesinin kodu Cümlenin nesnesi Belirtili isim tamlamasında tamlayana verilen kod Soru parçacı ı (mı, mi gibi) li kilendiriciler Söylen ba laçları (çünkü, fakat v.b.) Her tümceyi, tümce sonundaki noktalama i aretine ba lar Cümlenin faili/öznesi Seslenme NEGATIVE.PARTICLE OBJECT POSSESSOR QUESTION.PARTICLE RELATIVIZER S.MODIFIER SENTENCE SUBJECT VOCATIVE ndeks terimlerin cümle unsurları üzerine da ılımları, Çizelge 11.1.2.2.’de tablo olarak verilmi tir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 301 Çizelge 11.1.2.2: ndeks terimlerin cümle üzerindeki da ılımı. Cümle Unsuru * Kod indT 0 * 1 Abl 0 1 App 0 1 Clas 0 1 Coll 0 1 Coo 0 1 Dat 0 1 Det 0 Etol 0 Inst 0 1 Ints 0 1 * * ABLATIVE.ADJUNCT ABLATIVE.ADJUNCT APPOSITION APPOSITION CLASSIFIER CLASSIFIER COLLOCATION COLLOCATION COORDINATION COORDINATION DATIVE.ADJUNCT DATIVE.ADJUNCT DETERMINER ETOL INSTRUMENTAL.ADJUNCT INSTRUMENTAL.ADJUNCT INTENSIFIER INTENSIFIER f Unsur LOCATIVE.ADJUNCT 5 0 LOCATIVE.ADJUNCT 54 MODIFIER 67 MODIFIER 24 NEGATIVE.PARTICLE 56 NEGATIVE.PARTICLE 173 OBJECT 598 OBJECT 0 POSSESSOR 6 POSSESSOR 270 QUESTION.PARTICLE 11 RELATIVIZER 133 S.MODIFIER 212 SENTENCE 217 SENTENCE 1 SUBJECT 18 SUBJECT 32 VOCATIVE 162 VOCATIVE 0 Kod indT f 0 169 1 235 Mod 0 2,171 1 387 Neg 0 16 1 0 Obj 0 940 1 1,198 Poss 0 62 1 288 Que 0 2 Rel 0 2 S.M 0 73 Sen 0 895 1 96 Sub 0 233 1 763 Voc 0 4 1 2 Loc Cümle unsurları her zaman tek bir kelimeden olu maz, birden fazla kelimenin bir araya gelmesi ile olu an kelime gurupları, daha do rusu tümceler (Collocation) cümlenin unsurları olabilirler. Dolayısı ile, tek birlik üzerinde in a etti imiz indeks terim kurgusu ile cümle unsurları aynı hesaplama birimine sahip olmadı ı için, yani çekirdek birlik boyutu olarak aynı ölçe e sahip olmadıkları için bir uyumsuzluk söz konusudur. Bu uyumsuzluk, bir cümle unsurunu olu turan birliklerden birisi, indeks terim olarak seçilmi se, o cümle unsuru indeks terim olarak kabul edilerek giderilmi tir. Ayrıca, tahmin edilece i gibi, bir cümle unsurunu olu turan birliklerden birden fazlası da indeks terim olabilmektedir. Bu mesele kelime gurupları incelemesinde ele alınacaktır. Burada yalın bir yakla ım izlemek yeterli görülmü tür. Cümle unsurunun indeks terim olarak frekansı B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 302 hesaplanırken, içerdi i birliklerin indeks terim olanları sayılmı tır. Dolayısı ile, örne in bir cümle unsuru 2 indeks terim içeriyorsa, frekansı 2 olarak hesaplanmı tır. Bir cümle unsuru, sadece tek bir kelime gurubu ile örtü ece i için böyle bir yakla ım yanlı olmamaktadır. Çizelgede, her cümle unsuru kodu için, “kod” sütununda bir de kısa kod atanmı tır. Bu kısa kodlar, istatistiklerin gösterimlerde ekilsel düzeni sa lamak için olu turulmu tur. ekil 11.1.2.1.’de cümle unsurlarının kendi içinde, indeks terim da ılımları çizge olarak betimlenmi tir. 100% 90% 80% 70% 60% 50% 40% 0 Sub Sen S.M Rel Que Obj Poss Neg Mod Loc Inte Inst Det Dat Coo Coll Clas Abl App * 30% 20% 10% 0% Voc 1 ekil 11.1.2.1 : OSTAD derlemi, cümle unsurlarının indeks terim da ılımları. ekilde cümle unsurlarının, indeks terim da ılımları arasında, kendi içinde en tutarlı olan unsur “kelime gurubu” (Coll) olarak i aretlenmi olan birliklerdir. Ancak, OSTAD için hazırlanan kullanım kılavuzunda, kelime gurubu koduna sahip olan birliklerin sonradan bir program yardımı ile tek birli e çevrildi i ve sadece yanlı i aretlenmi olanların kaldı ı söylenmi tir. Dolayısı ile, tutarlılık de erlendirmesinde, kelime gurubu koduna sahip birlikler göz önüne B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 303 alınmamı tır, ancak betimsel istatistiklerden de çıkarılmamı tır. Genel üzerinden, indeks terimlerin cümle unsurları üzerindeki da ılımı da ekil 11.1.2.2.’de verilmi tir. App 1% Abl 2% Clas 15% Sub 19% Dat 5% Sen 2% Inst 1% Poss 7% Loc 6% Mod 10% Obj 30% ekil 11.1.2.2 : OSTAD derleminde indeks terimlerin cümle unsuru da ılımları. Cümle unsurlarının, indeks terim da ılımları hem kendi içinde hem de genel üzerinden toplu de erlendirmesi Çizelge 11.1.2.3.’de verilmi tir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 304 Çizelge 11.1.2.3: OSTAD derlemi, cümle unsuru ve indeks terim için toplu de erlendirme. Kod * Abl App Clas Coll Coo Dat Det Inst Inte Loc 0 1 Top frek 5 0 5 P(Kod|.) 0.00 0.00 0.00 frek 54 67 121 P(Kod|.) 0.01 0.02 0.01 frek 24 56 80 P(Kod|.) 0.00 0.01 0.01 frek 173 598 771 P(Kod|.) 0.03 0.15 0.08 frek 1 5 6 P(Kod|.) 0.00 0.00 0.00 frek 270 11 281 P(Kod|.) 0.05 0.00 0.03 frek 133 212 345 P(Kod|.) 0.02 0.05 0.04 frek 217 0 217 P(Kod|.) 0.04 0.00 0.02 frek 18 32 50 P(Kod|.) 0.00 0.01 0.01 frek 162 0 162 P(Kod|.) 0.03 0.00 0.02 frek 169 235 404 P(Kod|.) 0.03 0.06 0.04 P(ind=0|.) P(ind=1|.) Kod 1.00 0.00 Mod 0.45 0.55 Neg 0.30 0.70 Obj 0.22 0.78 Poss 0.17 0.83 Que 0.96 0.04 Rel 0.39 0.61 S.M 1.00 0.00 Sen 0.36 0.64 Sub 1.00 0.00 Voc 0.42 0.58 0 1 Top frek 2,171 387 2,558 P(Kod|.) 0.39 0.10 0.27 frek 16 0 16 P(Kod|.) 0.00 0.00 0.00 frek 940 1,198 2,138 P(Kod|.) 0.17 0.30 0.22 frek 62 288 350 P(Kod|.) 0.01 0.07 0.04 frek 2 0 2 P(Kod|.) 0.00 0.00 0.00 frek 2 0 2 P(Kod|.) 0.00 0.00 0.00 frek 73 0 73 P(Kod|.) 0.01 0.00 0.01 frek 895 96 991 P(Kod|.) 0.16 0.02 0.10 frek 233 763 996 P(Kod|.) 0.04 0.19 0.10 frek 4 2 6 0.00 0.00 0.00 5,625 3,951 9,575 0.59 0.41 P(Kod|.) Toplam P(ind) P(ind=0|.) P(ind=1|.) 0.85 0.15 1.00 0.00 0.44 0.56 0.18 0.82 1.00 0.00 1.00 0.00 1.00 0.00 0.90 0.10 0.23 0.77 0.67 0.33 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 305 Lahtinen (2000), yaptı ı çalı mada cümle unsurları için ngilizce’de benzer bir yol izlemi tir. Lahtinen çalı masında, cümle unsurlarının kendi içinde indeks terim olu da ılımlarını kullanmı tır. Genel da ılımı, yani indeks terimlerin cümle unsurları üzerindeki da ılımını kullanmamı tır. Not edilmesi gereken bir önemli nokta Lahtinen tarafından yapılan çalı mada da, ngilizce için kendi içinde en yüksek olasılı a sahip cümle unsuru olarak, isim tamlamalarının ilk birli inin bulunmasıdır. kinci unsur, cümlenin faili; üçüncü unsur edat tümlecinde tamlayan22 (complement of preposition) adını verdi i unsur ve dördüncü unsur da nesnedir. 11.1.3. Sözcük Türü ve Cümle Unsuru Ortak De erlendirme Sözcük türünün ve cümle unsurlarının bireysel olarak indeks terim da ılımları kendi içlerinde de erlendirildi, burada birlikte de erlendirmesi yapılacaktır. Birlikte de erlendirme, sözcük türü ve cümle unsurunun birlikte indeks terim da ılımlarıdır. Çizelge 11.1.3.1.’de OSTAD derleminde yapılan elle i aretleme verileri kullanılarak hesaplanmı , sözcük türü ve cümle unsuru belirlenmi ken, indeks terim olma (1) ve olmama (0) olasılıkları, tablo halinde verilmi tir. 22 Lahtinen, edat tümlecinde tamlayan cümle unsuru adını verdi i kelime gurupları için “divorced from ETHICS” örne ini vermi tir. Bu gurubun edatı “from” birli idir. “ETHICS” (töre, ahlak) birli i tamlayandır. “divorced” (bo anma) birli i de tamlanan. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 306 Çizelge 11.1.3.1 : OSTAD derleminde, sözcük türü ve cümle unsuru birlikte indeks terim da ılımı. * Abl App Clas Coll Coo Dat Det Etol Inst Inte indT 0 Adj Adv Conj Det Interj Noun Postp Pron Verb 0.80 1 Loc 0.20 0 0.50 0.44 1.00 1 0.50 0.56 0.00 0 1.00 0.75 1.00 0.21 1.00 1 0.00 0.25 0.00 0.79 0.00 0 0.55 1.00 0.20 1.00 1.00 1 0.45 0.00 0.80 0.00 0.00 0 0.17 1 0 Mod 1.00 0.29 1.00 Que 1 0.50 0.00 0.71 0.00 0 0.00 0.35 1.00 1.00 1 1.00 0.65 0.00 0.00 0 1.00 1.00 1 0.00 0.00 0.00 Rel 1.00 1.00 0.00 0.00 0 0.00 1 1.00 Obj Poss 0.83 0.50 1.00 Neg S.M Sen 0 0.35 1.00 1 0.65 0.00 Sub 0 1.00 1.00 0.00 1.00 1 0.00 0.00 1.00 0.00 Voc indT 0 Adj Noun Postp Pron Verb 0.25 Adv Conj Det Interj 0.42 1.00 1.00 0.00 1 0.75 0.58 0.00 0.00 1.00 0 0.85 0.99 1.00 1.00 0.69 1.00 1.00 0.96 1 0.15 0.01 0.00 0.00 0.31 0.00 0.00 0.04 0 1.00 0.00 1.00 1 0.00 1.00 0.00 0 0.79 1.00 1.00 0.40 1.00 1.00 0.89 1 0.21 0.00 0.00 0.60 0.00 0.00 0.11 0 0.60 0.12 1.00 1 0.40 0.88 0.00 0 0.00 0.00 1.00 0.00 1 1.00 1.00 0.00 1.00 0 1.00 1 0.00 0 1.00 1.00 1.00 1.00 1 0.00 0.00 0.00 0 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0 0.56 1.00 0.18 1.00 1.00 0.80 1 0.44 0.00 0.82 0.00 0.00 0.20 0 1.00 1.00 1.00 0.00 1 0.00 0.00 0.00 1.00 B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 307 11.1.4. Kelime Gurupları OSTAD derlemi, kelime gurupları i aretlenmi bir derlemdir. Derlemde kelime gurupları Türkçe dilbilgisi kuralları dahilinde tespit edilmi tir. BGG sistemlerinde kelime guruplarının kullanımı, genel olarak birlikte gözlenme olasılıkları açısından ele alınmakta ve indeks terim olarak bu biçimde de erlendirilmektedir. Bölüm 2.’de Türkçe bahsinde etraflıca ele aldı ımız kelime gurupları, dilbilgisi kurallarına uygun olan biçimlerdir. BGG sistemlerinde kullanılan halinde, kelimelerin birlikte, ardı ardına belirli bir gözlenme sıklı ından daha fazla görülmeleri esas alınır. Dolayısı ile, örne in derlemde bir kere gözlenen ardı ık kelimeler, kelime gurubu olarak kabul edilmezler. Bölüm 5.3.’de belgelerin BGG sistemlerinde sayısal olarak temsili için kullanılan yordam tanıtılırken, kelime guruplarını tespit için bahsedilen yöntemler tanıtılmı tı. Burada, OSTAD derleminde i aretlenmi kelime guruplarının istatistikleri verilecektir. OSTAD derleminin elle indeks terimleri i aretlenmi kısmında, içerdi i kelime sayısı 2 ile 9 arasında de i en toplam 1060 kelime gurubu vardır. Söz konusu 1060 kelime gurubu, derlem içinde 1150 kez gözlenmi tir. Yani, bir kelime gurubu ortalama 1.08 (1150/1060) kez derlem içinde gözlenmi tir. 1150 gözlemin, 1111’i indeks terim olarak i aretlenmi tir. Yani, herhangi bir kelime gurubunun indeks terim olması ihtimali, yakla ık 0.97’dir. Kelime guruplarının indeks terim da ılımı, içerdikleri kelime sayıları esasında Çizelge 11.1.4.1.’de özet tablo olarak verilmi tir. ndeks terim olu , kelime gurubu esasında de erlendirilmi olup, bireysel kelimelerin indeks terim olup olmadı ı ile ili kilendirilmemi tir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 308 Çizelge 11.1.4.1: OSTAD derleminde, kelime guruplarının indeks terim da ılımları. Kel. Sayı 0 1 Toplam 40 836 876 0.05 0.95 0.448 2 3 0 4 194 0 48 Kel. Sayı 0 1 6 0 6 Toplam 6 0.003 194 0.099 48 7 0 0 8 0 1 0 0.000 0.025 1 5 0 24 6 0 6 0.001 24 9 0.012 0 1 6 Toplam 40 1,111 0.003 P(ind) 0.03 0.97 1 0.001 1,150 Çizelgede görüldü ü gibi, 3 ve yukarısında kelime sayısına sahip olan tüm kelime gurupları indeks terim olarak seçilmi tir. Ancak, içerdi i kelime sayısı 3 ve yukarısında olan birliklerin derlemde birden fazla gözlenenlerinin sayısı yok denecek kadar azdır: 3 kelimeden olu an gurupların toplamı 10 adettir, bunlardan 9 tanesi 2 kere, 1 tanesi 3 kere gözlenmi tir; 4 kelimeden olu an gurupların toplamı 2 adettir, hepsi 2 kere gözlenmi tir; 5 kelimeden olu an gurupların toplamı 2’dir ve hepsi 2 kere gözlenmi tir; 6 kelimeden olu an gurupların toplamı 1’dir ve 2 kere gözlenmi tir; 8 ve 9 kelimeden olu an gurupların iki kere gözleneni ise yoktur. Geleneksel olarak, indeks terim ba lamında kelime gurubu olarak ele alınan ardı ık birliklerde, kelime sayısı ço unlukla 2’dir. Kelime sayısı 3 ve üzeri olan kelime gurupları indeks terim ba lamında ele alınıp incelenmemi tir (Lahtinen, 2000). Tez kapsamında, kelime guruplarının indeks terim ba lamında incelenmesi, 2 kelime ile olu turulan guruplarla sınırlıdır. Kelime guruplarını olu turan kelimelerin sözcük türlerinin olu turdu u B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 309 kombinasyon için indeks terim da ılımları incelenerek, kelime gurupları ile ilgili genel da ılım çalı ması yapılmı tır. çerdi i kelime sayısı 2 olan gurup sayısı 876’dır. Bunlardan, 836’sı indeks terimdir. Bu gurupların içerdi i kelimelerin sözcük türlerinin indeks terim da ılımı Çizelge 11.1.4.2.’de tablo halinde verilmi tir. Çizelge 11.1.4.2 : OSTAD derleminde 2 kelimeden olu an kelime guruplarını, sözcük türü kombinasyonlarının indeks terim da ılımları. SözT1 SözT2 0 1 Toplam 86 6 92 0.935 0.065 Adj Adj 669 178 0.790 0.210 Noun 28 1 0.966 0.034 132 3 0.978 0.022 2 6 0.250 0.750 33 1 Verb Adv Interj Verb Noun Noun Noun SözT1 Adj 847 29 135 8 34 SözT2 Adv Noun Noun Pron Verb Toplam 0 1 Toplam 585 21 606 0.965 0.035 222 3 0.987 0.013 1869 595 0.759 0.241 52 1 0.981 0.019 587 21 0.965 0.035 4265 836 225 2464 53 608 5101 0.9706 0.0294 Çizelge olu turulurken, öncelikle indeks terim olan kelime guruplarının sözcük türü dizilimleri tespit edilmi , daha sonra bu dizilimlerin derlem içinde genel gözlenme sıklıkları bulunmu tur. Bu sayede bir sözcük türü dizilimine ait indeks terim olma olasılı ı elde edilmi tir. Bu yöntemle bulunan olasılıklar, dilbilgisi kurallarına uygun kelime gurupları olasılıklarıdır. BGG sistemlerinde yaygın olarak kullanılan, birlikte gözlenme sıklı ı ile kelime guruplama yönteminden farklıdır. Aslen, bu ekilde kelime gurubu incelemesi, sözcük türlerinde ba lam enformasyonunun de erlendirilmesi demektir. Bir ba ka B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 310 söyleyi le, yine sözcük türlerini esas alan bir indeks terim da ılımı çıkarmaktır. Ancak, bu defa bir sözcük türü kendisinden bir önceki sözcük türü ile ba lam ili kisi de göz önüne alınarak de erlendirilmektedir. Bu durum sözcük türü üzerinde n-gram dil modeli kurulması olarak dü ünülebilir. çerdi i kelime sayısı 2 olan kelime gurubu 2-gram, 3 olan kelime gurubu 3-gram eklinde de erlendirilmektedir. Dolayısı ile, kelime gurubu incelememizden çıkartaca ımız sonuçlar, sözcük türü incelememize ek olarak de erlendirilmelidir, yani sözcük türü incelemesinin ba lam katkısı olarak ele alınmalıdır. Kelime guruplarının, sözcük türü enformasyonunda ba lam katkısı olarak ele alınabilmesi ile ilgili belirtilmesi gereken çok önemli bir art vardır; o da kelime guruplarının ardı ık kelime dizileri olarak kabul edilmesidir. Türkçe için bu art de erlendirildi inde, genel olarak kabullenmenin yanlı oldu u söylenemez. Tabii istisnalar da mevcuttur. Ardı ıklık ve kelime gurupları ile ilgili söylenmesi gereken bir önemli nokta daha vardır. OSTAD derleminde indeks terim olarak i aretlenmi kelime guruplarını olu turan bireysel kelimelerin ço unlu u, kelime esasında indeks terim olarak zaten i aretlenmi olanlardır. Bu durum, BGG sistemlerinde neden kelime gurupları ile çalı manın ba arımı arttırmadı ına bir sebep olarak ele alınabilir. Kelime gurupları genel uygulamada, BGG sistemlerinin tek kelime indeks terim listesine ek olarak alınırlar. Ancak, gurup halinde indeks terim listesinde bulunan kelimeler zaten bireysel olarak listededirler. Kelimelerin yakınlık ili kisi ile olu turulmu gurubun bireysel kelimeleri, e er derlemde sadece kelime gurubu düzeni içerisinde gözlenmi se, yani herhangi bir bireysel kelime gurup düzeni dı ında derlemde gözlenmemi se, indeks terim listesinde tek olarak yer aldı ı zamanki enformasyonu ile, gurup düzeni içinde temsil etti i enformasyonu birbirine e it olur diyebiliriz. Bir ba ka söyleyi le, kelimeler söz konusu gurup hali dı ında kullanılmıyorsa, B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 311 bireysel olarak listelenerek olu turulacak bir indeks terim listesinde, gurup halinde ta ıdıkları enformasyon da içerilir. Örne in, “ ebin Karahisar” gibi bir gurubun, bireysel kelimeleri “ ebin” ve “Karahisar” indeks terim listesinde yer aldı ında, gurubun da listeye alınması, kelime frekansı esasına dayalı yöntemlerle a ırlıklandırma yapılması taktirinde ek bir enformasyon sa lamaz. Dolayısı ile, BGG sistemlerinin ba arımında bir artı beklenemez. Çizelge 11.1.4.2.’de 2 kelimeden olu an kelime guruplarının, sözcük türü dizilerinin verilen indeks terim da ılımı içinde sözcük türü dizilerinin indeks terim olu (1) olasılıkları oldukça dü üktür. Listelenen guruplar, dilbilgisi kuralları ile tutarlı olan dizilimlerdir: “Adj-Adj” için yabancı sermayeli; “Adj-Verb” için kıymetli arkada lardır; “Noun-Pron” için ba bakanlık müste arı'nınki verilebilecek örneklerdir. 11.2. BGG Sistem Ba arımı üzerine ncelemeler. Bir derlem için, derlemi olu turan tüm belgelere ait kelime listesinden, indeks terim olarak seçilecek olanları belirleme ile bir indeks terimin belirli bir belgenin içeri i içinde önemini belirleme aslen farklı i lerdir. BGG sistemleri içinde, indeks terimlerin adaylar (derlemi olu turan tüm kelimeler) arasından belirlenmesi i i sayısal belge temsili (Bölüm 5.3) içinde halledilir. Bir indeks terimin belirli bir metin için önemini belirleme i i, geri-getirim yönteminin asli görevidir. Geri-getirim yöntemleri bu özelliklerinin güçü nispetinde birbirlerinden ayrılırlar. Bir indeks terimin, bir belgenin içeri ine yaptı ı katkının nicel olarak ölçeklendirilmesine, a ırlıklandırma adı verilir. Gerigetirim yöntemlerinin tamamı, kurgularına uygun olarak bir B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 312 a ırlıklandırma yöntemi önerirler. Geleneksel geri-getirim yöntemlerinde yaygın olarak kullanılan a ırlıklandırma yöntemleri Bölüm 6.’da (Geri-Getirim Modelleri) ayrıntılı ekilde tanıtılmı tır. Zipf güç kanunları incelemesinde içerik ve i lev kelimeler adı ile indeks terim belirleme i i BGG sahasında genel geçer olan frekans esasındaki kuramlar üzerinden ele alınmı tı (Bölüm 10). Bu u ra indeks terim belirlemedir. çerik kelimeler olarak adlandırılan kelimeler aslen indeks terimlerdir. lev kelimelerse, sayısal belge temsilinin bir alt süreci olan durma kelimelerinin ayıklanması içinde kullanılan listede yer alacak kelimelerdir. BGG sistemleri, içerik kelimeler, yani indeks terimler bu ekilde belirlendikten sonra, her indeks terimi derlemde terimin gözlendi i her belge ile ili kilendirirler, daha do rusu her belge-indeks terim çifti için sayısal bir a ırlık de eri hesaplarlar. Bu hesaplamaların indeks terimlerin frekanslarına dayalı olanları, Bölüm 7.2.’de verilen Luhn kuramını esas alarak önemi ölçeklendirirler. Yukarıda verilen bakı açısı ve uygulamada izlenen yol, BGG sistemlerinin genel geçer bakı açısı ve yoludur. Ancak, indeks terimlerin seçimi ve öneminin belirlenmesi için bir ba ka bakı açısı daha kullanılabilir. Geleneksel olarak izlenen uygulamadaki yol içinde, seçim ve önem iki bölüt u ra olarak ele alınmaktadır. Aslında, seçim ve önem birbirinden bu denli ba ımsız de ildir. “Belge içeri ine en çok katkıda bulunan kelimeler, indeks terim olarak seçilmelidir” önermesi ba ımsız olmadıklarını açıkça ortaya koymaktadır. Bu önerme, aynı zamanda tüm BGG sistemlerinin ortak hedefidir. Fakat, geleneksel bakı açısında, önemsiz kelimeler bir ön kabullenme ile zaten belgeler incelenmeden önce belirlenmi tir. Yani, yazılı dilin kuralları gere i kullanılması gereken, ancak içeri e katkısı olmadı ı dü ünülen B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 313 kelimeler önemsiz olarak kabul edilir. Durma listeleri bu kelimelerden olu turulur ve her belgeden bu kelimeler ayıklanır. Önemsiz oldu u dü ünülen kelimeler, örne in sözcük türü olarak edatlar olabilir. Bu sözcük türündeki kelimeler gerçekten, dilbilgisi kuralları gere i kullanılır. Ama, “belgenin içeri ine katkısı açısından önemi yoktur” eklinde bir kabullenme, daha belgeler belli de ilken pek do ru olmayabilir. Örne in, bir derlem, dilbilgisi ile ilgili belgelerden olu uyorsa ve edatları anlatan belgeler varsa, BGG sisteminden bir ba arım beklenmesi söz konusu olamaz. Tabii, kabullenme tamamen yanlı tır da denemez. Bu ekilde önceden önemsiz oldu u ba tan kabul edilen kelimeler, frekans yakla ımı içinde yüksek de erlere sahip olanlardır. Zipf güç kanunları incelemesinde, i lev kelimeler bu yüzden belirli bir frekansın üzerinde gözlenme sıklı ına sahip olanlardan olu turulmu tur. Özetleyecek olursak, geleneksel BGG sistemleri içinde indeks terimlerin seçimi açısından önem kavramı, görülme sıklı ı ile izah edilmektedir. Burada kastedilen önem, tabii terimin belge içeri ine yaptı ı katkının büyüklü ü ile orantılıdır. Tanımladı ımız bakı açısından geri-getirim yöntemlerinin önerdi i a ırlıklandırma yöntemleri dü ünüldü ünde, her iki i levi de yerine getirdi i söylenebilir. A ırlıklandırma yöntemi, bir terim ile bir belgeyi önem açısından a ırlıklandırırken, aynı zamanda o terimin indeks terim olarak seçilme a ırlı ını da belirlemektedir. Uygulamada, önemsiz terimlerin, yani i lev kelimelerin ba tan ayıklanması, geri-getirim yönteminin belirleyicili i açısından bir gürültü olu turmasından ve ba arımı dü ürmesinden kaynaklanmaktadır. Deneysel çalı malarda, söz konusu kabullenme yapılmayacaktır, yani ba tan aday kelimeler önemli veya önemsiz eklinde ayrılmayacaktır. Bu sayede, geleneksel uygulamaların izledi i yolun en ba ında kalınacak, daha do rusu hiçbir ön kabullenme olmaksızın ba arımlar ele alınabilecek, dolayısı ile yansız bir de erlendirme sa lanacaktır. Geleneksel bakı açısı kabul B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 314 edilmedi i için, ne durma listesi içindeki kelimeler ayıklanacak, ne gövdeleme yapılacak, ne de bu bakı açısının do rultusunda ba arım sa ladı ı gösterilen ba ka yöntemler devreye alınacaktır. Derlemde gözlenen tüm kelimelere e it ans tanınacak, bu ekilde yalın bir de erlendirme içinde katkı sa lanıp sa lanmadı ı sınanmı olacaktır. Geleneksel bakı açısı do rultusunda katkı sa ladı ı ispatlanmı yöntemlerin kullanılması, yalın de erlendirme sonucu ister olumlu, ister olumsuz olsun üzerine yapılması gereken deneylerdir. Burada sınanmaya çalı ılan, dilbilgisi özelliklerinin en temelde katkı sa layıp sa lamadı ıdır, yani dilbilgisi özelliklerinin ek bir enformasyon ta ıyıp ta ımadı ının belirlenmesidir. Bir bakı açısı içerisinde yer alan yöntemlerle, e er varsa söz konusu ek enformasyonun, ne tür bir ili ki içinde oldu unun ara tırılması bir ba ka u ra tır ve tez kapsamımızın dı ındadır. Tez kapsamında hedefimiz, dilbilgisi özellikleri ile geri-getirim ba arımını arttırmak, yani katkı sa lamaktır. Bir katkı olup olmadı ının anla ılması için, öncelikle geleneksel yöntemlerin Türkçe için yalın olarak ba arımları belirlenecek ve elde edilen en iyi ba arım de eri e ik düzey olarak kabul edilip, dilbilgisi özelliklerinin anlamlı bir de i im yaratıp yaratmadı ı açısından sınanacaktır. 11.2.1. Türkçe için E ik Ba arım Türkçe için ba arım açısından sınanıp, en iyisi e ik de er olarak belirlenecek geri-getirim yöntemleri üç tanedir: Okapi (Robertson and Walker, 2000), Ltu (Buckley et al., 1996), TFxIDF. Ayrıca, kelimelerin sadece görülme sıklıkları, yani tf olarak adlandıraca ımız bir kontrol yöntemimiz de vardır. Dolayısı ile deneysel çalı ma dört geri-getirim B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 315 yöntemi üzerinden gerçekle tirilecektir. Deneysel derlem olarak, OSTAD kullanılacaktır. Geri-getirim yöntemlerinin ba arımlarının sınanması için kullanılacak yöntem, üstel-puanlama’dır (Bölüm 8). Türkçe için sınanacak geri-getirim yöntemlerinin biçimsel ifadeleri, Denklem 11.2.1.1.’de Okapi, Denklem 11.2.1.2.’de Ltu ve Denklem 11.2.1.3.’de TFxIDF olmak üzere verilmi tir. tf 0.5 + 1.5 dl + tf avg _ dl log( (log(tf ) + 1) log( N − df + 0.5 ) df + 0.5 (11.2.1.1) N ) df (11.2.1.2) dl 0.8 + 0.2 avg _ dl tf * log( N ) df (11.2.1.3) Denklemlerde, tf terimi, bir terimin belge içindeki görülme sıklı ını; df terimi bir terimin gözlendi i belge sayısını; dl terimi, belgenin uzunlu u; avg_dl terimi, derlemdeki belgelerin ortalama uzunlu u; N terimi, derlem içindeki toplam belge sayısını temsil etmektedir. Aslen denklemlerde verilen ifadeler, a ırlıklandırma hesaplamalarıdır. Bu hesaplamaların tamamı, vektör uzayı geri-getirim modelini esas almaktadır. Geri-getirim yöntemi olarak da adlandırılmalarının sebebi, a ırlıklandırma hesabının, bir geri-getirim yönteminin özünü olu turmasından kaynaklanır. Okapi ve Ltu, son zamanlarda, ngilizce için yapılan çalı malarda en yüksek ba arımları elde etmi yöntemlerdir. TFxIDF ise, vektör uzayı modelinin bilinen ilk hesaplama yöntemidir. Aslen, Okapi ve Ltu, TFxIDF ifadesinden türetilmi tir. Dayandıkları mantık aynıdır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 316 Söz konusu yöntemlerin, OSTAD derlemi üzerinde deneysel olarak, üstel-puanlama yöntemi ile ba arım sınamasının sonuçları, Çizelge 11.2.1.2.’de tablo halinde, ekil 11.2.1.1.’de ise çizge halinde verilmi tir. Çizelge 11.2.1.2: Geri-getirim yöntemlerinin, OSTAD derlemi üzerinde deneysel olarak, üstel-puanlama yöntemi ile ba arım sınaması sonuçları. Üstel Puan 1.2731 1.2959 1.2763 1.2908 TF TFxIDF Okapi Ltu 1.3000 TFxIDF 1.2950 Ltu 1.2900 1.2850 Üstel Puan 1.2800 Okapi 1.2750 TF 1.2700 ekil 11.2.1.2 : Geri-getirim yöntemlerinin, OSTAD derlemi üzerinde deneysel olarak, üstel-puanlama yöntemi ile ba arım sınaması sonuçları. Alınana sonuçlara göre, TFxIDF yöntemi Türkçe için di er yöntemlerden çok daha yüksek bir ba arım sergilemi tir. Geri-getirim yöntemlerinin üçü de, istatistiksel olarak 0.05 anlamlılık düzeyinde B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 317 birbirlerinden farklıdır (Friedman test istatisti i23, p-de eri 0.04). Ba ta belirtildi i gibi, terimlerin yalın gözlenme sıklıkları ile kontrol için olu turdu umuz tf yöntemi, beklendi i gibi en kötü sonucu vermi tir. Kontrolün amacı, varsa farklılı ın, yani de i imin yönünü tayin edebilmektir. statistiksel farklılık sınamaları, de i imin yönü konusunda bilgi vermezler. Üstel-puanlama yönteminin, ortalama duyarlılık ile oransal sonuçlar verdi i belirtilmi tir, ancak Türkçe için yaratılan farklılı ın iyi yönde oldu unu da garanti altına almak için kontrol yapılmı tır. Sonuç olarak, TFxIDF Türkçe için, deneysel derlemimiz olan OSTAD üzerinde en yüksek ba arımı sa layan yöntem olmu tur. Bu sonuç, ngilizce için alınan sonuçlar ile tezat olu turmaktadır. ngilizce için yapılan sınamalarda, Okapi en iyi ba arımı göstermi , ardından sırasıyla Ltu ve TFxIDF gelmi tir. Bunun sebebi aslında açıktır. Okapi ve Ltu yöntemleri, parametrik yöntemlerdir. Parametreler, ngilizce talim derlemlerinde elde edilen en yüksek ba arım noktalarındaki de erlere e ittir. Dolayısı ile, ba ta ngilizce olmak üzere, talim edildikleri derleme inceltilmi tir. Türkçe için aynı sonuçları vermeleri, beklenen bir durum de ildir. Ancak, Ltu yönteminin Okapi yönteminden daha genellenebilir oldu unu da söylemek gerekir. 11.2.2. ndeks Terim Seçimi ve A ırlıklandırma Bir geri-getirim yöntemi, belge içeri ini temsil açısından terimlere, önemleri ile orantılı olarak a ırlıklandırma yapmayı ba ardı ı miktarda, bir BGG sisteminin ba arımını arttırabilir (Bölüm 23 Friedman istatisti i, parametrik olmayan bir yöntemdir. Aslen 2-yönlü ANOVA parametrik istatisti inin, parametrik olmayan kar ılı ıdır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 318 8.3). Bir ba ka söyleyi le, bir geri-getirim yöntemi belgeler için içeri e katkıda bulunan terimleri, yani indeks terimleri, i lev terimlerden yani, içeri e katkısı olmayan terimleri birbirinden ayırt edebildi i miktarda, BGG sisteminin ba arımını arttırabilir. OSTAD derleminde, seçilen her belge için elle indeks terimler i aretlenmi tir. Dilbilgisi özelliklerinin katkısını ölçmek için, Türkçe için en yüksek geri-getirim ba arımına sahip olan TFxIDF yöntemi ile atanmı a ırlıklar e ik belirleyicilik olarak kullanılacaktır. TFxIDF yöntemi ile indeks terimlerin belirlenebilmesi ile dilbilgisi özellikleri de kullanılarak belirlenmesi arasında anlamlı bir farklılık olup olmadı ına bakılacaktır. Dolayısı ile, ba arım üzerindeki etkisi de aynı zamanda ortaya konmu olacaktır. OSTAD derleminde yapılan söz konusu deneysel çalı malarda, belge yerine paragraflar kullanılmı tır. TFxIDF yöntemi ile a a ıdaki paragraf için hesaplanarak atanmı a ırlıklar Çizelge 11.2.2.1.’de örnek olarak verilmi tir. “AB'ye uyum süreci nedeniyle hazırlanan azınlık cemaatleri vakıflarının mal edinmelerini düzenleyen yönetmelik kapsamına alınmayan Süryani ve Protestanlar isyan etti . Yönetmelikle , sadece Lozan Antla ması'na göre azınlık statüsü tanınan Rumlar , Ermeniler ve Yahudi cemaatlerine mülk edinme hakkı verilmesi tartı ma yarattı . “ B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 319 Çizelge 11.2.2.1 : Örnek paragrafın TFxIDF a ılıkları. Birlik azınlık alınmayan cemaatleri edinmelerini ermeniler isyan lozan protestanlar statüsü süreci vakıflarının yönetmelik yahudi yarattı verilmesi süryani tanınan TFxIDF ind Birlik 14.0741786 1 tartı ma 8.62205182 0 rumlar 8.62205182 1 hazırlanan 8.62205182 0 cemaatlerine 8.62205182 1 ab'ye 8.62205182 1 düzenleyen 8.62205182 1 edinme 8.62205182 1 mülk 8.62205182 0 kapsamına 8.62205182 0 yönetmelikle 8.62205182 1 uyum 8.62205182 1 mal 7.62205182 1 sadece 7.62205182 0 nedeniyle 7.62205182 0 göre 7.62205182 1 ve 7.62205182 0 TFxIDF 7.622051819 7.622051819 7.622051819 7.622051819 7.037089319 7.037089319 7.037089319 7.037089319 6.622051819 6.622051819 6.300123725 5.814696897 5.814696897 5.037089319 4.229734397 3.090472445 ind 1 1 0 1 1 0 0 1 0 1 0 1 0 0 0 0 Çizelge’de örnek paragraf için verilen TFxIDF de erlerinde görüldü ü gibi, örne in “yahudi” ve “ yarattı” terimleri aynı a ırlı a sahiptir. E er TFxIDF mükemmel bir a ırlıklandırma yapıyor olsaydı, tüm indeks terimlerin, a ırlı ın azalan sıralamasında üst kısımlarda; tüm i lev kelimelerde sıralamanın altlarında olması gerekirdi. Aslen “tartı ma yaratmak” birle ik olarak, “tartı ma” ve “yaratma” kelimelerinden önem olarak farklıdır. Paragrafın konusu: azınlık statüsünün Süryaniler ve Protestanlar arasında yarattı ı tartı ma ve isyandır. TFxIDF yöntemi ile atanmı a ırlıkların azalan sırasına göre terimler listelendi inde, söz konusu belge (paragraf) için terimlerin önemlerine göre de azalan bir sıralama yapılmı olmaktadır. Dolayısı ile, 1. sırada listelenen terim en önemli, son sırada listelenen terim de en önemsiz terim olmaktadır. E er bu belge, içindeki her hangi bir B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 320 terim veya terimler için sorgulanacak olursa, belgenin sistem tarafından geri-getirilen sonuç listesinde, verilen bu sıralama ile do ru orantılı olarak di er belgelere göre bir sıralamaya konacaktır. ndeks terimleri, i lev kelimelerinden daha yukarda olan bir belge, genel sonuç listesindeki sıralamada da üst sıralarda olacaktır. Dolayısı ile, BGG sisteminin ba arımı olması gereken ideal noktaya do ru yakınsayacaktır. Yöntemlerin ba arımlarını kar ıla tırmak için, her yöntemin sıralamada indeks terimlerin ne kadar önce listeledi i ölçüt olarak kullanılabilir. Bu tür bir ölçütün sayısal de erleri, Bölüm 8.1.’de anlatılan duyarlılık esasına dayalı olarak elde edilebilir. Belirli bir yöntemin, bir belgenin terimleri için verdi i sıralamada, yukarıdan a a ı inerken kar ıla ılan indeks terim sayısının sıra numarasına oranı bize duyarlılık de erini verecektir. Örnek paragraf üzerinden, TFxIDF ile yapılan a ırlıklandırma sonucunda hesaplanan duyarlılık de erleri Çizelge 11.2.2.2.’de tablo halinde verilmi tir. Çizelge 11.2.2.2: Örnek paragrafın, TFxIDF a ırlıkları üzerinden duyarlılık de erleri. Birlik azınlık alınmayan cemaatleri edinmelerini ermeniler isyan lozan protestanlar statüsü süreci vakıflarının yönetmelik yahudi yarattı verilmesi süryani tanınan TFxIDF ind Sıra 14.0742 1 1 8.6221 0 2 8.6221 1 3 8.6221 0 4 8.6221 1 5 8.6221 1 6 8.6221 1 7 8.6221 1 8 8.6221 0 9 8.6221 0 10 8.6221 1 11 8.6221 1 12 7.6221 1 13 7.6221 0 14 7.6221 0 15 7.6221 1 16 7.6221 0 17 Duy 1.000 0.500 0.667 0.500 0.600 0.667 0.714 0.750 0.667 0.600 0.636 0.667 0.692 0.643 0.600 0.625 0.588 Birlik tartı ma rumlar hazırlanan cemaatlerine ab'ye düzenleyen edinme mülk kapsamına yönetmelikle uyum mal sadece nedeniyle göre ve TFxIDF ind Sıra 7.6221 1 18 7.6221 1 19 7.6221 0 20 7.6221 1 21 7.0371 1 22 7.0371 0 23 7.0371 0 24 7.0371 1 25 6.6221 0 26 6.6221 1 27 6.3001 0 28 5.8147 1 29 5.8147 0 30 5.0371 0 31 4.2297 0 32 3.0905 0 33 Duy 0.611 0.632 0.600 0.619 0.636 0.609 0.583 0.600 0.577 0.593 0.571 0.586 0.567 0.548 0.531 0.515 B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 321 Çizelgede duyarlılık hesabı yapılırken, sıra numarası her terim için bir artarak verilmi tir. Aslen, aynı a ırlıktaki terimlerin e it sıra numaralarına sahip olmaları gerekmektedir. Ancak, aynı a ırlı a sahip terimler de bir ekilde kendi içinde sıralanmak zorundadır. Bu gurup içi sıralama için, TFxIDF bir belirleyicilik sa layamamaktadır. Dolayısı ile, aynı a ırlıkta olan terimler rasgele bir sıraya sahip olabilir. Bizde rasgele bir sıralama seçtik. Bu noktada, Zipf güç kanunları incelemesinde kelime da arcı ını olu turan kelimelerin, derlemde yalnızca bir kez gözlenenlerinin, kelime da arcı ının %50’ye yakınını olu turdu unu bir kez daha hatırlatmak istiyoruz. TFxIDF veya türevi bir a ırlıklandırma yöntemi ile terimler ele alındı ında, bir kez gözlenen terimlerin tamamı aynı sıra numarasına sahip olacaktır. Bu da, derlemdeki belgeleri olu turan kelimelerin yakla ık yarısı konusunda TFxIDF yönteminin belirleyicili i olamayaca ı anlamına gelmektedir. 11.2.3. Dilbilgisi Özelliklerinin Ba arıma Etkisi Türkçe için, dilbilgisi özelliklerinin indeks terimler üzerindeki da ılımları ve indeks terimlerin dilbilgisi üzerindeki da ılımları çıkarılmı tı (Bölüm 11.1). Bu da ılımların BGG sistemlerinin ba arımı üzerindeki etkisi, belge içinde terimleri sıralarken indeks terimleri sıralamada ne kadar önce listeledi i ile ölçülecektir. TFxIDF Türkçe için, kar ıla tırılan yöntemler arasında ba arımı en yüksek olandır. Dolayısı ile, e er indeks terimler dilbilgisi özellikleri ile sa lanan sıralamada, TFxIDF ile sa lanan sıralamadakinden anlamlı düzeylerde önce listeleniyorsa; dilbilgisi özelliklerinin indeks terim seçiminde, dolayısı ile BGG sistemlerinin ba arımları üzerinde, “anlamlı düzeyde katkı olmadı ı” önermesini reddedebilecek istatistiksel delilin, B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 322 elimizdeki derlemden elde edildi i veya elde edilemedi i sonucuna varılacaktır. TFxIDF ile sa lanan sıralama ile, her dilbilgisi özelli i üzerinden sa lanan sıralamalar, istatistiksel olarak anlamlı bir farklılı a sahip olup olmadıkları açısından kar ıla tırılacaktır. Bu iki kar ıla tırmalar için kullanılacak parametrik olmayan istatistik, Wilcoxon i aret testidir. Wilcoxon i aret testi, iki adet ili kili veri kümesinin aynı da ılımdan geldi i hipotezini sorgular. Bizim durumumuzda, iki veri kümesi, TFxIDF ile olu turulan sıralama ve bir dilbilgisi özelli i ile olu turulan sıralamadır. li kili olmalarının sebebi, aynı terim için sıra belirtmelerinden kaynaklanır. Anlamlı farklılık bulmaya çalı tı ımız durum da, dilbilgisi özelli i ile yapılan sıralamada, indeks terimlerin TFxIDF ile yapılan sıralamadakinden daha üstlerde yer almasıdır. Örnek paragraf için verilen çizelgede, yöntemin sıralamasına kar ılık gelen “duyarlıklık” de erleri, sıralamanın indeks terimlere ne kadar duyarlı oldu unu vermektedir. Bir ba ka yöntem ile yapılan sıralamanın duyarlılı ı farklı olacaktır. E er elimizde iki yöntem varsa, bu yöntemlerle önce a ırlıklar atayıp, sıralamalar elde edilirse ve örne in her iki sıralama için duyarlılıklar hesaplanırsa; iki yöntemin duyarlılıkları arasında anlamlı bir farklılık olup olmadı ına, Wilcoxon test istatisti i ile bakılabilir ve hangi yöntemin indeks terimleri sıralamada daha yukarıda topladı ı belirlenebilir. Ancak, bu anlattı ımız senaryo ile, iki yöntemin bir belge üzerindeki sınaması yapılabilir, bir çok belgeden olu an bir derlemde, genel olarak anlamlı bir farklılık olup olmadı ına bakmak için bir uyarlama yapmak gerekir. Uyarlamanın mantı ı öyledir: bir belgede indeks terimlerin ne kadar yukarıda toparlandı ını, e it ölçekte tek bir de ere indirgeyip, belge içinde terimler için yaptı ımız sınamayı, derlem içinde belgeler üzerinde gerçekle tirebiliriz. Her belgenin e it ölçekte, tek bir de er ile B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 323 indeks terimlerini sıralamada ne kadar yukarda kümeledi ini ölçmek için, Bölüm 8.2.’de tanıtılan Rnorm de erleri kullanılabilir. Rnorm ölçütünün özgün tanıtımı, yapılan bir sorgu için sonuç kümesinde alakalı belgelerin ne kadar önce listelendi ini belirleme amacıyla verilmi tir. Bu tanımlama, basitçe elimizdeki duruma benzetilebilir. Bir belgenin içeri ini, temsilde önemi olan kelimeler indeks terimlerdir. E er bir yöntem belge içinde, indeks terimleri sıralamada bir ba ka yöntemden daha yukarıda kümeliyorsa, yani indeks terimlere daha fazla a ırlık atıyorsa, bu yöntemin geri-getirece i sonuç listesinde, söz konusu belge daha üst sıralarda olacaktır. Yani, her belge içinde, bir yöntemle elde edilmi sıralama için, Rnorm de erleri hesaplanır ve bu de erlerle yapılan belge sıralamasının da, belgelerin, indeks terimlerle olu turulabilecek olası tüm sorgulara kar ı, en iyi sıralamasını (Tanım 8.2.1.’de belirtilen olasılık sıralama ilkesi) verdi i kabul edilirse; iki yöntemden belgeler için elde edilecek Rnorm de erleri ile, yine Wilcoxon test istatisti i kullanılarak, bu defa derlem genelinde anlamlı farklılık sınanabilir. Bu tezde, dilbilgisi özellikleri ile olu turulan sıralama ve TFxIDF ile elde edilen sıralamalar, yukarıda anlatıldı ı gibi düzenlenerek derlem genelinde anlamlı farklılık sınamaları yapılmı tır. Dilbilgisi özelliklerinden, sözcük türü ve cümle unsuru hem ayrı olarak hem de birlikte ba arım üzerindeki etkisi açısından de erlendirilecektir. Kelime gurubunun (2 kelimeden olu an guruplar) katkısı ise ayrıca de erlendirilecektir. 11.2.3.1 Sözcük türünün ba arım de erlendirmesi Sözcük türlerinin tek ba ına belge içindeki terimlere atanacak a ırlıklar, sözcük türünün indeks terim olması olasılı ıdır. Özel isim B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 324 sözcük türü de bu de erlendirmeye alınmı tır. TFxIDF için kullandı ımız örnek paragrafa, sözcük türleri ile atanmı a ılıklar ve kar ılık gelen duyarlılık de erleri Çizelge 11.2.3.1.1.’de tablo halinde verilmi tir. Çizelge 11.2.3.1.1 : Örnek paragrafın, sözcük türü ile atanan a ırlıkları üzerinden duyarlılık de erleri. Birlik ab'ye ermeniler lozan protestanlar rumlar süryani yahudi yönetmelik yönetmelikle süreci tartı ma uyum vakıflarının verilmesi statüsü mal mülk SözT A ırlık ind Sıra Noun 1.0000 1 1 Noun 1.0000 1 2 Noun 1.0000 1 3 Noun 1.0000 1 4 Noun 1.0000 1 5 Noun 1.0000 1 6 Adj 1.0000 1 7 Noun 0.6378 1 8 Noun 0.6378 1 9 Noun 0.6378 0 10 Noun 0.6378 1 11 Noun 0.6378 0 12 Noun 0.6378 0 13 Noun 0.6378 0 14 Noun 0.6378 0 15 Noun 0.6378 1 16 Noun 0.6378 1 17 Duy 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 0.90 0.91 0.83 0.77 0.71 0.67 0.69 0.71 Birlik nedeniyle edinmelerini edinme isyan kapsamına azınlık cemaatleri cemaatlerine alınmayan hazırlanan düzenleyen tanınan yarattı sadece göre ve SözT Noun Noun Noun Noun Noun Noun Noun Noun Adj Adj Adj Adj Verb Adv Postp Conj A ırlık ind Sıra 0.6378 0 18 0.6378 0 19 0.6378 0 20 0.6378 0 21 0.6378 0 22 0.6378 1 23 0.6378 0 24 0.6378 0 25 0.1705 0 26 0.1705 0 27 0.1705 0 28 0.1705 0 29 0.0525 0 30 0.0183 0 31 0.0000 0 32 0.0000 0 33 Duy 0.67 0.63 0.60 0.57 0.55 0.57 0.54 0.52 0.50 0.48 0.46 0.45 0.43 0.42 0.41 0.39 Çizelgede, sözcük türü ile atanan a ırlıkların, TFxIDF ile atanan a ırlıklardan daha iyi bir sıralama yaptı ı gözle de görülmektedir. Sözcük türü ile yapılan a ırlık atamasında 1 de eri olanlar, özel isimlerdir. Dolayısı ile, özel isimlerin etkisi oldukça yüksektir. TFxIDF ve sözcük türü ile atanan a ırlıkların, indeks terimleri sıralama içinde kümeledikleri yerler için, derlem genelinde Wilcoxon i aret testi ile yapılan kar ıla tırma sonuçları Çizelge 11.2.3.1.2.’de tablo halinde verilmi tir. B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 325 Çizelge 11.2.3.1.2 : OSTAD derlemi içinde seçilmi belgeler üzerinde, ve sözcük türü TFxIDF a ırlıklandırması a ırlıklandırması ile elde edilen sıralamalar içinde, indeks terimlerin kümelendi i yerlerin kar ıla tırma sonuçları. SözT - TFxIDF (-) Sıralar (+) Sıralar E itlik Toplam N Ortalama Toplam Z 39 76.5513 2985.5000 -14.6673 312 188.4311 58790.5000 43 394 Sig 0.00 Çizelge’de Wilcoxon test istatisti i için elde edilen sonuçlar görülmektedir. Bundan sonraki tüm sonuçlar da benzer ekilde verilece i için, burada tablo detaylı olarak anlatılacak, ilerleyen kısımlarda, sadece sonuçlar yorumlanacaktır. “SözT-TFxIDF” ba lı ı, testin hangi de i kenler arasında gerçekle ti ini belirtir. Testte, iki de i kenin e le tirilmi de erleri (Rnorm) arasındaki farklar bulunur. Tabii, birinci de i ken, yani “SözT” kısaltması ile temsil edilen sözcük türü, için de er, ikinci de i ken, yani “TFxIDF” için de erden büyükse, fark pozitif olaca ından, (+) sıra numaraları elde edilir. E er, tersi ise, (-) negatif sıra de erleri elde edilir. E er, iki de i kenin de erleri, söz konusu belge için e itse, “e itlik” olur. Testte, pozitif olan sıra numaraları, negatif olan sıra numaraları ve e itlik durumları kendi içinde toplanır. “N” sütununda pozitif, negatif ve e it olarak tespit edilen sıra numaralarının sayısı vardır, en alt satırda da, “Toplam” sıra numarası verilmi tir. “Ortalama” sütunu, her üç gurubun kendi içinde sıra numaralarının, mutlak de er toplamları (“Toplam” sütunu) üzerinden ortalamalarını listeler. statistik, mutlak de er toplamı en küçük olan gurup için gerçekle tirilir: bizim durumumuzda (-) farka sahip de erlerin sıra numaraları toplamı en küçük oldu u için, test bu gurup üzerine kurulmu tur. “Z” sütununda, (-) sıra gurubundaki, sıra numaralarının mutlak de er toplamı, standart de er olarak verilmi tir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 326 “Sig” sütunundaki de er, iki yöntemle atanan de erlerin (Rnorm) birbirinden anlamlı olarak farklı olup olmadı ını gösterir. Bu de erin: büyük olması, “farklılı ın olmadı ı” hipotezini reddedecek delilin, deney kümesinden elde edilemedi ini gösterir. Bizim durumumuz için de er 0’dır, yani anlamlılı ın 0.05 düzeyinde, iki yöntem arasında bir farklılık bulunmu tur. Dolayısı ile, deneysel derlemimiz için, sözcük türü enformasyonu esasında bir BGG sisteminin ba arımı ile TFxIDF esasında bir BGG sisteminin ba arımlarının e it olaca ı hipotezini reddedebilecek kadar delil vardır sonucuna varıyoruz. Yarıca, pozitif (+) guruba dahil olan sıra numaralarının mutlak de er toplamlarının, negatif (-) guruba dahil olan sıra numaralarının mutlak de er toplamından büyük olması sebebiyle, farklılı ın, sözcük türü lehinde oldu una da karar veriyoruz. 11.2.3.2 Cümle unsurlarının ba arım de erlendirmesi Cümle unsuru incelemesinde, sözcük türü için kullandı ımız yöntemin benzeri kullanılacaktır. Bu defa, sözcük türü yerine cümle unsurunun indeks terim da ılımları a ırlık olarak kabul edilecektir. Örnek paragrafın cümle unsurları ile atanmı a ılıklar ve kar ılık gelen anma ve duyarlılık de erleri Çizelge 11.2.3.2.1.’de tablo halinde verilmi tir. B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 327 Çizelge 11.2.3.2.1: Örnek paragrafın, cümle unsurları ile atanan a ırlıkları üzerinden duyarlılık de erleri. Birlik azınlık mülk uyum yahudi yönetmelik verilmesi vakıflarının süryani rumlar statüsü protestanlar edinme cemaatlerine kapsamına ab'ye lozan mal CümU A ırlık ind Sıra Clas 0.7782 1 1 Clas 0.7782 1 2 Clas 0.7782 0 3 Clas 0.7782 1 4 Clas 0.7782 1 5 Sub 0.7671 0 6 Sub 0.7671 0 7 Sub 0.7671 1 8 Sub 0.7671 1 9 Sub 0.7671 0 10 Sub 0.7671 1 11 Sub 0.7671 0 12 Dat 0.6116 0 13 Dat 0.6116 0 14 Dat 0.6116 1 15 Obj 0.5622 1 16 Obj 0.5622 1 17 Duy 1.00 1.00 0.67 0.75 0.80 0.67 0.57 0.63 0.67 0.60 0.64 0.58 0.54 0.50 0.53 0.56 0.59 Birlik edinmelerini ermeniler tartı ma tanınan süreci sadece yönetmelikle göre düzenleyen cemaatleri nedeniyle hazırlanan alınmayan isyan yarattı ve CümU A ırlık ind Sıra Obj 0.5622 0 18 Obj 0.5622 1 19 Obj 0.5622 1 20 Mod 0.1517 0 21 Mod 0.1517 0 22 Mod 0.1517 0 23 Mod 0.1517 1 24 Mod 0.1517 0 25 Mod 0.1517 0 26 Mod 0.1517 0 27 Mod 0.1517 0 28 Mod 0.1517 0 29 Mod 0.1517 0 30 Sen 0.0959 0 31 Sen 0.0959 0 32 Coo 0.0391 0 33 Duy 0.56 0.58 0.60 0.57 0.55 0.52 0.54 0.52 0.50 0.48 0.46 0.45 0.43 0.42 0.41 0.39 TFxIDF ve cümle unsuru ile atanan a ırlıkların, indeks terimleri, sıralama içinde kümeledikleri yerler için, derlem genelinde Wilcoxon i aret testi ile yapılan kar ıla tırma sonuçları da, Çizelge 11.2.3.2.2.’de tablo halinde verilmi tir. Çizelge 11.2.3.2.2 : OSTAD derlemi içinde seçilmi belgeler üzerinde, TFxIDF a ırlıklandırması ve cümle unsuru a ırlıklandırması ile elde edilen sıralamalar içinde, indeks terimlerin kümelendi i yerlerin kar ıla tırma sonuçları. CümU - TFxIDF (-) Sıralar (+) Sıralar E itlik Toplam N Ortalama Toplam Z Sig 45 100.4556 4520.5000 -13.8936 0.00 307 187.6466 57607.5000 42 394 “Sig” de eri 0’dır, yani anlamlılı ın 0.05 düzeyinde, cümle unsuru ile TFxIDF arasında, bir farklılık bulunmu tur. Dolayısı ile, deneysel derlemimiz için, cümle unsuru enformasyonu esasında bir B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 328 BGG sisteminin ba arımı ile TFxIDF esasında bir BGG sisteminin ba arımlarının e it olaca ı hipotezini reddedebilecek kadar delil vardır sonucuna varıyoruz. Ayrıca, pozitif (+) guruba dahil olan sıra numaralarının mutlak de er toplamlarının, negatif (-) guruba dahil olan sıra numaralarının mutlak de er toplamından büyük olması sebebiyle, farklılı ın, cümle unsuru lehinde oldu una da karar veriyoruz. 11.2.3.3 Sözcük türü ve cümle unsuru birlikte de erlendirme Örnek paragrafın cümle unsurları ile atanmı a ılıklar ve kar ılık gelen anma ve duyarlılık de erleri Çizelge 11.2.3.2.1.’de tablo halinde verilmi tir. Çizelge 11.2.3.3.1 : Örnek paragrafın, cümle unsuru ve sözcük türü ile birlikte atanan a ırlıkları üzerinden duyarlılık de erleri. Birlik ab'ye ermeniler lozan protestanlar rumlar süryani yahudi verilmesi vakıflarının statüsü edinme azınlık mülk uyum yönetmelik kapsamına cemaatlerine SözT Noun Noun Noun Noun Noun Noun Adj Noun Noun Noun Noun Noun Noun Noun Noun Noun Noun CU Dat Obj Obj Sub Sub Sub Clas Sub Sub Sub Sub Clas Clas Clas Clas Dat Dat A ırlık ind Sıra 1.0000 1 1 1.0000 1 2 1.0000 1 3 1.0000 1 4 1.0000 1 5 1.0000 1 6 1.0000 1 7 0.8189 0 8 0.8189 0 9 0.8189 0 10 0.8189 0 11 0.8008 1 12 0.8008 1 13 0.8008 0 14 0.8008 1 15 0.6451 0 16 0.6451 0 17 Duy 1.00 1.00 1.00 1.00 1.00 1.00 1.00 0.88 0.78 0.70 0.64 0.67 0.69 0.64 0.67 0.63 0.59 Birlik edinmelerini mal tartı ma isyan nedeniyle cemaatleri süreci yönetmelikle tanınan düzenleyen hazırlanan alınmayan yarattı sadece ve göre SözT Noun Noun Noun Noun Noun Noun Noun Noun Adj Adj Adj Adj Verb Adv Conj Postp CU Obj Obj Obj Sen Mod Mod Mod Mod Mod Mod Mod Mod Sen Mod Coo Mod A ırlık ind Sıra 0.5999 0 18 0.5999 1 19 0.5999 1 20 0.3576 0 21 0.3097 0 22 0.3097 0 23 0.3097 0 24 0.3097 1 25 0.1543 0 26 0.1543 0 27 0.1543 0 28 0.1543 0 29 0.0486 0 30 0.0144 0 31 0.0000 0 32 0.0000 0 33 Duy 0.56 0.58 0.60 0.57 0.55 0.52 0.50 0.52 0.50 0.48 0.46 0.45 0.43 0.42 0.41 0.39 TFxIDF ile atanan a ırlıklar ile sözcük türü ve cümle unsuru ile atanan a ırlıkların, indeks terimleri, sıralama içinde kümeledikleri yerler için, derlem genelinde Wilcoxon i aret testi ile yapılan B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 329 kar ıla tırma sonuçları da, Çizelge 11.2.3.3.2.’de tablo halinde verilmi tir. Çizelge 11.2.3.3.2 : OSTAD derlemi içinde seçilmi belgeler üzerinde, TFxIDF ile sözcük türü ve cümle unsuru birlikte, yapılan a ırlıklandırma ile elde edilen sıralamalar içinde, indeks terimlerin kümelendi i yerlerin kar ıla tırma sonuçları. SözCüm - TFxIDF (-) Sıralar (+) Sıralar E itlik Toplam N 13 342 39 394 Ortalama Toplam Z Sig 89.0769 1158.0000 -15.7303 0.00 181.3801 62032.0000 “Sig” de eri 0’dır, yani anlamlılı ın 0.05 düzeyinde, sözcük türü ve cümle unsurunun birlikte kullanılması ile TFxIDF arasında bir farklılık bulunmu tur. Dolayısı ile, deneysel derlemimiz için, sözcük türü ve cümle unsurunun birlikte kullanılmasından elde edilen enformasyon esasında bir BGG sisteminin ba arımı ile TFxIDF esasında bir BGG sisteminin ba arımlarının e it olaca ı hipotezini reddedebilecek kadar delil vardır, sonucuna varıyoruz. Ayrıca, pozitif (+) guruba dahil olan sıra numaralarının mutlak de er toplamlarının, negatif (-) guruba dahil olan sıra numaralarının mutlak de er toplamından büyük olması sebebiyle, farklılı ın, cümle unsuru lehinde oldu una da karar veriyoruz. 11.2.3.4 Kelime guruplarının de erlendirilmesi Kelime gurupları üzerine genel indeks terim da ılımları incelenirken belirtti imiz gibi, kelime guruplarını, sözcük türü dizileri olarak ele alıyoruz. Dolayısı ile, tek kelimeden olu mu indeks terim B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 330 listesinde, a ırlıklandırma yöntemine (Okapi, Ltu ve TFxIDF) ek olarak kullanıyoruz. Herhangi bir yöntemle, kelime gurubunu katı tırmak için izlenen yol, seçilebilecek en basit yoldur. Farklı olarak, daha karma ık dil modelleri üzerinde, elbette çalı ılabilir. Ancak, yalın olarak etkiyi aramak tez kapsamımıza aldı ımız hali ile yeterlidir. Kelime gurupları, sözcük dizileri olarak ele alındı ı için, sınanacak yöntemlerde kullanılacak birlikler de uygun ekilde düzenlenmi tir. Örne in, kelime “Türkiye” ise, isim olan sözcük türü, kelimeye kodu olan Noun eklenmi hali ile, yani “NounTürkiye” eklinde de erlendirmeye alınmı tır. Bu 1-gram tanımıdır ve aslen kelime gurubu ifade etmez. Kelime gurubu için, 2-gram kullanılmı tır, yani bir önceki kelimenin sözcük türü, 1-gram ile olu turulan birli in tekrar önüne eklenmi tir. Örne e devam edersek, diyelim ki bir önceki kelime “büyük”, yani söz-dizisi “büyük Türkiye” ise, sıfat olan sözcük türü kodu Adj’de eklenerek, “AdjNounTürkiye” eklinde bir birlik yaratılmı tır. Böylece, kelimenin sözcük türü olmayan yalın hali “Türkiye” için, sadece kendisine ait sözcük türü ile “NounTürkiye” kurulan birlik için ve bir öncesindeki kelimenin de sözcük türü eklenmi hali olan “AdjNounTürkiye” birli i için geri-getirim yöntemlerinin a ırlıklandırma hesapları yapılmı tır. Sözcük türü enformasyonunun katı tırılmasından da anla ılaca ı gibi, aslen bu sınamada, derlemde bulunan birlik sayısı arttırılmı , yani ba lam da hesaba katılarak yöntemlerin ba arımları kar ıla tırılmı tır. Aslen sınadı ımız bu yöntemin, tam bir kelime gurubu sınaması oldu u söylenemez, ancak kelime gurupları olu turma u ra ı, maliyetli bir i oldu u için, “kelime gurubunun etkisi anlamsızdır” genel kanısını yıkmaya çalı manın yanı sıra, yöntemin de basit olması gerekmektedir; Dolayısı ile, bu yolla sınama yapmak her iki durumu da kolladı ı için makul bir seçim olarak gözükmektedir. B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 331 ekil 11.2.3.4.1.’de, olu turulan tüm birlikler için, de erlendirmeye alınan her geri-getirim yönteminin üstel-puanları çizge olarak verilmi tir. 1.3050 1.3000 1.2950 1.2900 TFxIDF Ltu TFxIDF Ltu TFxIDF Ltu 1.2850 1.2800 Okapi Okapi 1.2750 1.2700 TF Okapi TF TF Durum1 Durum2 Durum3 TF 1.2731 1.2734 1.2762 TFxIDF 1.2959 1.2967 1.2982 Okapi 1.2763 1.2743 1.2685 Ltu 1.2908 1.2919 1.2934 1.2650 1.2600 1.2550 1.2500 ekil 11.2.3.4.1 : OSTAD derleminde, kelime guruplarının geri-getirim ba arımı üzerine etki sınamasına ait üstel-puanlar. ekilde, her yöntemin, her birlik çe idi için üstel-puanları hem çizge olarak betimlenmi , hem de tablo olarak listelenmi tir. “Durum1” sütununda, kelimenin kendisinden olu turulan yalın ekli için her yöntemin üstel-puanları; “Durum2” sütununda, kelime ve kendisine ait sözcük türü ile olu turulan birlik için her yöntemin üstel-puanları; “Durum3” sütununda da, kelime, kendisine ait sözcük türü ve bir önceki kelimenin sözcük türü ile olu turulan birlik için her yöntemin üstel-puanları listelenmi tir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 332 ekilden de anla ılabilece i gibi, geleneksel TFxIDF a ırlıklandırması istatistiksel olarak, anlam düzeyi %10 (α=0.10, p=0.08) ile, di er yöntemlerden daha ba arılıdır. Tüm yöntemler de, “Durum” etkisinden ba ımsız olarak, birbirlerinden %5 (α=0.05, p=0.04) anlamlılık düzeyinde farklıdır (Friedman test istatisti i). Hiçbir yöntemin “Durum” de i keni üzerindeki da ılımı, anlamlı düzeyde bir de i iklik göstermemi tir. Bir ba ka söyleyi le, yöntemler kendi içinde, olu turulan üç birlik için anlamlı düzeyde farklılık göstermemi tir. Ancak, çizgede ba lam kullanıldı ında, yani kelime gurubunun tanımladı ımız sözcük türü dizisi eklindeki hali devreye girince, yöntemlerin kendi içinde farklıla ma e iliminde oldu u söylenebilir. Friedman testi ile alınan istatistik de erinin p de erinin %36 olması da, bunu desteklemektedir. Çünkü, de er, %10 oldu u takdirde anlamlı bir farklılık oldu u söylenebilecektir. imdilik, kelime gurupları ile ilgili kararımız “kelime guruplarının, tanımladı ımız ekilde sözcük türü dizisi olarak, yani ba lam etkisi biçiminde kullanılması durumunda, yöntemlerin kendi içinde anlamlı düzeylerde farklılık yaratmadı ı hipotezini, reddedebilecek yeterli kanıtı deneysel derlemimizden elde edemedik” eklinde verilebilir. B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 333 12. SONUÇ Bu tezin amacı, Türkçe yazılı belgeler için, bir bilgi geri-getirim sistemlerinde dilbilgisi özelliklerini, özgün (novel) ve orijinal (original) bir çalı ma sayesinde kullanıma sunmak ve ba arımda mevcudun ötesine geçebilmektir. Özgün ile kastetti imiz, BGG sahasında geleneksel olarak kullanılan mevcut yöntem ve anlayı ların, farklı uygulama alanlarına ta ınması, yani Türkçe üzerine çalı mak; orijinal ile kastetti imizse, sahada genel geçer olan evrensel kabullenmelerin ve bilinenlerin dı ında yeni yöntemler ve bakı açıları ortaya koymaktır. Tezde, söz konusu iki vasfı kar ılamak için, de i ik u ra sahalarının içine giren, bir dizi ara tırma ortaya konmu ve hedefte olan “ba arımda mevcudun ötesine geçme”, hem u ra sahalarının kendi içinde tam olarak, hem de bütünselli e katkıları açısından kısmen sınanmı tır. Yapılan ara tırmaların ve geli tirilen yöntemlerin tamamı, Türkçe odaklı oldu undan ve uyarlama ile kullanılabildi inden, hepsi özgündür. Ancak, hepsi kuramsal ve fikren orijinal yanlar ta ımalarına ra men, aralarında orijinallik derecelendirilebilir. Bu bölümde yapılan çalı maların sonuçları verilirken, orijinallik derecelerine de de inilecektir. Tezin temel kapsamı, bilgi geri-getirim ve hesaplamalı dilbilim sahalarıdır. Uygulamada Türkçe oldu u için, Türkçe dilbilgisi de kapsama, yan unsur olarak dahildir. Geli tirilen yöntemler ve ara tırmalar istatistik/olasılık esasında oldu undan, kapsam bu bakı açısına giren yöntem ve kuramlarla sınırlanmaktadır. Yönelim a ırlık olarak, bilgi geri-getirim sahasına do rudur. Ancak, hesaplamalı dilbilim sahası da, Türkçe dilbilgisi özelliklerinin kullanımı söz konusu oldu u için, bilgi geri-getirim sahasına uygun olarak inceltilmi hali ile, B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 334 geni yer tutmaktadır. Tez kapsamında yapılan çalı malar, yukarıda belirtilen özellikleri ve özet sonuçları ile birlikte, maddeler halinde verilmi tir. 1. Geli tirilen yöntemler: Tez kapsamında, u ra olarak hesaplamalı dilbilim sahasına giren, ancak BGG sistemlerinde kullanılmak üzere uyarlanmı 4 de i ik amaca sahip yöntem geli tirilmi tir. Yöntemlerin tamamı, kelime da arcı ı (sözlük) kullanmamaktadır. Sebebi ise, hesaplamalı dilbilim sahasında genel kabullenme olan ve tez kapsamında incelenip do ru oldu una dair delil bulunamayan, “do al dillerin kelime da arcıklarının kapalı, yani sınırlı oldu u” hipotezidir. Yöntemler, kelime da arcı ının açık, yani sınırsız olaca ı kabullenmesine uygun olarak geli tirilmi tir. 1.1. Türkçe yazılı belgelerin tespiti için bir yöntem önerilmi ve deneysel olarak ba arımı sınanmı tır. Yöntemin orijinal yanı, kelimelerin Türkçe hecelemeye uygunlu una dayalı olarak seçim yapmasıdır. Ayrıca, hiçbir sözlük v.b. liste kullanmamaktadır. ngilizce ve Türkçe olmak üzere, karı ık ekilde olu turulmu derlemlerde, hecelenme oranlarına göre yapılacak ayıklama ile, Türkçe belgelerin ngilizce belgelerden ayırt edilebilece i gösterilmi tir. 1.2. Türkçe yazılı metinlerde, cümle sonunun tespiti için bir yöntem önerilmi ve deneysel olarak ba arımı incelenmi tir. Yöntem istatistik/olasılık esasındadır ve orijinal yanı, Türkçe heceleme ile cümle sonu tespiti yapmasıdır. Ayrıca, hiçbir sözlük v.b. liste kullanmamaktadır. Deneysel olarak kullanılan derlem için, %96,24 ba arım sa lamı tır. 1.3. Türkçe kelimeleri, gövdelemek için bir yöntem önerilmi ve deneysel olarak ba arımı sınanmı tır. Yöntem istatistik/olasılık esasında kurgulanmı tır. Türkçe harflerin çiftlerinden olu an bir liste kullanmaktadır. Dolayısı ile, olu an listenin boyutu sınırlıdır. Yöntem kurgu olarak tümüyle orijinaldir. Deneysel olarak ula ılan ba arım, %95,8’dir. B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 335 1.4. Türkçe kelimelerin sözcük türlerini tespit için bir yöntem ve deneysel olarak sınanmı tır. Yöntem önerilmi istatistik/olasılık esasına dayanmaktadır. Kurgusu gizli Markov zinciri dil modeline dayanmaktadır. Orijinal olan yanı, kelimelerin sözcük türlerini tespit ederken, kelime sonlarından alınan belirli sayıda harf dizisine göre karar vermesidir. Deneysel olarak yapılan çalı malarda ula ılan en iyi sonuç, %85,9’dur. Türkçe için yayınlanan en yüksek ba arım, %93,95’dir (Hakkani-Tür ve arkada ları, 2002). Ancak, yöntem sözlük kullanmakta ve gizli Markov zinciri dil modeline ek olarak kelimelerin biçimbirimsel analizlerine ihtiyaç duymaktadır. Önerdi imiz yöntem, kelime da arcı ı açısından kapalıdır. Ayrıca, biçimbirimsel analize gereksinim duymamaktadır. 2. Genel istatistikler: Türkçe yazılı belgelerden olu turulan derlemlerin, Zipf güç kanunları esasında uyumluluk sınamaları yapılmı tır. Zipf güç kanunlarına uyum, BGG sistemleri için geli tirilen yöntemlerin kuramsal tabanını olu turmaktadır. Ayrıca, Zipf güç kanunları çerçevesinde, Türkçe derlemlerin kelime da arcı ının, boyut olarak incelemesi ve açık/kapalı olu unun sınamaları da gerçekle tirilmi tir. 2.1. Ara tırma kapsamına alınan her derlem için gövde esasında ve kelime esasında tanımlayıcı istatistikler yapılmı tır. 2.2. Her derlem için Zipf ve Mandelbrot ifadelerine uyum sınamaları, hem gövde esasında hem de kelime esasında yapılmı tır. Sınamalar sonucunda, Türkçe için W=1000 parametre de eri olan Mandelbrot ifadesi en iyi uyumu göstermi tir. ngilizce için yapılan aynı çalı mada, Mandelbrot ifadesi ile en iyi uyum sa lanmı , ancak W parametresi 100 de erinde kalmı tır. Mandelbrot, W parametresinin dilin kelime biçimi olarak zenginli ini ölçeklendirdi ini belirtmektedir, dolayısı ile Türkçe, ngilizce’den, kelime biçimi olarak daha zengin çıkmı tır (eklemeli dil olarak, Türkçe için beklenen bir sonuçtur). B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 336 2.3. Türkçe için, kelime da arcı ının yapılan incelemelerinde, boyut olarak, derlem boyutu arttıkça sınırsız ekilde artaca ı, yani açık oldu u, hipotezini çürütecek bir delili elimizdeki derlemlerden elde edilememi tir. Deneysel sınamalarımıza esas te kil eden ölçüt olarak, Zipf birinci kanun ifadesindeki do rusal uyumun e imi kullanılmı tır. Kelime da arcı ının açık oldu unu reddedebilmek için, deneysel olarak Zipf birinci kanun ifadesindeki e imin, 1’den küçük olması gerekmektedir, ancak, hiçbir sınamada e im 1’den küçük çıkmamı tır. Alınan bu sonuç, hesaplamalı dilbilim sahasında genel kabulün tersidir. Genel kabul: “do al diller için kelime da arcı ının, derlem boyutu sonsuza giderken kapalı oldu u, yani sabit bir sayıya yakınsayaca ıdır”. Oysa, deneysel sınamalarımızda, böyle yakınsanacak sabit bir sayının oldu una dair delil bulunamamı tır. 2.4. Türkçe için, kelime da arcı ının, derlem boyutu ile üstel bir ili ki ile büyüme gerçekle tirdi i kabul edildi inde, kelime da arcı ının boyutunu hesaplamak için kullanılabilecek, N ρ ifadesindeki katsayısı olarak: gövdeler için ρ g ≈ 0.4441 , kelimeler için ρ ≈ 0.7821 bulunmu tur. fadede, N derlem boyutunu temsil etmektedir. 2.5. Türkçe derlemlerin, kelime da arcıklarının içerdi i kelime biçimlerinin, derlem içinde gözlenme sıklıklarına göre incelemeleri de yapılmı tır. Bu kapsamda, derlem içinde bir kez gözlenen (hapaks kelimeler), iki kere gözlenen, üç kere gözlenen v.b. dü ük frekanslı kelimeler detaylı olarak incelenmi , kelime da arcı ını olu turan kelime biçimlerinin oran olarak tahlilleri yapılmı tır. Kelime da arcı ı içinde, bir kez gözlenen kelimelerin, sayıca oranının: kelime esasında yakla ık %50, iki kere gözlenen kelime biçimleri de eklendi inde oranın %65’e ula tı ı; gövde esasında bir kez gözlenenlerin yakla ık %36,5, iki kere gözlenen gövde biçimleri de eklenince oranın %50’ye ula tı ı tespit edilmi tir. B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 337 2.6. Kelime da arcı ı kapsamında, Zipf ikinci kanunu ele alınmı ve kelime da arcı ını olu turan farklı kelime biçimlerinin, derlemde gözlenme sıklıkları ile orantılı olarak, kelime da arcı ındaki oranlarını hesaplamak için biçimsel ifadeler olu turulmu tur. Kelime biçimlerinin farklı derlem boyutları için, önerilen ifadelerle tahmin edilen de erleri ile gerçekle en de erleri kar ıla tırmalı olarak verilmi tir. 2.7. BGG sistemleri açısından önemli bir konu olan, metin içinde i lev ve içerik olan kelimelerin, birbirlerinden ayırt edilmesi için, Zipf güç kanunları esasında frekansa dayalı bir yöntem hem gövdeler hem de kelimeler için sınanmı ve sonuçları incelenmi tir. BGG sistemlerinde, sayısal belge temsili için, metinlerde yer alan kelimelerin, içeri e katkıları bulunanları seçilmektedir. Bu içeri e katkıda bulunan kelimelere indeks terimler adı verilmekte; belgeler indeks terimlerin bir listesi eklinde temsil edilmektedir. ncelemede, içerik kelime olarak ele alınan yazım birlikleri, indeks terimler olmaktadır. 3. Dilbilgisi özelliklerinin BGG sistemlerinde kullanımı: Tez hedefimizin ana çalı ması, bu kapsam içinde gerçekle mi tir. Dilbilgisi özelli i olarak: sözcük türlerinin (isim, fiil, sıfat v.b.), cümle unsurlarının (fiil, fail/özne, nesne v.b.) ve kelime guruplarının BGG sistemlerinin ba arımları üzerindeki etkileri sınanmı tır. 3.1. Sözcük türlerinin, cümle unsurlarının ve sözcük türü ile cümle unsurları birlikte kullanılarak, elle i aretlenmi indeks terimler üzerindeki olasılık da ılımları çıkartılmı tır. Kelime guruplarının indeks terimler üzerindeki da ılımı da ayrıca verilmi tir. 3.2. ngilizce derlemlerde en yüksek ba arım de erlerine sahip olan TFxIDF, Okapi ve Ltu geri-getirim yöntemleri, Türkçe için, ba arım açısından sınanmı ve TFxIDF yönteminin, OSTAD derlemi üzerinde en iyi sonucu verdi i tespit edilmi tir. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 338 3.3. OSTAD derleminin seçilen kısmı için, sözcük türlerinin indeks terimler üzerindeki olasılık da ılımı kullanılarak, TFxIDF yöntemi ile elde edilen ba arımdan anlamlı düzeyde farklılık sa landı ı, tespit edilmi tir. Sözcük türleri içinde özel isimler, ayrı olarak ele alınmı ve kullanılmı tır. 3.4. OSTAD derleminin seçilen kısmı için, cümle unsurlarının indeks terimler üzerindeki olasılık da ılımı kullanılarak, TFxIDF yöntemi ile elde edilen ba arımdan anlamlı düzeyde farklılık sa landı ı, tespit edilmi tir. 3.5. OSTAD derleminin seçilen kısmı için, sözcük türlerinin ve cümle unsurlarının, indeks terimler üzerindeki birle ik olasılık da ılımı kullanılarak, TFxIDF yöntemi ile elde edilen ba arımdan anlamlı düzeyde farklılık sa landı ı, tespit edilmi tir. 3.6. OSTAD derleminin seçilen kısmı için, kelime gurubu olarak sadece 2 kelimeden olu anlar üzerinde bir inceleme yapılmı tır. ncelemede, kelime gurupları, harf birlikleri dizisi olarak ele alınmamı , harf birliklerine kar ılık gelen sözcük türleri de erlendirilmi tir. Bu sayede, kelime gurubunun, sözcük türleri üzerinden, yalın ekilde ba lam enformasyonu ile temsili sa lanmı tır. Deneysel sınanmalar için, sözcük türleri, kelimelerin önlerine basitçe eklenmi ve frekanslar yeni birlikler için tekrar olu turulmu tur. Olu turulan yeni birlikler için TFxIDF, Okapi ve Ltu geri-getirim yöntemleri ile a ırlıklar hesaplanmı tır. Sınama sonucunda, üç geri-getirim yönteminin de, aynı ba arıma sahip oldu u hipotezini çürütecek, delil bulunamamı tır. Tez kapsamında yapılan çalı malardan çıkan özet sonuçlar öyledir: 1-) Hesaplamalı dilbilim sahasında genel kanı olan kapalı, yani boyut olarak sınırlı kelime da arcı ını destekleyecek delil Türkçe için derlemlerimizde bulunamamı tır. 2-) Hesaplamalı dilbilim yöntemlerinde, genel kurgu içinde sözlük kullanımı gerektiren u ra ları için, Türkçe’nin kendine özgü kuralları sayesinde, sözlük kullanmaya B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 339 ihtiyaç duymayacak e leniklerinin yapılabilece i gösterilmi tir. 3-) BGG sahasında, yaygın kanı olan, dilbilgisi özelliklerinin geri-getirim ba arımına anlamlı katkısı olmadı ına dair görü ün aksi yönünde, OSTAD derlemi üzerinde yapılan çalı malarla delil verilmi tir. Sözcük türü ve cümle unsuru enformasyonunun, indeks terimler üzerindeki olasılık da ılımı ile, ba arımda anlamlı farklılık yaratıldı ı tespit edilmi tir. 4-) Zipf güç kanunları esasında, Türkçe derlemlerin çe itli da ılım özellikleri belirlenmi , kelime da arcıklarının kapalı/açık olu u konusu irdelenmi ve hem kelime da arcı ı boyutu için hem de kelime biçimlerinin da arcık içindeki sayılarını tahmin için derlemde gözlenme sıklıklarını esas alan, hesaplama ifadeleri verilmi tir. Listelenen lehte çalı maların yanı sıra, Türkçe kelimelerin sözcük türleri için önerilen yöntem, kabul edilebilir ba arım sınırları (%90%95) içinde de ildir. Ancak, yöntemin verilen hali ile dahi, önerimin olabilirli i için yeterli kanıt oldu u ve üzerinde daha fazla çalı ma yapılması gerekli ine inanıyoruz. Kelime gurupları ile yapılan çalı mada aynı ekilde, olumsuz sonuç vermi tir. Bu konuda da, ara tırmanın derinle tirilerek yapılması ile müspet sonuçlara çıkılabilece i konusunda, zayıfta olsa delillerimiz mevcuttur. 340 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 341 13. GEL M NOKTALARI VE TARTI MA Bu tezin hedefi olan BGG sistemlerinde dilbilim özelliklerinin (sözcük türü ve cümle unsuru) kullanımı ile geri-getirim ba arımının anlamlı düzeyde arttırılması Türkçe için ba arılmı tır. Aynı ba lamda, Türkçe ile yapısal olarak benzerlik gösteren di er diller için, örne in Fince veya Macarca’da da aynı ba arımların sa lanabilece i güdüsü ile ara tırma yoluna gidilebilir. Ayrıca, kelime guruplarında istatistiksel olarak anlamlı bir ba arım artı ı olmadı ı sonucuna çıkmamıza ra men, kelime guruplarının önerdi imiz ekli ile ele alınmasının dı ında, ba ka kurgularla ba arım artı ı sa lanaca ı dü ünülmektedir. Hesaplamalı dilbilim sahasındaki u ra konularının içerisinde, önerdi imiz dört yöntemden biri olan, sözcük türü tespiti için ba arım kabul edilebilir düzeylerde gerçekle memi tir. Elde etti imiz %85 ba arımın ba lam kullanımı ile elde edilmesi, yakla ımın tartı ılabilir oldu unu ancak geli tirilmesi gereklili ini ortaya koymaktadır. Geli im için iki yön önerilmektedir: 1-) Kullanılan olasılık yumu atma yöntemi olan Kneser ve Ney metodunun Türkçe için yeniden uyarlanması ve/veya yeni bir yumu atma yöntemi geli tirmek; 2-) Sondan alınan birlikler üzerinde dilbilgisi kurallarına dayalı bir düzenleme yapılması (örne in, “?dır, ?dir, ?dur, ?dür” gibi dört farklı birli in tek bir üst birlikte toplanması), yani sondan alınan birliklerin da ılımlarının, deneysel olasılıklarına, daha do rusu gerçek yakınsamasının dilbilimsel özellikler ile desteklenmesi. olasılıklarına Dilbilimsel özellikler ile izah edilen de i imin, BGG ba arımı açısından anlamlı olup olmadı ı, kullanılıp kullanılmaması gereklili i, uygulamalar açısından tam çözümlenmemi bir meseledir. Örne in bir B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 342 geri-getirim yöntemi içerisinde, söz gelimi vektör uzayı modelinde, bir vektör (frekans de i imi), di er vektörün (dilbilgisi özellikleri ile tespit edilen de i im) tam ters yönünde meydana gelebilir ve sonuç olarak uygulamada da çok büyük bir ba arım dü ü üne sebep olabilir. Söz konusu durum istatistiksel olarak tespit edilebilir bir konudur. Örne in, dilbilgisi özellikleri ve bilinen tüm yöntemler birer de i ken olarak kabul edilip, toplam de i ime katkıları açısından do rusal regrasyon yöntemi ile bütün olarak de erlendirilebilir, yani bireysel olarak tüm de i kenlerin kar ılıklı etkile imleri ve uygulamada toplam ba arıma katkıları ölçülebilir. Zipf kanunları çerçevesinde yazılı Türkçe için yapılan tanımlayıcı istatistikler, Türkçe’de gövdelerin bugün mevcut olan kuramlar esasında, ngilizce gibi analitik diller için geli tirilen geri-getirim yöntemlerine daha uygun oldu unu göstermi tir. Dolayısı ile, Türkçe için bilgi geri-getirim sistemlerinin tasarımlarında iki seçenek ortaya çıkmaktadır: 1-) E er analitik diller için geli tirilen yöntemler kullanılacaksa, Türkçe için kelimelerin yazılı ekli yerine, gövdelerin kullanılması, 2-) Kelimeler kullanılacaksa, geri-getirim yöntemlerinin Türkçe kelimelerin, Zipf kanunları çerçevesinde bu tezde de incelenen da ılımları göz önüne alınarak uyarlanması. Dilbilgisi özelliklerinin, kelimeler esasında geri-getirim ba arımını arttırdı ı bu tez ile gösterilmi tir. Ancak, gövdeler esasında bir inceleme yapılmamı tır. Aynı zamanda, yaptı ımız çalı mada dilbilgisi özellikleri, geleneksel yöntemlerle yer de i tirilerek, yani geleneksel yöntemlerin yerine kullanılmı tır. Dilbilgisi özellikleri ve geleneksel yöntemlerin bir melezi olu turularak ba arımların sınanması da mümkündür. Tüm çalı malarımızın ı ı ı altında, Türkçe için daha çok çalı ma yapılmasının gerekli oldu unu belirtmemiz gerekir. Örne in, yazılı B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 343 Türkçe için tek biçimbirimsel analiz kurgusu ve uygulaması olan, Kemal Oflazer tarafından geli tirilen biçimbirim analizcisi dı ında da çalı malara ihtiyaç vardır. Her dilbilim uygulaması kendine has özellikler ve artlar ortaya koymaktadır, tekbir yöntemin tüm ihtiyaçları kar ılaması beklenemez. Dolayısı ile, genelde her uygulamaya uyarlanabilir soyut bir kurguya sahip, özelde de bilgi geri-getirim sahasına uygun bir biçimbirim analiz yönteminin geli tirilmesi gerekmektedir. Hesaplamalı dilbilim sahası içerisinde geli tirdi imiz, gövdeleme ve sözcük türü tespit yöntemleri biçimbirim analizine gereksinim duymayacak ekilde tasarlanmı tır. Bunun bir sebebi mevcut biçimbirim analizinin bilgi geri-getirim için çok pahalı olmasıdır. Ancak biçimbirim analizi, bütünsel dilbilim analizleri için ön arttır; her zaman, bu tezde gerçekle tirdi imiz ekilde, dilbilgisi özelliklerinin tek ba ına ve ba ımsız belirlenmesi uygun olmayabilir. Bu çalı manın Türkçe üzerine yaptı ımız, yapaca ımız ve yapılacak ara tırma çalı maları için topluca bir de erlendirme, genel üzerinden bir güdüleme sa layaca ı ümit edilmektedir. Dünyanın mevcut gidi atı do rultusunda, sayısal ortamda yeterince temsil edilmeyen, daha do rusu hesaplamalı yöntemler açısından yeterince geli tirilmeyen ve üzerinde çalı ılmayan dillerin, gelecekte yok olaca ı görü ündeyiz. Çünkü, bir dili canlı ve ileti imde kullanı lı yapan ey, ki iler arasında iletilmek istenen enformasyonu, temsil etmedeki gücü ve söz konusu dil üzerinden ileti im kuran ki ilerin sayıca çoklu udur. Gelece in küresel ileti im aracı, nternet veya bir türevi olacaktır. Ancak, kesin olan udur ki, alt yapısı hesaplama temelinde kalacaktır. Dolayısı ile, Türkçe’nin sayısal ortamda, hesaplama yönünden eksiksiz temsili çok önemlidir. Bu yönde yapılacak her çalı manın, bizi bir adım daha gelece e ta ıdı ı unutulmamalıdır. 344 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 345 TÜRKÇE- NG L ZCE TER MLER SÖZLÜ Ü Terim ngilizce Kar ılı ı Anlam Semantic Bakı -açısal Pragmatic Belge (Doküman) Document Belge Özetleme Document Summerization Biçim-bilim Morphology Bilgi Knowledge Bilgi/Haber Geri-Getirim Information Retrieval Derlem Corpus Dil Modeli Language Model Dilbilim Linguistics Dura an Stationary Düzenli deyim Regular Expression Düzenli deyim dilbilgisi Regular Expression Grammar Düzensizlik/belirsizlik (Çeli ki) Entropy Enformasyon Özümseme Information Extraction B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 346 En-yüksek Düzensizlik Maximum Entropy Ergodik Ergodic E -anlamlılar Sözlü ü Thesaurus E siz Sayılara Ayrı tırma Singular Value Decomposition Gizli Anlam ndeksleme Latent Semantic Indexing Gövdeleme Stemming Göz-atma Browse Haber (enformasyon) Information Hesaplamalı Dilbilim Computational Linguistics ndeks Terimler Index Terms stikrarsızlık (Karı ıklık/ a kınlık) Perplexity Karar A acı Esaslı Sınıflandırıcı Decision Tree Classifier Kar ılıklı Mutual Kelime Da arcı ı Vocabulary Konu ma-algılama Speech Recognition Konu ma-harmanlama Speech Synthesis Kümeleme Clustering B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 347 Kural Tabanlı/Esaslı Rule Based Makine Çevirisi Machine Translation Makine Ö renimi Machine Learning Melez Hybrid Metin Hizalama Text Alignment Öz (Özgül, özgün) Self Saklı Markov Modeli Hidden Markov Model (HMM) Saklı Markov Zinciri Hidden Markov Chain Sayısal/Mantıksal Belge Görüntüsü Document Logical View Ses-bilim Phonology Seyrek veri Sparse Data Silsile Stochastic Simge/Birlik Token Simgele tirme/Birle tirme Tokenization Sinir A ı (Yapay Sinir A ı) Neural Network Sistem (Dizge) System Sonlu Durum Makinesi Finite State Machine B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 348 Sonuç-çıkarma a ı Inference Network Sorgu Geni letme Query Expansion Söylev Discourse Sözcük/kelime türü Part-of-Speech (POS) Sözcük/kelime türü i aretleme Part-of-Speech Tagging Sözdizimsel Çözümleme Syntactic Parsing Sözlük-bilim Lexicology Ta ma Burstness Temel Bile en ncelemesi Principle Component Analysis Vekil yazılım Software Agent Veri Data Yayılım Çizimi Scatter Plot B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 349 KAYNAKLAR Allan, J. (editor), Aslam, J, Belkin, N., Buckley, C., Callan, J., Croft, B. (editor), Dumais, S., Fuhr, N., Harman, D., Harper, D.J., Hiemstra, D., Hofmann, T., Hovy, E., Kraaij, W., Lafferty, J., Lavrenko, V., Lewis, D., Liddy, L., Manmatha, R., McCallum, A., Ponte, J., Prager, J, Radev, R., Resnik, P., Robertson, S., Rosenfeld, R., Roukos, S., Sanderson, M., Schwartz, R., Singhal, A., Smeaton, A., Turtle, H., Voorhees, E., Weischedel, R., Xu, J., Zhai, C., 2003, Challenges in Information Retrieval and Language Modeling, SIGIR Forum 37(1). Aberdeen, J., Burger, J., Day, D., Hirschman, L., Robinson, P. and Vilain, M., 1995, Mitre: Description of the alembic system used for muc-6, In The Proceedings of the Sixth Message Under-standing Conference (MUC-6), Columbia, Maryland. Morgan Kaufmann. Aduriz, I. Alegria, J.M. Arriola, X. Artola, A. Diaz de Illarraza, N. Gojenola, E.K. and Maritxalar. M., 1995, Different issues in design of a lemmatizer/tagger for Basque. In SIGDAT-95 (EACL-95 workshop). Atalay, N.B., Oflazer, K. and Say, B., 2003, The annotation process in the Turkish Treebank, in Proceedings of the EACL Workshop on Linguistically Interpreted Corpora - LINC, Budapest, Hungary. Baayen, R.H., 1996, The effect of lexical specialization on the growth curve of the vocabulary. Computational Lingusitics, 22, pp.455-480. Baayen, R.H., 2001, Word patterns and story shapes: the statistical analysis of narrative style. Literary and Linguistic Computing 2, pp.61-70. Baeza-Yates, R. and Ribeiro-Neto, B., 1999, Modern Information Retrieval. 2nd edn. Addison-Wesley, England. Barton, G. E., 1986, Computational complexity in two-level morphology. In ACL Proceedings, 24th Annual Meeting. Baker, J. K., 1975, Stochastic modeling for automatic speech understanding. In D. Raj Reddy (eds.), Speech Recognition: Invited papers presented at the 1974 IEEE symposium, New York: Academic Press. Reprinted in (Waibel and Lee 1990), pp.297-307. 350 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 Berghel, H., 1997, Cyberspace 2000: Dealing with Information Overload, Communications of the ACM, 40(2): 19–24. Birtürk, A., 1998, Türkçenin yönetim ve ba lama kuramı yakla ımı ile bilgisayarla çözümlenmesi. Doktora. Orta Do u Teknik Üniversitesi, Fen Bilimleri Enstitüsü, Ankara, 168 sayfa. Blair D.C., 1990, Language Representation in Information Retrieval, Elsevier, Amsterdam. Borko, H. and Bernier, L.B., 1978, Indexing concepts and methods,. Academic Press Inc., New York. Brants, T. and Samuelsson, C., 1995, Tagging the Teleman Corpus, In Proceedings of the tenth Nordic Conference of Computational Linguistics. Brants, T., 2000, TnT - a statistical part-of-speech tagger, In Proceedings of the 6th Applied NLP Conference, ANLP-2000, Seattle, WA. Brill, E., 1995a, Transformation-based error driven learning and natural language processing: A case study in part of speech tagging. Computational Linguistics, 21(4):543-566. Brill, E., 1995b Unsupervised learning of disambiguation rules for part of speech tagging. In Proceedings of the Third Workshop on Very Large Corpora, Cambridge, MA. Brin S. and Page, L, 1998, The anatomy of a large-scale hypertextual web search engine Google Search Engine, avalible at (2004): http://dbpubs.stanford.edu:8090. Broglio J., Callan J.P. and Croft W.B., 1994, INQUERY system overview. In Proceedings of the TIPSTER Text Program (Phase I). San Francisco, CA Morgan Kaufmann, pp 47-67. Buckland, M., 1991, Information and Information Systems, Greenwood Press, Westport, USA. B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 351 Buckley, C., Salton, G., Allen, J. and Singhal., A., 1995, Automatic query expansion using SMART: TREC-3. In Harman, Donna K. (editor). Overview of the Third Text REtrieval Conference (TREC-3). NIST Special Publication 500-225, National Institute of Standards and Technology, Gaithersburg, MD, (http://trec.nist.gov/pubs.html), pp.69-80. Buckley, C., Singhal, A. and Mitra, M., 1996, New retrieval approaches using SMART. In D.K. Harman, editor, Proceedings of the Fourth Text Retrieval Conference (TREC-4), Gaithersburg. Burgin, R. and Dillion, M., 1992, Improving disambiguation in FASIT, Journal of the American Society for Information Science. Callan, J.P., Croft. W.B. and Harding., S.M., 1992, The INQUERY retrieval system, in Database and Expert Systems Applications: Proceedings of the International Conference, Valencia Spain, pp. 78-83. Chanod, J.P. and Tapanainen, P., 1995, Tagging French –comparing a statistical and constrained-based method. In EACL-95. Chen, S.F. and Goodman, J., 1998, An empirical study of smoothing techniques for language modeling. Technical Report, TR-10-98, Center for Research in Computing Technology, Harvard University, Cambridge, Massachusetts. Chomsky, N., 1957, Syntactic Structures. The Hague: Mouton. Church, K.W., 1988, A stochastic parts program and a noun phrase parser for unrestricted text, In Proceedings of the Second Conference on Applied Natural Language Processing, Austin, Texas. Cleveland, D.B. and Cleveland, A.D., 1983, Introduction to Indexing and Abstracting, Libraries Unlimited, Inc., Littleton, Colorado. Cole, R (chief ed.), Mariani, J., Uszkoreit, H., Marile, G.B. (man. ed.), Zaanen, A., Zampolli, A. (man. ed.), and Zue, V., 1997, State of the Art of the Human Language Technologies, Cambridge University Press and Giardini, UK. Cover, T.M. and Thomas, J.A., 1991, Elements of Information Theory, John Wiley & Sons, New York. 352 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 Craven, T., 2002, Introduction to Information Retrieval, Lecture Notes, MIT, USA, (unpublished) URL: http://instruct.uwo.ca/mit/026-98/index.htm Croft, W.B., Turtle, H.R. and Lewis, D.D., 1991, The uses of phrases and structured queries in information retrieval, Proceedings of the 14th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 32-45. Cussens, J., Dzeroski, S. and Erjavec, T., 1999, Morphosyntactic tagging of Slovene using Progol, In Dzeroski, S., & Flach, P. (Eds.), Inductive Logic Programming: Proc. of the 9th International Workshop (ILP-99) Bled, Slovenia, Springer-Verlag. Dalkılıç, M.E. and Dalkılıç, G., 2001, Some measurable language characteristics of printed Turkish, Proc. of the XVI International Symposium on Computer and Inf. Sciences, pp. 217-224. Demir, C., 1993, Türkçe için bir ATN grameri. Yüksek Lisans. Bilkent Üniversitesi, Fen Bilimleri Enstitüsü, Ankara, 1993, 94s. Derouault, A.M. and Merialdo, B., 1986, Natural language modeling for phonemeto-text transcriptions. IEEE Transactions on Pattern Analysis and Machine Intelligence (8), pp.649-742. Dermatas, E. and Kokkinakis, G., 1995, Automatic stochastic tagging of natural language texts. Computational Linguistics, 21(2):137-164 DeRose, S., 1988, Grammatical category disambiguation by statistical optimization, Computational Linguistics, 14(1). Ekmekçioglu, F. Ç., Lynch, M. F. and Willett, P., 1996, Stemming and n-gram matching for term conflation in Turkish texts, Information Research, 1(1) Available at: http://informationr.net/ir/2-2/paper13.html Ergin, M., 1999, Türk Dil Bilgisi, Bayrak Yayın/Da ıtım, Fatih, stanbul. Evans, D. and Lefferts, R., 1994, Design and evaluation of the CLARIT-TREC-2 system, In Harman, D., editor, National Institute of Standards and Technology Special Publication No. 500-215 on the The Second TextREtrieval Conference (TREC-2), Washington, DC. National Institute of Standards and Technology, U.S. Department of Commerce, U.S. Government Printing Office. B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 353 Feldweg, H., 1995, Implementation and evaluation of a German HMM for POS disambiguation. In EACL SIGDAT Workshop. Faloutsos, C. and Oard, D.W., 1995, A survey of information retrieval and filtering methods, Technical Report CS-TR-3514, University of Maryland, College Park, MD. Foskett, A.C., 1996, The Subject Approach to Information, Fifth Edition, Library Association Publishing Ltd., London, U.K. Garside, R., 1987a, The CLAWS word-tagging system. In Garside R., Leech, F., and Sampson, G., editors, The Computational Analysis of English. Longman. Garside, R. and Leech, F., 1987b, The UCREL probabilistic parsing system. In Roger Garside, Geoffrey Leech, and Geoffrey Sampson (eds.), The Computational Analysis of English: A Corpus-Based Approach, Longman, London, 66-81. Good, I.J., 1953, The population frequencies of species and the estimation of population parameters. Biometrica, 40(3 and 4), pp. 237-264. Greene, B.B. and Rubin, M. G., 1971, Automated grammatical tagging of English. Department of Linguistics, Brown University. Güngördü, Z., 1993, Türkçe için bir sözcüksel-i levsel gramer. Yüksek Lisans. Bilkent Üniversitesi, Fen Bilimleri Enstitüsü, Ankara, 138 sayfa. Haji , J. and Hladká, B., 1998, Tagging inflective languages: Prediction of morphological categories for rich, structured tag set. In Proceedings of COLLING/ACL’98, Montreal, Canada. Hakkani, D.Z., 1996, Serbest ö e sıralı bir dil olan Türkçe için yüzeysel üretici tasarımı ve gerçekle tirilmesi. Yüksek Lisans. Bilkent Üniversitesi, Fen Bilimleri Enstitüsü, Ankara, 135 sayfa. Hakkani-Tür, D.Z., Oflazer, K. and Tür, G., 2002, Statistical morphological disambiguation for agglutinative languages, Computers and the Humanities. Hankamer, J., 1984, Turkish generative morphology and morphological parsing, In Second International Conference on Turkish Linguistics. Istanbul. 354 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 Herdan, G., 1960, Type-token mathematics. The Hague: Mouton. Hersch, W.R., Elliot, D.L., Hickam, D.H., Wolf, S.L., Molnar, A. and Lechtenstien, C., 1995, Towards new measures of information retrieval evaluation, Proceedings of the 18th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 164170. Hiemstra, D. and de Jong, F., 2001, Statistical language models and information retrieval: natural language processing really meets retrieval, Glot International 5(8), 288-294. Hull D., 1996, Stemming Algorithms: A Case Study for Detailed Evaluation, Journal of theAmerican Society for Information Science, Vol 47(1): 70-84pp. Hull, D.A., Grefenstette, G., Schulze, G.M., Gaussier, E., Schutze, H. and Pedersen, J.O., 1997, Xerox TREC-5 Site Report: Routing, Filtering, NLP, and Spanish Tracks. In Voorhees EllenM. and Donna K. Harman (editors). The Fifth Text Retrieval Conference (TREC-5). NIST Special Publication 500-238, National Institute of Standards and Technology, Gaithersburg, MD, (http://trec.nist.gov/pubs.html), pp. 167-180. Ingwersen, P., 1992, Information Retrieval Interaction. Taylor Graham Publishing, London. Jacobs, P., 1994, GE in TREC-2: Results of a Boolean approximation method for routing and retrieval, In Harman, D., editor, National Institute of Standards and Technology Special Publication No. 500-215 on the The Second Text REtrieval Conference (TREC-2), Washington, DC. National Institute of Standards and Technology, U.S. Department of Commerce, U.S. Government Printing Office. Jacqemin, C. and Royaute, J., 1994, Retrieving terms and their variants in a lexicalized unification-based framework, Proceedings of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 132-141. Jain, S. and Sharma, A., 1993, Probability is more powerful than team for language identification from positive data, Proceedings of the sixth annual conference on Computational learning theory, ACM Press, Santa Cruz, California, pp.192-198. B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 355 Jain, S. and Sharma, A., 1994, On the intrinsic complexity of language identification, Proceedings of the seventh annual conference on Computational learning theory, ACM Press, New Brunswick, New Jersey, pp. 278-286. Jelenic, F. and Mercer, R., 1980, Interpolated estimation of Markov source parameters from sparse data. In Proceedings of the Workshop on Pattern Recognition in Practice, Amsterdam, The Netherlands: North-Holland. Jelenik, F., 1985, Markov source modeling of text generation. In J.K. Skwirzynski (eds.), The Impact of Processing Techniques on Communications, volume E91 of NATO ASI series, Dordrecht: M. Nijhoff, pp.569-598. Jin, R., Faloutsos, C. and Hauptmann, A.G., 2001, Meta-Scoring: Automatically evaluating term weighting schemes in IR without Precision-Recall, In Proceedings of the 24th ACM SIGIR Conference on Research and Development in Information Retrieval, New Orleans, Louisiana. Jones, K.S. and Kay, M., 1973, Linguistics and Information Science, Academic Press, New York. Jones, K.S. and Kay, M., 1976, Linguistics and Information Science: A Postscript, In Donald E. Walker, Hans Karlgren, and Martin Kay (eds.) Natural Language in Information Retrieval – Perspectives and Directives for Research, Skriptor, Stocholm. Jones, K.S., 1999, What is the Role of NLP in Text Retrieval, In Tomek Strzalkowski (ed.), Natural Language Information Retrieval, Kluwer, Boston. Jurafsky D. and Martin J. M., 2000, Speech and Language Processing. PrenticeHall, New Jersey USA. Karlgren, J., 2000, The basics of information retrieval. Swedish institute of Computer Science, Survey, SICS, 49p, (unpublished). Katz, S.M., 1987, Estimation of probabilities from sparse data for the language model component of a speech recognizer. IEEE Transactions on Acoustic, Speech and Signal Processing, ASSP-35(3), pp. 400-401. Kenser, R. and Ney, H., 1995, Improved backing-off for m-gram language modeling. In Proceedings of IEEE International Conference on Acoustic, Speech and Signal Processing, volume 1, pp.181-184. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 356 Klein, S. and Simpson, R. A., 1963 Computational approach to grammatical coding of English words. JACM (10):344-337. Kochen, M., 1983, Library science and information science. Broad or narrow? In Machlup, Fritz and Una Mansfield (editors), The Study of Information. John Wiley & Sons, Inc., New York, pp.371-377. Korfhage R.R., 1997, Information Storage and Retrieval, Wiley, New York, NY. Korkmaz, T., 1996, Sistemik-fonksiyonel gramer yakla ımı ile türkçe metin üretimi. Yüksek Lisans. Bilkent Üniversitesi, Fen Bilimleri Enstitüsü, Ankara, 132 sayfa. Kornai, A., 2002, How many words are there?, Glottometrics (4), pp.61-86. Koskenniemi, K., 1983, Two-level morphology: a general computational model for word-form recognition and production. In, Publications of the Department of General Linguistics, Vol.11. University of Helsinki, Helsinki . Köksal A., 1979, Bilgi Eri im Sorunu ve Bir Belge Dizinleme ve Er im Dizgesi Tasarım ve Gerçekle tirimi, Fen Bilimleri Enstitüsü, Bilgisayar Bilimleri Mühendisli i Anabilim Dalı Doçentlik Tezi, Hacettepe Üniversitesi, Ankara. Krovetz R., 1993, Viewing Morphology as an Inference Process, Proceeding 16th International Conference Research and Development in Information Retrieval, ACM, pp. 191-202. Kupiec, J., 1992, Robust part-of-speech tagging using hidden markov models. Computer Speech and Language, pp.252-242. Kupiek, J. M., 1993, A robust linguistic approach for question answering using an on-line encyclopedia, Proceedings of the 16th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 181-190. Kut, A., Alpkoçak, A. and Özkarahan, E., 1995, Bilgi bulma sistemleri için otomatik Türkçe dizinleme yöntemi. Bili im Bildirileri, Dokuz Eylül Üniversitesi, zmir. B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 357 Lahtinen, T., 2000, Automatic indexing: an approach using an index term corpus and combining linguistic and statistical methods. Phd Thesis, Department of General Linguistics, University of Helsinki, Finland, ISBN 951-45-9639-0. Lancester, F.W., 1968, Information Retrieval Systems: Characteristics, Testing and Evaluation, Wiley Ltd., New York. Lancaster, F.W., 1991, Indexing and abstracting in theory and in practice. Library Association Publishing Ltd., London. Levinger, M., Ornan U. and Itai, A., 1995 Learning morpho-lexical probabilities from an untagged corpus with and application to Hebrew, Computational Linguistics, 21(3):383-404. Lewis, D.D., 1992, An evaluation of phrasal and clustered representations on a text categorization task, Proceedings of the 15th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 37-50. Lewis, D.D. and Spark-Jones, K., 1996, Natural language processing for information retrieval, Communications of the ACM, Vol. 39, No. 1, pp. 92101. Lextek International Inc., 2004, Language Identifier, 1051 E. Fir Ave Provo, UT 84604 USA Tel: 801.375.8332. URL: http://www.languageidentifier.com/ Losee, R. M., 1996, How part-of-speech tags affect text retrieval and filtering performance, Computational Linguistics. Lovins, J.B., 1968, Developing of a Stemming Algorithm. In: Mechanical Translation and Computational Linguistics, Vol. 11, pp22-31. Liddy, E.D. and Myaeng, S.H., 1993, DR-LINK: A system update for TREC-2, In Merchant, R., (ed.), Proceedings of the TIPSTER Text Program Phase I, San Mateo, California. Morgan Kaufmann. Liddy, E.D., 1998, Enhanced text retrieval using natural language processing, Bulletin of the American Society for Information Science, 24(4). Lidstone, G.J., 1920, Note on the general case of the Bayes-Laplace formula for inductive or a posteriori probabilities. Transactions of the Faculty of Actuaries, 8, pp. 182-192. 358 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 Lins, D.R and Gonçalves, P, 2004, Automatic language identification of written texts, Proceedings of the 2004 ACM symposium on Applied computing, pp. 1128-1133. Luhn, H.P., 1958, The automatic creation of literature abstracts. IBM Journal of Research and Development, 2, pp.159-165. Luhn, H.P., 1960, Keyword-in-context index for technical literature (KWIC index), American Documentation 11:288-295. Lyons, J., 1968, Introduction to Theoretical Linguistics, Cambridge University Press, Cambridge, Great Britain. Lyons, J., 1977, Semantics 1, Cambridge University Press, Cambridge, Great Britain. Manning, C.D. and Schütze, H., 2003, Foundations of Statistical Natural Language Processing. The MIT Press, Cambridge, Massachusetts, London, England. Mandelbrot, B., 1952, An information theory of the structure of the language based upon the theory of the statistical matching of messages and coding. In W. Jackson (ed.), Second Symposium on Information Theory, London. Mandelbrot, B., 1961, On the theory of word frequencies and on related markovian models of discourse. In: R. Jackson (ed.), Structure of Language and its Mathematical Aspects, American Mathematical Society, pp.190-219. Marshall, I., 1987, Tag selection using probabilistic methods. In Roger Garside, Geoffery Sampson, and Geoffery Leech (eds.). The Computational Analysis of English: a copusbased approach, Longman, London, pp42-65. Megyesi, B., 1999, Improving Brill’s POS tagger for an agglutinative language. In Pascale Fung and Joe Zhou, (eds.), Proceedings of the Joint SIGDAT Conference on Emperical Methods in Natura Language Processing and Very Large Corpora, Collage Park, Maryland, USA, pp275-284. Mercer, R.L., 1993, Inflectional morphology needs to be authenticated by hand. In Working Notes of AAAI Spring Symposium on Building Lexicons for Machine Translation. Stanford, CA, AAAI Press, pp.91-99. Miller, G.A., 1990, WordNet: An on-line lexical database, International Journal of Lexicography, 3(4). B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 359 Mikheev, A., 1997, Tagging sentence boundaries, Language Technology Group, University of Edinburgh. Mitra, M., Buckley, C., Singhal, A. and Cardie, C., 1997, An analysis of statistical and syntactic phrases. In Proceedings of the RIAO’97, McGill University, Montreal, pp. 200–216. Mizutani, S., (1989), Ohno’s lexical law: Its data adjustment by linear regression. In: S. Mizutani (ed.), Japanese Quantitiative Linguistics, Bachum: Brockmeyer, pp.1-13. Ney, H., Essen, U. and Kneser, R., 1994, On structuring probabilistic dependencies in stochastic language modeling. Computer, Speech and Language, 8, pp.1-38. Oard, D.W., 1997, Cross-language Bibliography, http://citeseer.nj.nec.com/oard97crosslanguage.html. avalible at : Oflazer, K., 1993, Two Level Description of Turkish Morphology. In: Proceedings of EACL’98. Utrecht, the Netherlands. Oflazer, K. and Kuruöz, ., 1994, Tagging and morphological disambiguation of Turkish text. In Proceedings of the fourth Applied Natural Language Processing Conference, ACL, pp144-149 Oflazer, K. and Tür, G., 1996, Combining hand-crafted rules and unsupervised learning in constrained-based morphological disambiguation, In Eric Brill and Kenneth Chuchh (eds.), Proceedings of the ACL-SIGDAT Conference on Emperical Methods in Natural Language Processing. Oflazer, K. and Tür, G., 1997, Morphological disambiguation by voting constraints, In Proceedings of the thirty-fifth Annual Meeting of the Association for Computational Linguistics (ACL’97/EACL’97), Madrid, Spain. Oflazer, K., Say, B., Hakkani-Tür, D. and Tür, G., 2003, Building a Turkish Treebank, Chapter in Building and Using Parsed Corpora, Anne Abeillé (Ed.), Kluwer Academic Publishers. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 360 Orgun M.A., 1985, Gömü-Dili: Çok Dilli Bilgi Eri im Gömülerinin Bilgisayar Ortamında Etkile imli Biçimde Geli tirilmesini Destekleyecek Bir Yazılım Dizgesinin Tasarımı ve Gerçekle tirimi, Fen Bilimleri Enstitüsü, Bilgisayar Bilimleri Mühendisli i Anabilim Dalı Yüksek Mühendislik Tezi, Hacettepe Üniversitesi, Ankara. Palmer, D.D. and Hearst, M.A., 1997, Adaptive multilingual sentence boundary disambiguation, Computational Linguistics. Peshkin, L., and Savova, V., 2004, Part-of-speech tagging with minimal lexicalization, V. Invited chapter in Current Issues in Linguistic Theory (CILT), Publisher: John Benjamins, Amsterdam, Philadelphia. Popovic M. and Willett P., 1992, The Effectiveness of Stemming for Natural Language Access to Slovene Textual Data, Journal of The American Society for Information Science, Vol 43, pp. 384-390. Porter, M.F., 1980 An Algorithm for Suffix Stripping. In: Program, Vol.14, No.3, 130-137. Powers, D.M., 1998, Applications and explanations of Zipf’s laws. In: D. Powers (ed.), NEMLAP3/CONLL98, New methods in language processing and Computational natural language learning, pp.151-160. Ratnaparki, A., 1996, A maximum entropy model for part-of-speech tagging. In Proceedings of EMNLP. Resnik, P., 1999, Mining the Web for bilingual text, Proceedings of the 37th conference on Association for Computational Linguistics, ACM, College Park, Maryland, pp. 527-534. Reynar, J.C. and Ratnaparkhi, A., 1997, A maximum entropy approach to identifying sentence boundaries, In Proceedings of the Fifth A CL Conference on Applied Natural Language Processing (ANLP'97), Washington, D.C. Riley, M.D., 1989, Some applications of tree-based modeling to speech and language indexing, In Proceedings of the DARPA Speech and Natural Language Workshop, pages 339-352. Morgan Kaufman. B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 361 Riloff, E., 1995, Little words can make a big difference for text classification, Proceedings of the 18th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 130-136. Robertson, S.E. and Sparck Jones, K., 1997, Simple, proven approaches to textretrieval. Technical report 356, Computer Laboratory, University of Cambridge. Robertson, S.E. and Walker, S., 2000, Okapi / Keenbow at TREC-8. In Proceedings of the eighth Text Retrieval Conference TREC-8, pp. 151–162, Gaithersburg, NIST Special Publications 500-246. Salton, G., 1971, The SMART Retrieval System Experiments in Automatic Document Processing, Prentice Hall. Salton, G. and Buckley, C., 1988, Term-weighting approaches in automatic text retrieval. Information Processing & Management, vol.24(5), pp.513-523. Salton, G. and McGill, M.J., 1983, Introduction to Modern Information Retrieval, McGraw Hill Publishing Company, New York. Sánchez León, F. and Nieto Serrano, A.F., 1995, Development of a Spanish version of the Xerox tagger, CRATER/WP6/FR1. Samuelsson, C., 1996, Relating Turing’s Formula and Zipf’s Law. Proc. Forth Workshop on Very Large Corpora. Sever, H., Karaka , Ü., Akal, F., Olgun, B. ve Sezer, E., 1997, Ka garlı Mahmut Bilgi Geri-Getirim Sistemi, Teknik Rapor, Devlet Planlama Te kilatı Destek No: 97K121330, Hacettepe Üniversitesi, 157s, (yayınlanmamı ). Sever, H. and Bitirim, Y., 2003, The analysis and evaluation of stemming algorithms for Turkish, 10th International Symposium on String Processing and Information Retrieval (SPIRE'03), Manaus, Brazil, October 8-10. Lecture Notes in Computer Science (LNCS), Springer, 2857: 238-51. Sezer E., 1999, Smart Bilgi Eri im Sistemi'nin Türkçe yerelle tirilmesi ve otomatik gömü üretimi. Yüksek Lisans. Hacettepe Üniversitesi, Fen Bilimleri Enstitüsü, Ankara, 1999, 124 sayfa. 362 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 Simon, H.A., 1955, On a class of skew distribution function. Biometrica 42, pp.425440. Sheridan, P. and Ballerini., J.P., 1996. Experiments in multilingual information retrieval using the SPIDER System, Proceedings of the 19th Annual International ACM SIGIR Conference on Research and development in Information Retrieval SIGIR 96: 58–65. Shannon, C.E., 1949. The mathematical theory of communication. In Shannon, C.E. and Waver, W. (editor). The Mathematical Theory of Communication. The University of Illinois Press, Urbana, 3-91. Schmid, H., 1994, Part-of-Speech Tagging with Neural Networks. Proceeding of COLING-94, pp172-176. Sibun, P. and Spitz, A.L., 1994, Language determination: natural language processing from scanned document images, Proceedings of the fourth conference on Applied natural language processing, Morgan Kaufmann Publishers Inc., Stuttgart, Germany, pp.15-21. Smeaton, A., 1992, Progress in the application of natural language processing to information retrieval tasks. The Computer Journal, 35(3). Smeaton, A.F., O'Donnell, R. and Kelledy, F., 1995, Indexing structures derived from syntax in TREC-3: System description, In National Institute of Standards and Technology Special Publication on the The Third Text REtrieval Conference (TREC-3), Washington, DC. National Institute of Standards and Technology, U.S. Department of Commerce, U.S. Government Printing Office. Soergel, D., 1985, Organizing Information: Principles of Database and Retrieval Systems. Orlando: Academic Press, 9-20. Solak, A. and Can., F., 1994, Effects of stemming on Turkish text retrieval. Technical report BUCEIS-94-20, Bilkent University, Ankara. Sparck Jones, K., 1972, A Statistical Interpretation of Term Specificity and Its Application in Retrieval. Journal of Documentation, vol.28(1), pp.11-20. Sparck Jones, K., 1995, Reflections on TREC. Information Processing & Management, vol.31(3), pp.291-314 B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 363 Stolz, W. S., Tannenbaum P. H. and Carstensen, F. V. A., 1965, stochastic approach to the grammatical coding of English. Communications of ACM (8): 399-405. Strassel, S., Maxwell, M. and Cieri, C., 2003, Linguistic resource creation for research and technology development: A recent experiment, ACM Transactions on Asian Language Information Processing (TALIP), 2(2): 101117. Strzalkowski, T., 1995, Natural language information retrieval. Information Processing & Management 31 (3), 397–417. Strzalkowski, T., Carballo, J.P. and Marinescu, M., 1995, Natural Language information retrieval: TREC-3 report. In National Institute of Standards and Technology Special Publication on the The Third Text REtrieval Conference (TREC-3), Washington, DC. National Institute of Standards and Technology, U.S. Department of Commerce, U.S. Government Printing Office. Strzalkowski, T., Lin, F. and Perez-Carballo, J., 1998, Natural Language Information Retrieval TREC-6 Report. In Voorhees EllenM. and Donna K. Harman (editors). The Sixth Text REtrieval Conference (TREC-6). NIST Special Publication 500-240, National Institute of Standards and Technology, Gaithersburg, MD, (http://trec.nist.gov/pubs.html), pp.347-366. Suzuki, I., Mikami, Y., Ohsato, A. and Chubachi, Y., 2002, A language and character set determination method based on N-gram statistics, ACM Transactions on Asian Language Information Processing (TALIP), pp. 269278. Tautanova, K. and Manning C., 2000, Enriching the knowledge sources used in a maximum entropy part-of-speech tagger. In Proceedings of EMNLP/VLC. Thagard, P., 1990. Information and concepts. In Hanson, Philip P. (editor). Information, language and cognition. The University of British Columbia Press, Vancouver, Canada, 168-174. Turner, G.R., 1997, Relationship between vocabulary, text length and Zipf’s law. Avail at: http://www.btinternet.com/g.r.turner/ZipfDoc.htm. Tür, G., 2000, A Statistical Information Extraction System. PhD Thesis, Bilkent University, Ankara, Turkey. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 364 Türkiye Bili im Derne i, 2003, http://eski.tbd.org.tr/sozluk.html Sözlü ü, URL: Türk Dil Kurumu, 2003a, Bilgisayar Terimleri Kar ılıklar Kılavuzu, http://www.tdk.gov.tr/bilterim URL: Türk URL: Bili im Terimleri Dil Kurumu, 2003b, Güncel http://www.tdk.gov.tr/sozluk.html Türkçe Sözlük, URL: Van Rijsbergen, C.J., 1979, Information Retrieval (2nd ed.), Butterworths, London. Viterbi, A.J., 1967, Error bounds for convolution codes and an asymptotically optimal decoding algorithm. IEEE Transaction on Information Theory, pp. 260-269. Voorhees, E., Gupta, N.K. and Johnson-Laird, B., 1995, The collection fusion problem. In National Institute of Standards and Technology SpecialPublication on the The Third Text REtrieval Conference (TREC-3), pages 95-104, Washington, DC. National Institute of Standards and Technology, U.S. Department of Commerce, U.S. Government Printing Office. Voorhees E.M. and Harman, D.K., 1998. Overview of the Sixth Text Retrieval Conference (TREC-6). In Voorhees Ellen M. and Donna K. Harman (editors). The Sixth Text REtrieval Conference (TREC-6). NIST Special Publication 500240, National Institute of Standards and Technology, Gaithersburg, MD, (http://trec.nist.gov/pubs.html), pp.1-24. Voorhees E.M. and Harman, D.K., 1998b. The seventh Text REtrieval Conference (TREC-7). NIST special publication, Galthersburg, Maryland, November 9-11. http ://trec.nist.gov/pubs.html. Voutilainen, A., 1998, Does tagging help parsing? A case study on finite state parsing, Lauri Karttunen (ed), International Workshop on Finite State Methods in Natural Language Processing (FSMNLP'98), Association for Computational Linguistics, Somerset, New Jersey, pp.25-36. Yao Y.Y., 1995, Measuring retrieval effectiveness based on user preference of documents, Journal of the American Society for Information Science, l 46:133145. B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 365 Weaver, W., 1949, Recent contributions to the mathematical theory of communication. In Shannon, C. E. and Weaver, W. (editors). The Mathematical Theory of Communication. The University of Illinois Press, Urbana, 94-117. Witten, I.H. and Bell, T.C., 1991, The zero-frequency problem: Estimating the probability of novel events in adaptive test compression. IEEE Transactions on Information Theory, 37(4), pp. 1085-1094. Zhai, C., Tong, X., Miliç -Frayling, N. and Evans., D.A., 1997, Evaluation of Syntactic Phrase Indexing - CLARIT NLP Track Report. In Voorhees Ellen M. and Donna K. Harman (editors). The Fifth Text REtrieval Conference (TREC5). NIST Special Publication 500-238, National Institute of Standards and Technology, Gaithersburg, MD, (http://trec.nist.gov/pubs.html), pp.347-358. c Ziegenhain, U., Arranz, V., Bisani, M., Bonafonte, A., Castell, C., Conejero, D., Hartikainen, E., Maltese, G., Oflazer, K., Rabie, A., Razumikin, D., Shammass, S. and Zong C., 2003, The LC-STAR: Lexica and corpora for speech-to-speech translation technologies. Technical Report, IST-2001-32216, Siemens AG, CT IC 5, München, Germany. URL: http://www.lc-star.com Zipf, G. K., 1929, Relative frequency as a determination of phonetic change. Harvard Studies in Classical Philology, 40:1-95. Zipf, G. K., 1949, Human Behaviour and the Principles of Least Effort. Cambridge, MA, Addison-Wesley. 366 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE EKLER EK-1 : BGG sahasında önceki çalı malar. 367 368 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 369 EK-1 BGG Sahasında Yapılan Önceki Çalı malar BGG sahasında bu güne kadar onlarca uygulama sistemi, farklı guruplar tarafından ticari ve akademik amaçlı geli tirilmi tir. Tanıtaca ımız sistemlerden, ticari olanlar LEXIS/NEXIS, DIALOG, Dow QR, INSPECT, STAIRS, MEDLARS ve GARALDI (Türkçe); akademik olanlarsa SMART, INQUERY, DR-LINK, TÜRDER ve KMBGG sistemleridir (Ka garlı Mahmut Bilgi Geri-Getirim Sistemi). LEXIS/NEXIS sistemi ticari bir geri-getirim sistemidir. Sistem hukuk (LEXIS) ve gazete (NEXIS) yazıları geri-getirimi üzerine yo unla mı tır. Sorgu yöntemi olarak boole e le tirme yordamını esas alır, yani geri-getirilen belgeler, sorguda yazılan kelimelerle bire-bir e le enleri içerenlerdir. Sorgu olu turmada iki joker-karakter kullanımına izin vermektedir: “*” karakteri herhangi bir tek harfi (örne in “bilg*” ile “bilgi”, “bilgiç”, “bilim” ve “bilgin” kelimeleri ama “bilimsel” de il) ve “!” karakteri herhangi bir kelimeye getirilebilecek ngilizce dilbilimsel eki (örne in, “transport!” kelimesi “transportation”, “transporting” vb. kelimeleri). (“*” için verilen örnekte, böyle basite indirgenmi bir nevi gövde üretiminin Türkçe için kullanımında ne tür sakıncaları olabilece i de rahatlıkla görülebilmektedir. Yöntem analitik diller için uygundur, ancak kelime türetmek için ek sistemi kullanan dillere uygun de ildir. “bilim” ve “bilgin”). En son sürümlerinde do al dilde yazılan sorguları kullanma e ilimindedir. Bunun sebebi geri-getirim modeli olarak vektör uzayını benimsemesidir. Belge temsilinde: durma kelimelerini ayıklama ve kelime gurupları tespit alt adımlarını kullanır. Sorgu olu turma ve B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 370 sonuç listesinde göz-atma (browsing) hizmeti uygundur. Z39.50 standardına DIALOG sistemi ticari bir sistemdir. Sistem i dünyası, hukuk, resmi, tıbbi, gazete, insan, bilim, sosyal bilimler ve teknoloji sahalarında belgeler üzerinde i lem yapar. Sorgu olu turma ve e le tirme yöntemi boole yordamıdır. Sistem sorguda “?” jokerkarakter kullanımına izin verir. Böylece bir kelimenin farklı yazım biçimlerinin, örne in “bilgi”, “bilgiler” ve “bilgin” kelimeleri “bilgi?” eklindeki tek bir biçimde temsil edilebilmektedir. E -anlamlılar sözlü ü kullanımı yoktur. Kullanıcının sorgularını kaydetmesine izin verilir ve e er sistemin hedefindeki belge uzayına kayıtlı sorgu ile alakalı yeni bir belge eklenirse, kullanıcı uyarılır (routing/filtering). DOW JONES NEWS/RETRIEVAL (Dow QR) sistemi ticari bir sistemdir. Sistem 1900 civarında haber kayna ını taramaktadır. Di er ticari sistemlerde oldu u gibi sorgu olu turma ve e le tirme yöntemi boole yordamıdır. Sorgu ayrıca, tarih, kategori ve konu ba lı ı, belge kısımları ve belirli kaynaklar esasında kısıtlanabilmektedir. TOPIC sistemi de ticari bir geri-getirim sistemidir. Sistemin kullanıcıya sa ladı ı ey, kendi BGG sistemini kurabilmesi için geri getirim hizmetleridir. TOPIC “içerik” olarak adlandırılan bir hiyerar iye dayalıdır, yani sisteme indekslemesi için yüklenen belge kümesindeki konu ba lıkları, bir hiyerar iye göre sistem tarafından düzenlenir. Sistem, ba lıkları düzenlerken de eri 0 (sıfır) ile 1 (bir) arasında de i en nicel bir ili ki/alaka ölçütü kullanır. Sorgu ile alakalı bulunan sonuç kümesi belgeleri, bu hesaplanan alaka de erinin azalan sırasında listelenir. TOPIC “gövdeleme” yordamı kullanır. Ayrıca joker-karakter kullanımına da izin verir: “?” tek harf, “*” herhangi bir B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 371 karakter dizisi ve “[a-z]” iki kö eli parantez içine alınmı karakter kümesi. Sorgu olu tururken, kullanıcı sorguda kullandı ı terimlere 0 (sıfır) ile 1 (bir) arasında a ırlıklar vererek, e le tirme yordamını yönlendirebilir. INSPEC fizik, elektrik elektronik, bilgisayar ve kontrol, bilgi teknolojileri alanında çıkan yayınların 1969’dan bu yana toplandı ı bir veritabanıdır. 1977 yılında seksen ülkenin faydalandı ı bir sistem haline gelmi tir. INSPEC veritabanına Internet’ten eri mek ya da veritabanının tamamını veya bir kısmını CDROM ortamına kaydedilmi ekli ile almak mümkündür. u an INSPEC bünyesinde altı milyon civarında kayıt bulunup, yılda ortalama 300.000 kayıt ilave edilmektedir. STAIRS sistemi IBM tarafından geli tirilmi ticari bir sistemdir. Sayısal belge temsilinde: kelimeler ba tan belirli bir sayıda harfi içerecek ekilde sondan kesilir. Belgeler ile terimler arasında alakaya göre bir a ırlık de eri atanır. E -anlamlılar sözlü ü yardımı ile terimler e anlamlıları ile de i tirilir. Sorgu hazırlama boole kurgusuna uygun yapılır. Ancak, yakalamada vektör uzayı modelini kullanır. MEDLARS (Medical Literature Analysis and Retrieval System), tıbbi konulara odaklanmı bir sistemdir. MEDLARS sisteminin en önemli özelli i MESH (Medical Subject Heading) adı verilen, tıbbi metinlerin indekslenmesinde kullanılan terimleri ve birbiri ile anlamsal ili kilerini içeren tıp konu ba lıkları sözlü üdür. MEDLARS sisteminde, gelen belgelerin dizinlenmesi tıp alanında uzmanla mı ve sistemi bilen ki ilerce yapılmaktadır. Sistemden yararlanmak isteyen kullanıcı ihtiyaç duydu u bilgiyi elle bir kalıba i ler. MEDLARS bünyesinde çalı an danı manlar bu bilgileri çözümleyerek ve MESH B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 372 sözlü ünü de dikkate alarak duyulan ihtiyacı sistemin öngördü ü biçimde yeniden ifade ederler ve sonuçlar kullanıcıya çevrim-dı ı sunulur. GARALDI Türkiye’nin ilk ticari bilgi eri im sistemidir, TTGV destekli bir proje niteli inde olan GARILDI (Gazete Ar ivi ve leti im Dizgesi), Aybim Bilgisayar Tic. Lim. tarafından gerçekle tirilmi tir. GARILDI sisteminin ilk sürümü Sabah gazetesinin Internet’teki adresine konmu tur. u an Sabah, Cumhuriyet gazetelerini ve Aktüel, Gezi, Para, Topsante, Cosmopolitan, Gurme, Power, Otohaber, PcMagazin, Baazar gibi birçok derginin ar ivine eri mek mümkündür. SMART, Cornell üniversitesinde geli tirilmi akademik amaçlı bir sistemdir ve tüm bilgi geri-getirim sistemlerinin atası olarak bilinir (Salton, 1971; Salton and McGill, 1983). Sistem : 1-) tamamen otomatik indeksleme kullanır. 2-) belgelerin otomatik kümelemesini ve küme ortaçlarının (centroids) hesabını yapar. 3-) Sorgu ve belge arasındaki alaka hesaplamalarını yapar, alakalı belgeleri, belgelerin sorgu ile olan alaka derecelerine göre azalan sırada listeler. 4-) Belgeleri ve sorguları, vektör uzayında a ırlıklandırılmı vektörler olarak temsil eder. 5-) Sistemde, kullanıcıdan geri-bildirilecek enformasyon sorgu inceltme amaçlı olarak kullanır. SMART sistemi, ara tırma sahasında çok yaygın bir ekilde kullanılmaktadır ve di er geli tirilen bilgi geri-getirim sistemlerinin ba arım ölçümlerinde taban çizgisidir. INQUERY sistemi Massachusetts üniversitesinde geli tirilmi tir (Callan et al, 1992). Sistem, geri-getirim yöntemi olarak olasılık kuramını esas alan yordamlar kullanmaktadır. ARPA sponsorlu undaki TIPSTER projesinin ilk aya ında (TREC-I) çok büyük veri- B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 373 tabanlarının, olasılık kuramına dayalı geri-getirim yöntemlerin denenmesi çalı malarında kullanılmı tır (Broglio et al., 1994). Kullanılan veri-tabanının büyüklü ü yakla ık 3 gigabyte civarındadır. INQUERY olasılık esaslı sonuç-çıkarma a ı modelini (Inference Network) esas almaktadır. Sistemde uygulanan bu olasılık esaslı yöntem (aslen Bayes kuramı olarak anılan sonuç çıkarma yöntemidir), elde edilen delillerin topluca kullanımını imkanlı kılar. Daha do rusu, INQUERY, de i ik metin temsilleri (kelimeler, kelime gurupları, paragraflar veya elle belirlenmi anahtar kelimeler) ve aynı sorguların farklı uyarlamalarının (do al dilde olu turulanlar veya boole esaslılar) tutarlı bir biçimde olasılık tabanında bir yapılanma içinde birle tirilmesini olanaklı kılmaktadır. INQUERY, dilbilimsel özelliklerin de sınanabildi i bir sistemdir. TREC-I kapsamında özellikle gövdeleme ve kelime guruplarının kullanımı yo un bir ekilde sınanmı tır. Ancak geri-getirim ba arımında sa lanan geli im ya kayda de er bir miktar olmamı ya da uygulanmasının maliyetine kar ın yetersiz kalmı tır. Sadece kelime guruplarının sorgu inceltme için kullanımında, umut veren bir takım geli imler sa lanabilece i belirtilmi tir. DR-LINK (Document Retrieval through Linguistic Knowledge) yine TIPSTER projesi kapsamında Syracuse Üniversitesi tarafından geli tirilmi tir (Liddy and Myaeng, 1993). DR-LINK dilbilim kuramlarını esas alarak imdiye kadar geli tirilmi tek sistemdir. Sistem sayısal belge temsili için di er bilinen tüm sistemlerden farklı olarak, kelime/belge a ırlıkları ile olu turulan belge vektörü yerine, kelimelerin “içerik” belirteçleri ile olu turulmu vektörleri kullanmaktadır. Ancak yapılan bu etraflı çalı manın sonuçları da di erlerinden farklı olmamı tır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 374 TÜRDER, 1979 yılında Aydın Köksal’ın Doçentlik tezi kapsamında Hacettepe üniversitesi Bilgisayar Mühendisli i bölümü bünyesinde gerçekle tirilmi , vektör uzayı modelinde kısmen geribildirimli bir bilgi geri-getirim sistemidir (Köksal, 1979). TÜRDER esas olarak tasarım boyutunda kalmı , bir kısmı gerçekle tirilmi tir. Sistemin gerçekle tiriminde bildiri, kitap, makale, konu ma/konferans yayınları, tez, rapor eklindeki bilimsel yayınları güvenli bir ekilde saklamak ve etkin eri im sa lamak amaçlanmı sa da asıl amaç A. Köksal tarafında u biçimde ifade edilmektedir: ”TÜRDER, Türkçe Belge Dizinleme ve Eri im Dizgesi, bilgi eri im dizgesi tasarımı, geli tirim ve i letimine ili kin çok yönlü kavramsal ve uygulamalı sorun alanlarında deneyler yapılabilmesi için gerekli ö elerden olu an, deneysel bir bilgi eri im dizgesidir.” (Köksal, 1979) TÜRDER sisteminde, kelimeler sondan kesilerek indeksleme yapılmaktadır. En yüksek ba arımın ba tan 5 harf kalacak ekilde sondan kesme ile elde edildi i bildirilmi tir. Bu çalı ma, Türkçe’de ilk gövdeleme giri imi olması sebebiyle dikkat çekicidir. Türkçe’de gövdeleme ile BGG sistemlerinde geri-getirim ba arımının arttırılaca ına deneysel bir kanıt olu turmu tur. KMBGG sistemi (Ka garlı Mahmut Bilgi Geri-Getirim Sistemi) Hacettepe Üniversitesi tarafından yürütülmü bir di er projedir. Aslen, Türkçe için SMART geri-getirim sistemi üzerinde geni çaplı bir uyarlanma çalı masıdır (Sever vd., 1997). KMBGG sistemi dilbilimsel yöntemler olarak e -anlamlılar sözlü ü (Thesaurus) ve kelimeda arcı ına dayalı kural tabanlı gövdeleme kullanmaktadır. Ayrıca Türkçe için, SMART üzerinde ek uyarlama çalı maları da gerçekle tirilmi tir. Bu çalı ma, Türkçe’nin kendine has dilbilimsel B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 375 özelliklerinin BGG sahasında kullanımına ilk örnek olması açısından büyük önem ta ımaktadır. Örne in, dilbilimsel gövdeleme i leminin BGG cemiyetinde yaygın olan kanının aksine, geri-getirim ba arımını arttırdı ı, ilk bu çalı mada uygulamalı olarak görülmü tür. Sistem seviyesinde yukarıda verdiklerimizin dı ında ayrıca TIPSTER projesi altında ve ba ka platformlarda bir çok toplantı yapılmı ve çok de i ik çalı ma gurupları analitik diller ve orta-Avrupa dilleri için BGG sistemlerinde hesaplamalı dilbilim kullanımı konusunda geni ara tırmalar yürütmü lerdir. Alınan sonuçlar anlamlı düzeylerde ba arım artırımı ortaya koyamamı tır. Dolayısı ile, BGG cemiyeti içerisinde kanaatin de i mesine yardımcı olmamı sa da, çalı maların incelenmesi uygulanan dilbilim yöntemlerinin hangi dilbilim çözümleme seviyelerinde gerçekle ti inin belirlenmesine yardımcı olacaktır. Tanıtaca ımız çalı ma guruplarından ilki New York üniversitesidir (Strzalkowski et al., 1995). Gurubun çalı maları hesaplamalı dilbilim yöntemlerinin, geleneksel istatistik esaslı BGG sistemlerinde destekleme eklinde kullanımı ile ba arımın arttırılması yönündedir. Toplam 2 gigabyte çözümlemesini yapmı lardır. Bunu metnin tam söz-dizimsel yaparken “içeri i” ta ıyan kelimelerin tespit edilmesine ve bu kelimeler arasındaki ili kilerin belirlenmesine u ra mı lardır. Daha sonra elde ettikleri enformasyonu sorguların geni letilmesi ve inceltilmesi u ra larında kullanmı lardır. Kullandıkları süreçler tamamen otomatiktir ve verilen u ra ın büyük bir kısmını, kullanılan dil-bilimsel yöntemlerin hızlı ve verimli çalı masına harcamı lardır. B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 376 kinci gurup “General Electric” firmasının ara tırma ve geli tirme gurubudur (Jacobs, 1994). Hesaplamalı dilbilim yöntemleri ile bir alı tırma derleminden, enformasyon özetleme u ra ı sergilemi lerdir. Daha sonra elde edilen enformasyon, TREC çalı malarının yönlendirme (routing) etabında elle olu turulan süzgeçler (filters) için kullanılmı tır. TREC içindeki di er bir gurup CLARITECH’dir (Evans and Lefferts, 1994). Gurup CLARIT adını verdikleri istatistik esaslı bir BGG sistemi tasarlamı tır. Tasarımın dilbilimsel yönleri, sadece kelime gurubu olarak “isim tamlamalarını” kullanması ve otomatik bir e anlamlılar sözlü ü olu turmasıdır. Daha sonra isim tamlamaları sorgu geni letmek için kullanılmı tır. Dublin City Üniversitesinden bir gurupsa, belgeleri söz-dizimsel çözümlemeden geçirerek, a aç yapısı içerisinde temsil etmi lerdir. Bu gurubun yakla ımı ile geri-getirim sonuç kümesini olu turmak için kullanılan e le tirme i lemi, a aç yapısında arama yapma ekline dönü mektedir (Smeaton et al, 1995). Siemens irketinden bir gurup da WordNet24 (Miller, 1990) kelime a ını kullanarak sorgu geni letme çalı maları yapmı tır (Voorhees et al., 1995). Özellikle, Avrupa’da çok dilli bilgi geri-getirim önemli meselelerin ba ında gelmektedir. Bu yüzden “Avrupa Birli i Ara tırma ve Mühendislik alt programı” hesaplamalı dilbilim yöntemleri kullanımının geli tirildi i projeleri desteklemektedir. Desteklenen 24 WordNet kelimelerin sözlük anlamları arasında ili kilerin betimlendi i bir a dır, yani kelime-a ıdır. B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 377 çalı malar içerisinde CRISTAL, Fransızca gazetelerdeki makalelerde çok dilli geri-getirim yapılmasını sa layan bir sistemdir. RENO benzer ekilde yazılı Fransızca resmi belgeler üzerinde çalı an bir sistemdir. SIMPR kelime guruplarını indekslemek için biçim-bilimsel özelliklerden yararlanan bir di er projedir. Orta-Avrupa dillerinde yapılan çalı maların özetleri için, Smeaton (1992) tarafından yapılan ara tırma güzel bir saha çalı masıdır. Ayrıca özel olarak 7 (yedi) ortaAvrupa dilli için sözcük türü belirleme çalı malarının bir saha ara tırması da Dermatas and Kokkinakis’in (1995) makalesinde bulunmaktadır. 378 B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004 B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE 379 ÖZGEÇM Yazar, 1970 yılında zmir’de do mu tur. lk, orta ve lise ö renimini Eski ehir’de tamamladıktan sonra, 1988 yılında, yüksek ö renim görmek üzere Ankara’ya, Ortado u Teknik Üniversitesine gitmi tir. 1994 yılında, statistik bölümünden mezun olan yazar, Ankara’da yüksek ö reniminin son yılı da dahil olmak üzere üç yıl boyunca özel sektörde sivil havacılık, dı ticaret ve bili im teknolojileri sahalarında çalı mı tır. 1996 yılında, Mu la Üniversitesinde statistik ve Bilgisayar bölümünde göreve Üniversitesinde çalı maktadır. ba lamı tır ve hala Mu la 1996-1998 yılları arasında yüksek lisansını “Web Robotları” konusunda, Sinan Neftçi ile Mu la Üniversitesinde tamamlayan yazar, 1998 yılında Ege Üniversitesi, Uluslararası Bilgisayar Enstitüsünde doktora çalı masına ba lamı tır. Mu la Üniversitesinde 1996-2001 yılları arasında, ba ta statistik ve Bilgisayar bölümü olmak üzere, de i ik bölümlerin lisans programlarında “Tanımlayıcı statistik”, “Matematiksel statistik”, “Parametrik Olmayan statistik”, “Çok De i kenli statistik”, “Karar Kuramı”, “Bilgi Teknolojileri” ve çe itli bilgisayar programlama derslerini vermi tir. Mu la Üniversitesinde çe itli görevlerde bulunan yazar, Üniversitenin bilgi teknolojilerine geçi ini sa layan “Sayısal Üniversite” projesinin mimarı ve yazarıdır. Halen yazılım ve a teknolojileri konusunda yeti tirdi i çalı ma takımlarının yöneticili ini sürdürmektedir.