1 SESİN DOĞASI VE OLUŞUMU The Nature of Sound Levent GÜNER Prof.Dr. İclal ERGENÇ ÖZET : Bu bölümde, ses nasıl oluşur, nasıl duyarız, yapısı nasıldır, bilim adamlarının bu konular üzerindeki çalışmaları nelerdir? sorularına yanıt aranacaktır. Fiziksel olarak ses, gaz, sıvı veya katı ortamlarda oluşan mekanik titreşimlerdir. Bu titreşimlerin ses olarak algılanabilmesi için, yayılım ortamı (propagation medium), kulak hassasiyeti (duyu yeteneği) ve enerjiye sahip olması gerekir. Maddesel ortamın herhangi bir bölgesinde oluşan bir hareket, maddenin esnekliği nedeniyle diğer bölgelerin de harekete başlamasına neden olur, bu hareket sesin duyulmasını sağlar. Havasız (vakum) ortamda ses yayılamayacağı için duyulamaz. Bir nesnenin her titreşmesinde, bu nesnenin çevresini saran havanın yoğunluğu, nem gibi dış etkenlerin de yardımıyla sese dönüşerek bir parça enerji kaybına neden olur. Bir ayar çatalı parmaklar arasında vurulursa tınlama sesi çok az duyulur. Bunun nedeni titreşimin havadaki çiftlemesini tamamlayamamasıdır. Eğer bu bir ağaç veya metal bir aksama vurulursa titreşim bu yüzeylere daha fazla aktarılacak ve daha fazla ses duyulacaktır. Sesler her zaman aynı kalitede ve sürede duyulmazlar. Zaman ile boşluk arasında önemli bir bağ vardır. Çünkü ses bir dalgadır ve zaman ile boşluk içinde ilerler.Bunu hesaba katarsak, üç çeşit akustik sinyal tanımlayabiliriz: • • • Periyodik(continuous) sinyaller, zamanla tekrarlanır ve süreklidirler. Rastgele(noise-like sound) sinyaller, periyodik değildir. Müzisyenlerin ve bilim adamlarının beyaz veya pembe gürültü dedikleri sinyallerdir. Darbeler (impulse-like sound) sinyaller, zamana bağlı olarak tekrarlanmaz ama şekilleri bellidir. BASİT UYUMLU HAREKET (Simple harmonic motion) Kendini yenileyerek sürüp giden bir harekete yenilenen hareket denir. Ucunda ağırlık asılı bulunan bir yayın çekilip bırakılmasıyla oluşan hareket periyodik bir harekettir. Dengedeki bir sisteme dışarıdan bir kuvvet uygulanırsa, dengesi bozulacak ve sistemin her bir parçası bu kuvveti yok edecek yönde davranarak sistemi denge konumuna getirmeye çalışacaktır. Böylece sistem denge konumunun çevresinde uyumlu bir salınım yapacaktır. Yenilenen bu hareket tek boyut üzerinde oluşuyorsa buna basit uyumlu hareket denir. Sesin Doğası ve Oluşumu 2 Sistemin herhangi bir anda denge konumuna olan uzaklığına uzanım, uzanımın en fazla olduğu uzaklığa da genlik (amplitude) denir. P1 P Genlik (A)=OP veya O P1 O Küçük genlikli basit uyumlu harekete titreşim denir. Basit uyumlu hareketin bir defa tamamlanması için geçen saniye cinsinden süreye periyot (T)denir. Bir saniyelik süre içinde oluşan titreşim sayısına ise frekans (f)denir ve Hertz olarak adlandırılır.5 Hz saniyede beş devire karşılık gelir. Dönüş veya titreşim hızı arttıkça frekans büyür, periyot küçülür (f=1/T). Basit uyumlu hareket zaman içinde bir sinüs eğrisi oluşturur. Bir ses titreşimini temsil eden bu eğrinin genliği zaman içinde küçülür. Titreşim sönerken genlik küçülür, sesin gürlüğü azalır. Sistem değişmediği sürece basit uyumlu hareket sonucu oluşan frekans ve periyot değişmez. Ses duyulmaz hale gelene kadar geçen süreye sönümlenme (damping) süresi denir. Gelen iki ses arasında faz farkı olabilir, bu durumda iki dalga formu arasındaki ilişki yandaki şekilde gösterilmiştir. Bu faz farkı sinyalin ölçümünde dezavantaj olarak ortaya çıkar. Aralarında faz farkı Sesin Doğası ve Oluşumu 3 olan iki basit ses aynı anda kulağa gelirse, gürlüğü faz farkının büyüklüğüne bağlı olarak azalan bir ses duyulur. Aynı fazda ve frekansta iki dalganın birleşmesi durumunda genlik de buna bağlı olarak iki katına çıkacaktır. KARMAŞIK TİTREŞİMLER (Complex vibrations) Birden fazla sinyalin aynı anda bir düzlemde başlayan hareklerine birleşen hareket denir. Birleşen hareketlerin periyotları aynı olmadığı durumda sinyal bileşkesi, alınan girdi sayısına bağlı olarak gürleşip hafifleyerek dalgalanır. Aşağıdaki şekilde üç sinüzoidal sinyal bileşeni verilmiştir. Bunları aynı yere bağlı üç top olarak düşünelim ve fx, fy ve fz olarak adlandıralım. Birinci sinyal ile ikinci sinyal arasında ∆f =fxfy=100 Hz fark olacaktır. Bu durumda ikinci sinyalin frekans çemberi üzerinde dönen noktanın birinciden daha hızlı (üçüncüden daha az) döndüğü ve bir saniye içinde birinciden yüz kez fazla, üçüncüden 100 kez yavaş döndüğü söylenebilir. Bu bileşke hareket nedeniyle beyinde uyanan ses duyusunun gürlüğünün saniyede 200 defa şiddetlendiği, 200 defa da zayıfladığı hissedilir. Bu genlik dalgalanmalarına beyaz gürültü (=vuru)(white noise) Sesin Doğası ve Oluşumu 4 denir. Beyaz gürültünün frekansı bileşen frekansların farkının ortalamasına eşittir. Bu bileşke sesin genliği beyaz gürültü frekansına bağlı olarak azalır yada artar. İki en yüksek ve en düşük genlik değer arasında geçen süre beyaz gürültünün periyodunun oluşturur. TINI (Resonance) Bir sarkaca anlık bir kuvvet uygulandığında oluşan titreşime öz titreşim denir. Öz titreşimin oluşabilmesi için bir birine enerji aktarabilecek iki ayrı sisteme gerek vardır. Bu sistemden daha güçlü olanına uyarıcı sistem denir. Uyarıcı sistemin etkisiyle zorlanmış bir titreşim yapan sisteme tınlatıcı (rezonatör) denir. Uyarıcı sistemin frekansı ile tınlatıcının öz frekansı (resonant frequency) aynı değerde ise özel bir zorlanmış titreşim oluşur. Bu titreşimin genliği, uyarıcı titreşimin genliğine göre çok büyük değerler alabilir. Böylece uyarıcı titreşim, tınlatıcı tarafından güçlendirilmiş olur. Bu olaya tını (rezonans) denir. Yani uyarıcıya karşı gösterilen tepkidir. Tınlatıcıların davranışları, kendi öz titreşimlerinin sönme süreleriyle ilişkilidir ve genlikleri zamanla küçülür ve bir süre sonra titreşim söner. Yumuşak sönümlü Hızlı sönümlü Yukarıdaki şekil tepe noktası öz frekansa karşılık gelen tını eğrisidir. Bant genişliği ne kadar fazla ise sönüm o kadar hızlı olur. 3 dB Bant genişliği; genliğin en üst noktasının 3 dB altında iki nokta arasında formant genişliği ölçülerek bulunur. Sesin Doğası ve Oluşumu 5 SES DALGALARININ TEMEL GENLİK ÖZELLİĞİ (Basic amplitude properties of sound waves) Ses genliği değişik yollardan hesaplanabilir. Şekil’de ölçümleri verilmiştir.1 genlik seviyelerinin çeşitli Genlik seviyesinin çeşitli ölçümleri Sembol İsim Tanım Aortalama Ortalama Genlik Pozitif sinyalin matematiksel ortalaması ARMS Root mean square Genliğin enerji içeriğine oranı Atepe Tepe Genliği Maksimum Pozitif Genlik Atepe-tepe Tepeden Tepeye Genlik Pozitiften negatife maksimum genlik Ortalama genlik sadece teorik bir ölçümdür ve teknik olarak kullanılmaz. Diğer yönden, RMS (root mean square) değeri evrensel olarak eşdeğer sinyalleri ölçmek için kabul edilmiştir (genellikle sinüs dalgaları için kullanılır). Seslemlerin her biri için karşılık gelen ortalama genlik değerini bulmak için kullanılan yöntemlerden biri de, RMS değerini bulmaktır. Bunun için şu işlemler yapılmalıdır: • • • • • Bir aralık seçilir, Bu aralıktaki (pencere) her örneğin, negatif değerleri ve küsuratları atılır ve değerinin karesi alınır. Bulunan sonuçların matematiksel ortalaması alınır, Elde edilen değerin kare kökü bulunur, Bir sonraki aralığa geçilir ve işlem tekrarlanır. 1 John Perr (1994), ([email protected])Basic acoustics and Signal Processing . Erişim: [http://www.linuxfocus.org/English/March2003/article271.shtml] Sesin Doğası ve Oluşumu 6 SES DALGALARININ ZAMAN EKSENİNDEKİ ÖZELLİKLERİ (Time domain properties of sound waves) Ses dalgalarının analizinde zaman ve frekans ilişkisinin uyumluluğu çok önemlidir. Şekil’de “seat” kelimesinin ötümlü bölgesindeki süre ölçülmüştür. Tek kelimelik bir incelemede bölümleme yapılması zor değildir. Asıl sorun uzun bir konuşmada, konuşmanın başlama ve bitiş yerinin ölçülmesidir. şekildeki örnekte “I said “pen, not “pan”. Tümcesinin bölümlenmesi “seat” kelimesindeki kadar kolay değildir. SES DALGALARININ FREKANS EKSENİNDEKİ ÖZELLİKLERİ (Frequency domain properties of sound waves) Titreşimin basit şekli sinüzoidal bir eğri ile gösterilmiştir. Bu dalga şeklinin karmaşık yapısının matematiksel olarak çözümlenmesi için, Fransız Josep Fourier tarafından denklem haline sokulmuş bir kuram vardır(fourier transformu-FT). Bu kurama göre; periyodik ses dalgasının, genlik ve faz değişkenli sinüzoidal serilerin toplamı olarak analiz edilebileceği ortaya konulmuştur. Bu dalgaların her bir frekansı “temel frekansın” katları şeklindedir. Tekrarlayan bu dalgalara harmonik denir. Fourier analizinde, zaman ve periyodik genlik frekans dalga şekli, frekans dalga şekline iletilir ve frekans bileşenlerinin genlik grafiği olan spektrum oluşturulur. FT’nin ses spektrografisi kullanımında bazı problemler vardır. Bu problemler; • FT periyodik dalgalara uygulanır, oysa konuşma sesleri tamamen periyodik değildir. • FT sürekli dalga şekilleri üzerinedir, oysa sayısal analizde sinyal üzerinden bazı bölgelerden örneklem alınması gerekmektedir. • FT sınırlı ölçüde seriye uygulanabilmektedir. Sesin Doğası ve Oluşumu 7 Bu nedenle sesin sayısal ortamda (bilgisayar) sinyal analizinin yapılabilmesi için sinyal parçalara ayrılıp küçük ve belli zaman aralıkları içinde analiz edilir, bu işleme de Hızlı Fourier Dönüşümü (Fast Fourier Transform) denir. Sayısallaştırılmış bir sesin zaman ve frekans ekseni bize şu bilgileri verir: Zaman Ekseni Dalga şekli Dalga şekli girişi Girdi sinyalin geri oynatımı (play back) Temel frekans analzi Frekans Ekseni Spektrogram Seçilen Sinyal aralıkları için FTT ve Doğrusal Öngörümlü Kodlama (DOK-LPC) Formant izleri Temel frekans analizi Sinyal gürültü oranı Bazı sinyallerin frekans eksenindeki gösterimi ve spektrumları aşağıda verilmiştir. 2 Sinüs sinyali (basit ve periyodik) İki sinüs sinyalinin birleşimi 2 John Perr (1994), ([email protected])Basic acoustics and Signal Processing . Erişim: [http://www.linuxfocus.org/English/March2003/article271.shtml] Sesin Doğası ve Oluşumu 8 Kare dalga (karmaşık ama periyodik) Rastgele sinyal (karmaşık ve peryodik değil) Sesin Doğası ve Oluşumu 9 SES DALGALARININ BAZI TEMEL ALGISAL ÖZELLİKLERİ (Some basic perceptual properties of sound) Algılamada beyin çok önemli bir rol oynamaktadır. Çünkü beyin, sesi tanıma esnasında ses seviyesine göre ve sesin süresine göre bütün analizleri yapar. Beyin, sesin geldiği yeri, kime ait olduğunu tespit etmek için iki kulaktan gelen bilgileri birleştirir ve sesin nereden geldiğine ve kime ait olduğuna karar verir. Bir sesin işitme sisteminde algılanan gürlüğü, ses basınç seviyesi (sound pressure level-SPL) ile orantılıdır. Akustikte ses şiddeti DESİBEL ile ölçülür. Bazı ses basınç seviyeleri şöyledir. • • • • • • • Sesin duyulma seviyesi değişebilmektedir:3 3 aşağıdaki sebepler John Perr (1994) Sesin Doğası ve Oluşumu 130 dB çok yüksek ses. Yüksek vurgulu çalgılar, uçak motor gürültüsü… 100 dB ambulans yada polis sireni… 70 dB normal konuşma… 60 dB bir çalışma yerindeki arka gürültü… 40 dB çok düşük seviyedeki konuşma… 20 dB ses yalıtımı yapılmış oda, ses kayıt stüdyoları… 0 dB duyma sınırı nedeniyle kişiden kişiye 10 • • • • tecrübe: örneğin müzisyen olmak ya da olmamak. gürültüye maruz kalma: iş makineleri kullanıcısı, yaş. ... Bir sesin işitme sisteminde uyandırdığı tizlik/peslik duygusu perde (pitch) olarak tanımlanır. Bu duygunun ölçüsü, ses kaynağının titreşim frekansıdır.Bir sesin frekansı arttıkça perdesi yükselir (tizleşir), frekansı azaldıkça perdesi düşer (pesleşir). Ancak frekans ve perde arasındaki ilişki doğrusal olmadığından MEL adı verilen bir birim ortaya atılmıştır. Bu birim perdedeki eşit artışlara karşılık gelmekte ve bu artışları frekansla ilişkilendirmektedir. Yandaki şekil frekansa göre MEL değerlerini göstermektedir. 100 Hz in altında algılanan perde ile frekans arasında belirgin, doğrudan bir ilişki görülmekte, 1000 Hz üstünde bu ilişki logaritmik bir hal almaktadır KONUŞMA ÜRETİMİNİN production) AKUSTİK MODELİ (The acoustic model of speech Doğal sesli harflerin oluşumunda, ses yolunu eşit dağılımlı bir tüp olarak düşünebiliriz. Bu yapının sayısallaştırılması için sesin oluşumunun matematiksel anlatımını bilmek gerekir. Bu modelde4, bir ses kaynağından (periyodik ve rasgele dürtüler) gelen sesler, ses 4 OWENS, F.,J. (1993). Signal Processing of Speech. London, The Macmillan Press. Sesin Doğası ve Oluşumu 11 boşluğundakine benzer tınlatıcı özelliklere sahip bir zaman değiştirici (time-varying) filtre tarafından süzülürler. Böylece filtrenin frekans karakteristiği tarafından kaynak spektrumun çoğaltılmasıyla, konuşma sinyalinin frekans spektrumu elde edilir. Bu durum yukarıda ötümlü ve ötümsüz sesler için gösterilmiştir. Av ve An ötümlü ve ötümsüz dalgalanmaların şiddetini tanımlar. Ses yolu sonsuz sayıda rezonansa veya formanta sahip olmasına rağmen, incelemelerde frekans aralığı 100 Hz’den yaklaşık 3,5 KHz’e kadar olan bir bölümü kapsayan ilk üç veya dört formantı ele almak yeterlidir. Bunun nedeni konuşma sinyalindeki yüksek formantların genliklerinin, yaklaşık 12 dB/oktav’lık yüksek frekans iniş-çıkışına sahip ötümsüz seslerin kaynağı tarafından hemen hemen tamamıyla zayıflatılmasıdır. Burada kayda değer bir nokta da, bu kaynak-sistem filtre modelindeki filtrenin yalnızca ses boşluğunun iletim özelliklerini modellemediği, ayrıca ağızdan yayılmanın etkilerini de modellediğidir. Akustik yayılma empedansının etkileri 0-3 KHz aralığında 6 dB’lik bir hızda artış gösteren birinci sınıf yüksek geçişli bir karakteristik şeklinde yaklaşık olarak modellenebilir. Kaynak filtre modeli konuşma işleminin aşırı basitleştirilmiş bir şeklidir. Sızmalı sesler, ötümlü seslerle aynı derecede ses yolu rezonansı ile filtre edilemezler. Dolayısıyla kaynak filtre modeli sızmalı sesler için tam doğru değildir. Uzun dönemdeki değişiklikler hariç sesletim, frekans seviyelerinde küçük tutarsızlıklar gösterir ve bu da sesin kalitesini biraz etkileyebilir. Bütün konuşmacılarda bu tutarsızlık görülür. Frekanstaki bu değişik oluşumlara perde (pitch) JITTER denir. Jitterin en büyük değeri, seslemin en üst noktasındaki en büyük azalmadan sonra ötümsüz ünlüyü (voiceless consonant) takip eden seslemi başlatır. Eğer jitter çok yayılmış ise ses kalitesi bozuk algılanır. Seslemleme genliğindeki tutarsızlık da SIMMER olarak bilinir. ÜNLÜ ÜRETİMİNDE SES YOLU FİLTRESİ (The vocal tract filter in vowel production) Sözcük üretiminin en karmaşık kısmı ses tellerinin üstünde meydana gelir. Ağız, burun ve dudakların frekans spektrumu oluşturması sırasında seçimsel olarak harmonik filtreleme yapılır. Çıkardığımız sesleri normal konuşma şablonları olarak tanımış oluruz. İnsanın ses yolunun anatomik yapısına baktığımızda ağız ve boğazda ayarlanabilir bir çok kısım olduğu görülür. Bundan dolayı çok sayıda ses filtresi oluşturmak gerekmektedir. Sözcük üretimi için beyin sinyal üretir. Bu sinyaller yüz kasları ve ses yolunu etkiler. Buna bağlı olarak bilgisayarda insan sesi oluşturmak için, insan yapısındakine benzer sayıda filtre oluşturulması gerekir. İnsan yüzünde, ağız ve boğazda yaklaşık 49 tane kas olduğunu düşünürsek, önceden tanımlanan gırtlaksal darbedeki değişimlerin hareket ettirilmesi ile bilgisayarda 49 tane ses filtresi benzetimi oluşturulmalıdır (Sclater, 1983). İnsan bu 49 filtreyi otonom olarak kendi oluşturmakta ve filtreleri belli bir düzen içerisinde sıralı olarak kullanmaktadır. Bir dalga formuna benzer bir gırtlaksal darbe, bir ses filtresi içine girdiğinde akustik olarak şu olaylar oluşur. Sesin Doğası ve Oluşumu 12 • • Ses filtresi frekansının değişmesiyle şekli de değişir. Her ne kadar tek frekans tınlatıcısından (rezonatör) bahsetsek de ses yolunda etkili olan bir çok filtre vardır. Bu filtrelerin her biri tınlama frekansına sahip olup, sözcük üretimi esnasında çok hızlı değişir. • Konuşulan sözcüğe bağlı olarak frekans spektrumunda sürekli yukarı veya aşağıya doğru hareket ile sözcük üretimi esnasında, formant frekanslarında bir eş zamanlılık oluşur. Konuşan bir kişiyi dinlerken tek bir frekans veya dalga formu işitmeyiz. Gırtlaksal darbeden filtreleme yapılarak çok sayıda ses tonu elde edilebilir. Yukarıda da anlatıldığı üzere insan ses yolunun çeşitli kısımları bir filtre özelliği göstermektedir. Bunun sonucu olarak çeşitli sesler elde edilmesini sağlamak için bu özellikten yararlanılır. Şekil’de insanın boğaz, ağız, diş, dudak ve burun bölgesinde, ünsüzlerin oluşma yerleri gösterilmektedir. Ünlülerin çıkışında direkt olarak ses telleri etkili olmaktadır. Ağız, burun ve dişlerin ünlü çıkışına etkisi yoktur. Doğal seslerin oluşumunda ses yolunun basit bir modeli yukarıda olduğu gibidir. Cinsiyete ve yaşa göre bu uzunluk değişebilir. bir erkeğin tipik ses yolu uzunluğu 17,6 cm dir. Bir kadın ses yolu erkeğin ses yoluna nazaran % 15-20 daha kısadır.5 Ses yolu frekansı Fres=sC/4L ile hesaplanır. Burada “C” sesin havadaki hızını, “L” ses yolu uzunluğu 4 ise formant sayısını gösterir. 5 ERTAŞ, F. (2001) Yazılım Tabanlı Sözcük Sentezleyici. DEÜ Müh.Fak.Fen ve Müh. Dergisi 3:1-27. Sesin Doğası ve Oluşumu 13 Yandaki şekilde ötümlü seslere ait ses yolunun aldığı şekil ve örüntü formantları verilmiştir. KONUŞMA SESLERİ Bir dili oluşturan en basit ve en temel birimler olup harf adı verilen simgeler ile temsil edilen sesler, ünlü (vowel) ve ünsüz (consonant) sesler olmak üzere iki grupta toplanır. Sesin Doğası ve Oluşumu 14 Ünlüler, özgür ve gürültüsüz seslerdir. Bir diğer tanımıyla akciğerden gelen soluğun hiçbir sürtünme ve engellemeye uğramadan dilin üstünden geçerken çıkardığı seslerdir. Bu sesler çıkarılırken konuşma organlarının herhangi bir yerinde kapanma ya da daralma olmadığı için gürültüsüzdürler. Ünlülerin çıkarılışında en önemli görevi üstlenen organlar dil, çene ve dudaklardır. Bu nedenle ünlülerin tanımsal ayrımlanması bu organların durumuna göre yapılır6. Ünsüzler, konuşma seslerinin ikinci büyük kümesini oluşturan ünsüzler, engelli seslerdir. Çıkarılışları sırasında konuşma organlarının herhangi bir yerinde alıkonulurlar ve bunun sonucu olarak bir sürtünme ya da patlama biçiminde oluşurlar. Ünsüz sesler de kendi aralarında ötümlü (voiced) ve ötümsüz (unvoiced) olmak üzere iki gruba ayrılır. Ötümsüz ünsüzler için ses telleri açık tutulur. Ağız ve/veya burun boşluğunda havaya uygulanan kuvvetle hava türbulans yapar ve sonucunda gürültü şeklinde bir uyartı oluşur. Ötümlü ünsüzler ise ses tellerine ihtiyaç duyarlar7. Ünlüler Geniş Dar Geniş Dar Kalın a ı o u İnce e i ö ü Ünsüzler Sürtünme Patlamalı Geniz Kaygan Ötümlü c, j, v, z b, d, g m, n ğ , l, r, y Ötümsüz ç, f, h, s, ş t, k, p - - Yukarıda verilen konuşma seslerinin analizine geçmeden bazı temel kavramları anlatmakta yarar var. Konuşma Sinyalinin Sayısal İşlemi Spektrografik analiz, bilgisayarların kullanılmasına başlandıktan sonra yaygınlaşmış ve yeni teknikler ortaya çıkmıştır. Spektrogramın oluşturulabilmesi için analog sinyal sayısallaştırılmalıdır. Sinyal sayılaştırılma işleminin temeli örnekleme ve nicemlemedir. Örnekleme (sampling): analog sinyalin örnek serilere dönüştürülmesi işlemidir. Örneklenen iki nokta arasındaki enerji göz önüne alınmaz, Nyquist’un kuramına göre örnekleme oranı belli değerde seçilirse örneklenen sinyal, özgün sinyal ile aynı bilgiyi içerir. Bu oran en yüksek frekans değerinin en az iki katı olmalıdır. Yani 10 kHz’de alçak geçiren 6 ERGENÇ, İ. (1995). Konuşma Dili ve Türkçe’nin Söyleyiş Sözlüğü. Ankara, s.:11-28. 7 DEMİRCAN,Ö. (1996). Türkçe’nin Sesdizimi.İstanbul. Sesin Doğası ve Oluşumu 15 filtreden geçirilmiş analog sinyale en az 20 kHz’de örnekleme yapılırsa, sayısallaştırılmış sinyal özgün sinyalle aynı bilgiye sahip olur. Eğer örnekleme sayısı düşük olursa yeniden isimlendirme (aliasing) ortaya çıkar ki bu da özgün sinyalin bozulması demektir. Nicemleme (quantization): sayısallaştırma içinde yapılan işlemlere Nicemleme denir. Örneklenen sinyalin önündeki ve arkasındaki sinyalin öngörülmesiyle örnekleme ve genlik düzeylerinin rakamsal karşılıklarına çevrildiğinde nicemle işlemi tamamlanmış olur. Nicemleme seviyeleri arttırılırsa nicemlenen sinyal ile özgün sinyal arasındaki benzerlik de artar. Fazla düzeyde nicemleme yapılırsa nicemleme gürültüsü denen bozulmalar meydana gelir. Eklenen her bit için nicemleme seviyesi iki kat artar. • 1 bit 32 seviye (örnekleme sayısı) • 8 bit 256 seviye • 9 bit 512 seviye • 10 bit 1024 seviye ye karşılık gelir. SPEKTRAL ANALİZ VE FİZYOLOJİSİ 1. Formant frekansları: ünlülerin tanınmasında en önemli kriterdir. Sese tınısını ve rengini F1 ve F2 ağırlıklı olmak üzere ilk üç formant verir. Modern Spektrogramlar ile bu değer otomatik olarak bulunur. 2. Formant Aralıkları : parametreler arasındaki (F1-F2) mesafenin ölçülmesidir. Bu aralık ağız boşluğunun geniş kullanılması durumunda doğru orantılı olarak artar. 3. Patlama çubuğu (burst bar) spektrogramı: patlayıcı ünsüzlerde ölçülen bu parametre spektrogramda dikine ve kısa süreli Sesin Doğası ve Oluşumu 16 4. (5-10ms) bir enerji yayılımı olarak görülür. Patlamalı ünsüzlerde (b,d,g) patlama çubuğu daha zayıftır. 5. Sesin tellerinin periyodik olarak titremeye başlama süresi (VOT-voice onset time): patlayıcı ünsüz harflerde aynı eklemleme bölgesinde oluşan (p/b), (t/d), (k/g) çiftlerini ayırt etme yoludur. Ünsüz patlayıcı (p,t,k) seslerinde spektrogramda önce patlama çubuğu görülür, bu esnada F0 görünmez. Aynı anda ses sinyalinin dalga şekli incelendiğinde patlama sinyalinden kısa bir süre sonra düzenli ve periyodik dalgaların başladığı görülür. Bu süre genelde patlama sesini oluşturmak için bir pozisyon almış olan dilin bu sesi takip eden ünlünün sesletileceği noktaya kadar gitmesine yetecek bir zaman dilimi kadardır. Ünsüzler için VOT=15-50 ms arasında değişir. Ötümlü patlayıcılarda (b,d,g) VOT=130 ms’dir. Lisker&Abramson). Yukarıda “para” kelimesinin spektrogramı verilmiştir. /p/ nin sesletiminde geçen süre 38 ms’dir8. 6. Formant Geçişi (TF): spektrogramda sessiz harften sesliye geçiş bölgesinde, sessiz harfin patlama çubuğu ile sesli harfin formantlarının uyum sağladığı bölgedir. Patlama sesini yaratan dil, dudaklar ve ağız boşluğu, ünlü formantlarını yaratabilmek için yeni bir şekil alırlar. Bu nokta formantların geçiş bölgesidir. Spektrogramdan geçiş açısı (başlangıcı ve sonu arasındaki fark) ve geçiş süresi ölçülür (konuşmanın değerlendirilmesinde ikinci derecede önemlidir, çünkü ölçümü çok zordur) 7. Geniş Bant Spektrogramlar: Spektrografik incelemede koyu alanlar sesin şiddetini, koyu düşey paralel çizgiler frekans alanındaki büyük genlik geçişlerini belirtir. Bu çizgilerin her biri gırtlak dürtüleri sonucu ses yolunda oluşan havanın tınısını gösterir. Perde (pitch) olarak tanımlanan çizgiler ünlülerde daha ayrıntılı oluşur. Perde değeri ölçülecek kelimenin başlangıç ve bitiş yerleri zaman ekseninde tespit edilir, bu aradaki düşey paralel çizgiler sayılır ve zamana bölünür. (örnek : vuru sayısı 15, zaman 0,117 ise perde değeri 128 Hz bulunur). Yandaki Spektrogram, 75 noktada 215,33 Hz bant genişliğinde alınmış bir geniş bant örneğidir. 8 Ölçümler KAY CSL-4300B cihazıyla yapılmıştır. Sesin Doğası ve Oluşumu 17 8. Dar Bant Spektrogramlar: Geniş bant spektrogramda temel frekansı görmek zordur. Çünkü bant genişliği çok büyüktür. 59 Hz bant genişliğinde dar-bant spektrogramında temel frekansı ve geniş formant aralıklarında yatay çizgilerle harmoniklerini daha ayrıntılı olarak görebiliriz. Bu nedenle dar-bant Spektrogram perdedeki değişiklikleri görmek için oldukça iyi bir yöntemdir. Yandaki Spektrogram, 512 noktada 31,54 Hz bant genişliğinde alınmış bir dar bant örneğidir. SESLEMDEKİ ÜNSÜZLERİN AKUSTİK ÖZELLİKLERİ (The acoustic properties of consonants in syllable) Ünsüzlerin akustik özellikleri ünlülere göre daha karmaşıktır. Ünlüler, süre ve formant değerleri gibi spektral bilgilerle tanımlanabilir. Fakat aynı durum ünsüzler için söylenemez. Çünkü her biri ayrı akustik özellik gösterir. F3 F2 F1 Bazı ünsüzler ses yolunda meydana gelen bazı periyodik engellerle oluştuğu halde, bazıları yalnızca ses yolunun daralmasıyla oluşur. Bazıları da tamamen ağız boşluğunda veya burun boşluğunda oluşturulurlar. Bu farklılıklarından dolayı ünsüzler patlamalı, geniz ve sürtünücü gibi gruplara ayrılırlar. Sesin Doğası ve Oluşumu 18 Ünsüzlerin (patlamalı, nazal ve sürtünücü) Spektrografik incelenmesi: Patlamalı sesler: Patlamalı ünsüzler, ötümlü ve ötümsüz olarak ikiye ayrılır. Ötümlülerde ses, havanın ses tellerinden gırtlağa doğru geçmesi ile oluşur, bu nedenle spektrogramda belirlenebilir. Ötümsüz patlamalı sesler ağzın ön tarafından sesin salıverilerek iletilmesi sırasında oluşacak gecikme ile ifade edilebilir. Bu gecikme 25-100 ms arasındadır. Sesin salıverilmesi ile ses tellerinin titreşmesi arasında bir ilişki vardır, bu ilişkiye sesin sesletim zamanı (voice onset time=VOT) denir. Ötümlü patlamalı ünsüzler için VOT=0’dır. Bu salıverilme zamanı ile sesletim zamanının aynı anını ifade etmektedir. VOT’un en küçük negatif değerinde (VOT=10) sesletim, salıverilmeden önce olur. Bu durum ön sesletim diye tanımlanır. Eklemleyiciye (articulator) göre değişen ve enerjinin en az olduğu anda, dalga şeklinde bir yatay çubuk görünür. Formant geçişi: sesletim sırasında patlamalı ötümsüz ile ötümlü arasında yaklaşık 50 ms lik bir geçiş süresi varsa, akustik iletimde iletim süresi 50 ms dir. Yukarıdaki şekilde /ba/, /da/ ve /ga/ seslemleri için formant geçişleri görünmektedir. Her bir seslem için F1 frekansı patlamalı ötümsüzden ötümlüye doğru artmaktadır. F2 ve F3 formant frekansındaki değişiklik F1 dekinden farklıdır. Formant geçişleri doğal konuşmanın analiz edilmesinde iyi birer veri olmasına rağmen zamandaki değişiklikler, değişme alanı ve kesişme noktaları gibi sebeplerden dolayı ölçümü zordur. /d/ sesini takip eden farklı ünlüler için [dide-da-du] F2 geçişleri ve bölge frekansları Spektrogram ile verilmiştir. /d/ ile seslendirilen 3 ünlü sesbirim (phoneme) için F2 formant değeri /e/ 1824, /u/ 1422 ve /a/ için 1923 Hz bulunmuştur. Bu üç F2 değerin ortalamasından bölge (locus) frekans değeri 1723 Hz elde edilmiştir . Sesin Doğası ve Oluşumu 19 frekans F2 (1923 Hz)/da/ F2 (1824 Hz)/di/ Bölge frekansı F2 (1422 Hz)/da/ zaman Parçalar birbirinden uzaklaştığı halde basınç noktası aynıdır. Benzer durum F3 geçişlerinde de görülür. F1 formantı, sesletimin tarzını ve biçimini, F2 ve F3 formantları ise sesletimin yerini belirler. Formant değerleri akustik kurama göre tını (rezonans) frekanslarının hesaplanmasıyla bulunur. Ötümsüz ünsüzler için F2 ve F3 formant değerleri tümce içi kullanımında ötümlüye göre sürekli değişir ve bu değer ötümsüzler tek başınayken elde edilen değerden farklıdır. Bu duruma göre, Bölge (locus) teorisi şu şekilde açıklanabilir; bu teori belirli bir sese ait her bir formantın belli bir frekans bölgesinde toplandığını varsaymaktadır. Gerçekte bölge frekansı çoğunlukla birlikte sesletim (coarticulation) den dolayı hiçbir zaman ulaşılamayacak sabit bir noktadır. Ancak, araştırmalar patlamalı dil art damak (velar stop) seslerinde her bir formant ve bütün ünlüler için tek bir bölge frekansı tespit etmenin imkansız olduğunu göstermiştir. Bunun üstesinden gelmek için bu teorinin savunucuları iki tip bölge frekansı olduğunu öne sürmüşlerdir. Ön ünlüler (front vowels) ve arka ünlüleri barındıran ses grupları. Bu da çok açıklayıcı bir çözüm olmamıştır. Sürtünücü Ünsüzler: patlamalı ve çarpmalı ünsüzler ile karşılaştırıldığında sürtünücü ünsüzler düzenli olmayan enerjiye sahiptirler ve daha uzun sürelidir. Bu süre için kesin bir belirleme yapılamaz çünkü tümcedeki diğer harflere bağlıdır. Sürtünücü ünsüzleri incelemek için en iyi yol FFT ve LPC incelemesidir. Sesin Doğası ve Oluşumu 20 Şekilde, /s/ siyah FFT, kırmızı LPC, /z/ mavi FFT ve açık mavi LPC yi göstermektedir. Jongman’ın 1989 da bulduğu sonuçlarda; süre 74 ms den kısa ise patlamalı, 75-130 ms arasında ise çarpmalı, 130 ms den uzunsa sürtünücü ötümsüz olarak genel bir tespitte bulunmuştur. Doğrusal Öngörümlü Kodlama (Lineer Predictive Coding-LPC): bu teoreme göre bir bütünden alınan her bir örnek bir önceki örneğin doğrusal katsayısıdır. Buna göre sinyal aynı seviyede kaldığı sürece değişen tek parametre zamandır. LPC analizi, FFT gibi zaman/frekans boyutundaki grafikleri gösterir. LPC doğrudan Formant frekanslarını ve genliği gösterirken, FFT temel frekansın harmoniklerini (katsayıları) gösterir. LPC bir grup harmoniği zarf gibi kaplar ve tepe noktasını o formantın frekansı olarak belirler. Öngörüm analizleri yalnızca tınlatıcı (rezonatör) modeller içindir, karşı tınlatıcılar (antirezonatör) için değildir. Oysa ses yolunda, özellikle Nazal seslerin oluşumu sırasında karşı-tınlatıcılar oluşur. Bu nedenle LPC analizi bu tür sesleri analiz etmek için çok iyi bir seçim değildir. Nazal Sesler: Nazal sesler /m,n/ ağız boşluğu kapanarak havanın geniz boşluğundan çıkarılması sonucu oluşur. Nazal seslerin temel üç özelliği vardır. Sesin Doğası ve Oluşumu 21 • • • larda ve formant olmayan yerlerde yüksek derecede koyuluk vardır. Hemen hemen hepsinin formant değeri 300 Hz’dir. Bant genişliği büyüktür ve bu sesin enerjisindeki soğurulma hızını yavaşlatır . Formant- Yukarıda /m ve n/ seslerine ait Spektrogram görülmektedir. F2 ve F3 formant değerleri bir birine çok yakındır, çünkü geniz boşluğunda son sesletim doğrusaldır. Sesin Doğası ve Oluşumu 22 SESLEMDE ÜNLÜLERİN AKUSTİK ÖZELLİKLERİ (The acoustic properties of vowels in syllable) Genellikle düşük ünlüler yüksek F1 frekansına, yüksek ünlüler düşük F1 frekansına sahiptir. Gerideki ünlüler düşük F2 frekansındadır ve F2-F1 farkı küçüktür. Öndeki sesli harfler yüksek F2 frekansındadır ve F2-F1 farkı büyüktür. Formant değerlerindeki bu farklılık, sahip oldukları frekans ve enerjiden dolayı ünlülere ait spektrogramlarda ayırt edilebilirler. Ünlülerin temel frekansı; sesletim, vurgu, his ve ortama göre çok çabuk değişir. Bant genişliği sesin enerjisinin soğurulmasını yavaşlatır, Formant genliği ve bant genişliği orantılıdır. Genlik ne kadar büyük ise titreşim o kadar büyüktür. Bu nedenle formant frekansı formant genliklerini etkiler. Yanyana olan iki Formant bir birlerini kuvvetlendirir ve genlikleri artar. Bu iki formant birbirinden uzaklaştığında ise etkileri azalır ve genlik değerleri düşer. İKİLİ ÜNLÜ KAYMASI (diphthongs) : İkili ünlüler ses yolunun açılması ve formant şekillerinin tanımlanabilir olması bakımından ünlülere benzerler, tek olarak yeterli karakteristik özellik göstermemelerinden dolayı da ünlülerden farklıdır. İkili ünlü kaymasındaki ünlüler dinamik olduğu için formant şekilleri ses üretimi sırasında hızlı değişir. Sesin Doğası ve Oluşumu 23 Yukarıda üç adet ikili ünlü kaymasının spektrogramı görülmektedir. Her ikili ünlü kaymasının bir başlangıç ve bir bitiş noktası vardır. Yukarıda / ba¤/, / b—¤/ ve /bau/ seslemlerine ait başlangıç ve bitişler verilmiştir. F1 F2 Başlangıç Bitiş Başlangıç Bitiş ba¤ 660 400 1085 2530 b—¤ 625 325 920 2560 İkili ünlüler bir tümce içinde geçerse veya konuşma oranı hızlı ise başlangıç ve bitiş formant değerlerinde değişiklik olur. F1(Hz) b— ¤ 507 500 450 400 ba¤ 377 300 250 200 2400 2364 2200 2000 1500 1044 1000 900 Sesin Doğası ve Oluşumu 820 F2(Hz) 24 KAYNAKÇA 1. John Perr (1994), ([email protected])Basic acoustics and Signal Processing . Erişim: [http://www.linuxfocus.org/English/March2003/article271.shtml] 2. OWENS, F.,J. (1993). Signal Processing of Speech. London, The Macmillan Press. 3. ERTAŞ, F. (2001) Yazılım Tabanlı Sözcük Sentezleyici. DEÜ Müh.Fak.Fen ve Müh. Dergisi 3:1-27. 4. ERGENÇ, İ. (1995). Konuşma Dili ve Türkçe’nin Söyleyiş Sözlüğü. Ankara, s.:11-28. 5. DEMİRCAN,Ö. (1996). Türkçe’nin Sesdizimi.İstanbul. 6. Ölçümler KAY CSL-4300B cihazıyla yapılmıştır. Sesin Doğası ve Oluşumu