Sesin Doğası ve Oluşumu (7

advertisement
1
SESİN DOĞASI VE OLUŞUMU
The Nature of Sound
Levent GÜNER
Prof.Dr. İclal ERGENÇ
ÖZET :
Bu bölümde, ses nasıl oluşur, nasıl duyarız, yapısı nasıldır, bilim adamlarının bu
konular üzerindeki çalışmaları nelerdir? sorularına yanıt aranacaktır.
Fiziksel olarak ses, gaz, sıvı veya katı ortamlarda oluşan mekanik titreşimlerdir. Bu
titreşimlerin ses olarak algılanabilmesi için, yayılım ortamı (propagation medium),
kulak hassasiyeti (duyu yeteneği) ve enerjiye sahip olması gerekir.
Maddesel ortamın herhangi bir bölgesinde oluşan bir hareket, maddenin esnekliği
nedeniyle diğer bölgelerin de harekete başlamasına neden olur, bu hareket sesin
duyulmasını sağlar. Havasız (vakum) ortamda ses yayılamayacağı için duyulamaz.
Bir nesnenin her titreşmesinde, bu nesnenin çevresini saran havanın yoğunluğu, nem
gibi dış etkenlerin de yardımıyla sese dönüşerek bir parça enerji kaybına neden olur.
Bir ayar çatalı parmaklar arasında vurulursa tınlama sesi çok az duyulur. Bunun
nedeni titreşimin havadaki çiftlemesini tamamlayamamasıdır. Eğer bu bir ağaç veya
metal bir aksama vurulursa titreşim bu yüzeylere daha fazla aktarılacak ve daha fazla
ses duyulacaktır.
Sesler her zaman aynı kalitede ve sürede duyulmazlar. Zaman ile boşluk arasında
önemli bir bağ vardır. Çünkü ses bir dalgadır ve zaman ile boşluk içinde ilerler.Bunu
hesaba katarsak, üç çeşit akustik sinyal tanımlayabiliriz:
•
•
•
Periyodik(continuous) sinyaller, zamanla tekrarlanır ve süreklidirler.
Rastgele(noise-like sound) sinyaller, periyodik değildir. Müzisyenlerin ve bilim
adamlarının beyaz veya pembe gürültü dedikleri sinyallerdir.
Darbeler (impulse-like sound) sinyaller, zamana bağlı olarak tekrarlanmaz
ama şekilleri bellidir.
BASİT UYUMLU HAREKET (Simple harmonic motion)
Kendini yenileyerek sürüp giden bir harekete yenilenen hareket denir. Ucunda ağırlık
asılı bulunan bir yayın çekilip bırakılmasıyla oluşan hareket periyodik bir harekettir.
Dengedeki bir sisteme dışarıdan bir kuvvet uygulanırsa, dengesi bozulacak ve
sistemin her bir parçası bu kuvveti yok edecek yönde davranarak sistemi denge
konumuna getirmeye çalışacaktır. Böylece sistem denge konumunun çevresinde
uyumlu bir salınım yapacaktır. Yenilenen bu hareket tek boyut üzerinde oluşuyorsa
buna basit uyumlu hareket denir.
Sesin Doğası ve Oluşumu
2
Sistemin herhangi bir anda denge konumuna olan uzaklığına uzanım, uzanımın en
fazla olduğu uzaklığa da genlik (amplitude) denir.
P1
P
Genlik (A)=OP veya O P1
O
Küçük genlikli basit uyumlu harekete titreşim denir. Basit uyumlu hareketin bir defa
tamamlanması için geçen saniye cinsinden süreye periyot (T)denir. Bir saniyelik süre
içinde oluşan titreşim sayısına ise frekans (f)denir ve Hertz olarak adlandırılır.5 Hz
saniyede beş devire karşılık gelir. Dönüş veya titreşim hızı arttıkça frekans büyür,
periyot küçülür (f=1/T).
Basit uyumlu hareket zaman
içinde bir sinüs eğrisi oluşturur.
Bir ses titreşimini temsil eden bu eğrinin
genliği zaman içinde küçülür.
Titreşim sönerken genlik küçülür, sesin
gürlüğü azalır. Sistem değişmediği
sürece basit uyumlu hareket
sonucu oluşan frekans ve periyot
değişmez. Ses duyulmaz hale
gelene kadar geçen süreye
sönümlenme (damping) süresi
denir.
Gelen iki ses arasında faz farkı
olabilir, bu durumda iki dalga formu
arasındaki ilişki yandaki şekilde
gösterilmiştir. Bu faz farkı sinyalin
ölçümünde dezavantaj olarak
ortaya çıkar. Aralarında faz farkı
Sesin Doğası ve Oluşumu
3
olan iki basit ses aynı anda kulağa gelirse, gürlüğü faz farkının büyüklüğüne bağlı
olarak azalan bir ses duyulur.
Aynı fazda ve
frekansta iki dalganın
birleşmesi durumunda
genlik de buna bağlı
olarak iki katına
çıkacaktır.
KARMAŞIK TİTREŞİMLER (Complex vibrations)
Birden fazla sinyalin aynı anda bir düzlemde başlayan hareklerine birleşen hareket
denir. Birleşen hareketlerin periyotları aynı olmadığı durumda sinyal bileşkesi, alınan
girdi sayısına bağlı olarak gürleşip hafifleyerek dalgalanır.
Aşağıdaki
şekilde
üç
sinüzoidal
sinyal
bileşeni
verilmiştir. Bunları aynı yere
bağlı üç top olarak düşünelim
ve fx, fy ve fz olarak
adlandıralım. Birinci sinyal ile
ikinci sinyal arasında ∆f =fxfy=100 Hz fark olacaktır. Bu
durumda
ikinci
sinyalin
frekans çemberi üzerinde
dönen noktanın birinciden
daha hızlı (üçüncüden daha
az) döndüğü ve bir saniye
içinde birinciden yüz kez
fazla, üçüncüden 100 kez
yavaş döndüğü söylenebilir.
Bu bileşke hareket nedeniyle
beyinde
uyanan
ses
duyusunun
gürlüğünün
saniyede
200
defa
şiddetlendiği, 200 defa da
zayıfladığı hissedilir. Bu genlik
dalgalanmalarına
beyaz
gürültü (=vuru)(white noise)
Sesin Doğası ve Oluşumu
4
denir. Beyaz gürültünün frekansı bileşen frekansların farkının ortalamasına eşittir. Bu
bileşke sesin genliği beyaz gürültü frekansına bağlı olarak azalır yada artar. İki en
yüksek ve en düşük genlik değer arasında geçen süre beyaz gürültünün periyodunun
oluşturur.
TINI (Resonance)
Bir sarkaca anlık bir kuvvet uygulandığında oluşan titreşime öz titreşim denir. Öz
titreşimin oluşabilmesi için bir birine enerji aktarabilecek iki ayrı sisteme gerek vardır.
Bu sistemden daha güçlü olanına uyarıcı sistem denir. Uyarıcı sistemin etkisiyle
zorlanmış bir titreşim yapan sisteme tınlatıcı (rezonatör) denir.
Uyarıcı sistemin frekansı ile tınlatıcının öz frekansı (resonant frequency) aynı
değerde ise özel bir zorlanmış titreşim oluşur. Bu titreşimin genliği, uyarıcı titreşimin
genliğine göre çok büyük değerler alabilir. Böylece uyarıcı titreşim, tınlatıcı tarafından
güçlendirilmiş olur. Bu olaya tını (rezonans) denir. Yani uyarıcıya karşı gösterilen
tepkidir.
Tınlatıcıların davranışları, kendi öz titreşimlerinin sönme süreleriyle ilişkilidir ve
genlikleri zamanla küçülür ve bir süre sonra titreşim söner.
Yumuşak sönümlü
Hızlı sönümlü
Yukarıdaki şekil tepe noktası öz
frekansa karşılık gelen tını eğrisidir.
Bant genişliği ne kadar fazla ise sönüm o
kadar hızlı olur.
3 dB
Bant genişliği; genliğin en üst noktasının 3
dB altında iki nokta arasında formant
genişliği ölçülerek bulunur.
Sesin Doğası ve Oluşumu
5
SES DALGALARININ TEMEL GENLİK ÖZELLİĞİ (Basic amplitude properties of
sound waves)
Ses genliği değişik yollardan hesaplanabilir. Şekil’de
ölçümleri verilmiştir.1
genlik seviyelerinin çeşitli
Genlik
seviyesinin
çeşitli ölçümleri
Sembol
İsim
Tanım
Aortalama Ortalama Genlik
Pozitif sinyalin matematiksel ortalaması
ARMS
Root mean square
Genliğin enerji içeriğine oranı
Atepe
Tepe Genliği
Maksimum Pozitif Genlik
Atepe-tepe Tepeden Tepeye Genlik Pozitiften negatife maksimum genlik
Ortalama genlik sadece teorik bir ölçümdür ve teknik olarak kullanılmaz. Diğer
yönden, RMS (root mean square) değeri evrensel olarak eşdeğer sinyalleri ölçmek
için kabul edilmiştir (genellikle sinüs dalgaları için kullanılır).
Seslemlerin her biri için karşılık gelen ortalama genlik değerini bulmak için kullanılan
yöntemlerden biri de, RMS değerini bulmaktır. Bunun için şu işlemler yapılmalıdır:
•
•
•
•
•
Bir aralık seçilir,
Bu aralıktaki (pencere) her örneğin, negatif değerleri ve küsuratları atılır ve
değerinin karesi alınır.
Bulunan sonuçların matematiksel ortalaması alınır,
Elde edilen değerin kare kökü bulunur,
Bir sonraki aralığa geçilir ve işlem tekrarlanır.
1
John Perr (1994), ([email protected])Basic acoustics and Signal Processing .
Erişim: [http://www.linuxfocus.org/English/March2003/article271.shtml]
Sesin Doğası ve Oluşumu
6
SES DALGALARININ ZAMAN EKSENİNDEKİ ÖZELLİKLERİ (Time domain
properties of sound waves)
Ses dalgalarının analizinde zaman ve frekans ilişkisinin uyumluluğu çok önemlidir.
Şekil’de “seat” kelimesinin ötümlü bölgesindeki süre ölçülmüştür. Tek kelimelik bir
incelemede bölümleme yapılması zor değildir.
Asıl sorun uzun
bir konuşmada,
konuşmanın
başlama ve bitiş
yerinin
ölçülmesidir.
şekildeki örnekte
“I said “pen, not
“pan”. Tümcesinin
bölümlenmesi
“seat”
kelimesindeki
kadar kolay
değildir.
SES DALGALARININ FREKANS EKSENİNDEKİ ÖZELLİKLERİ (Frequency
domain properties of sound waves)
Titreşimin basit şekli sinüzoidal bir eğri ile gösterilmiştir. Bu dalga şeklinin karmaşık
yapısının matematiksel olarak çözümlenmesi için, Fransız Josep Fourier tarafından
denklem haline sokulmuş bir kuram vardır(fourier transformu-FT). Bu kurama göre;
periyodik ses dalgasının, genlik ve faz değişkenli sinüzoidal serilerin toplamı olarak
analiz edilebileceği ortaya konulmuştur. Bu dalgaların her bir frekansı “temel
frekansın” katları şeklindedir. Tekrarlayan bu dalgalara harmonik denir. Fourier
analizinde, zaman ve periyodik genlik frekans dalga şekli, frekans dalga şekline iletilir
ve frekans bileşenlerinin genlik grafiği olan spektrum oluşturulur. FT’nin ses
spektrografisi kullanımında bazı problemler vardır. Bu problemler;
• FT periyodik dalgalara uygulanır, oysa konuşma sesleri tamamen periyodik
değildir.
• FT sürekli dalga şekilleri üzerinedir, oysa sayısal analizde sinyal üzerinden
bazı bölgelerden örneklem alınması gerekmektedir.
• FT sınırlı ölçüde seriye uygulanabilmektedir.
Sesin Doğası ve Oluşumu
7
Bu nedenle sesin sayısal ortamda (bilgisayar) sinyal analizinin yapılabilmesi için
sinyal parçalara ayrılıp küçük ve belli zaman aralıkları içinde analiz edilir, bu işleme
de Hızlı Fourier Dönüşümü (Fast Fourier Transform) denir.
Sayısallaştırılmış bir sesin zaman ve frekans ekseni bize şu bilgileri verir:
Zaman Ekseni
Dalga şekli
Dalga şekli girişi
Girdi sinyalin geri oynatımı (play back)
Temel frekans analzi
Frekans Ekseni
Spektrogram
Seçilen Sinyal aralıkları için FTT ve Doğrusal Öngörümlü Kodlama
(DOK-LPC)
Formant izleri
Temel frekans analizi
Sinyal gürültü oranı
Bazı sinyallerin frekans eksenindeki gösterimi ve spektrumları aşağıda verilmiştir. 2
Sinüs sinyali
(basit ve
periyodik)
İki sinüs
sinyalinin
birleşimi
2
John Perr (1994), ([email protected])Basic acoustics and Signal Processing .
Erişim: [http://www.linuxfocus.org/English/March2003/article271.shtml]
Sesin Doğası ve Oluşumu
8
Kare dalga
(karmaşık
ama
periyodik)
Rastgele sinyal
(karmaşık ve
peryodik değil)
Sesin Doğası ve Oluşumu
9
SES DALGALARININ BAZI TEMEL ALGISAL ÖZELLİKLERİ (Some basic
perceptual properties of sound)
Algılamada beyin çok önemli bir rol oynamaktadır. Çünkü beyin, sesi tanıma
esnasında ses seviyesine göre ve sesin süresine göre bütün analizleri yapar. Beyin,
sesin geldiği yeri, kime ait olduğunu tespit etmek için iki kulaktan gelen bilgileri
birleştirir ve sesin nereden geldiğine ve kime ait olduğuna karar verir.
Bir sesin işitme sisteminde algılanan gürlüğü, ses basınç seviyesi (sound pressure
level-SPL) ile orantılıdır. Akustikte ses şiddeti DESİBEL ile ölçülür.
Bazı ses basınç seviyeleri
şöyledir.
•
•
•
•
•
•
•
Sesin duyulma seviyesi
değişebilmektedir:3
3
aşağıdaki
sebepler
John Perr (1994)
Sesin Doğası ve Oluşumu
130 dB çok yüksek
ses. Yüksek vurgulu
çalgılar, uçak motor
gürültüsü…
100 dB ambulans
yada polis sireni…
70 dB normal
konuşma…
60 dB bir çalışma
yerindeki arka
gürültü…
40 dB çok düşük
seviyedeki
konuşma…
20 dB ses yalıtımı
yapılmış oda, ses
kayıt stüdyoları…
0 dB
duyma
sınırı
nedeniyle
kişiden
kişiye
10
•
•
•
•
tecrübe: örneğin müzisyen olmak ya da olmamak.
gürültüye maruz kalma: iş makineleri kullanıcısı,
yaş.
...
Bir sesin işitme sisteminde uyandırdığı tizlik/peslik
duygusu perde (pitch) olarak
tanımlanır.
Bu duygunun ölçüsü, ses
kaynağının
titreşim
frekansıdır.Bir
sesin
frekansı arttıkça perdesi
yükselir (tizleşir), frekansı
azaldıkça perdesi düşer
(pesleşir). Ancak frekans
ve perde arasındaki ilişki
doğrusal
olmadığından
MEL adı verilen bir birim
ortaya atılmıştır. Bu birim perdedeki eşit artışlara karşılık gelmekte ve bu artışları
frekansla ilişkilendirmektedir.
Yandaki şekil frekansa göre MEL
değerlerini
göstermektedir. 100 Hz in altında algılanan perde ile frekans arasında belirgin,
doğrudan bir ilişki görülmekte, 1000 Hz üstünde bu ilişki logaritmik bir hal almaktadır
KONUŞMA ÜRETİMİNİN
production)
AKUSTİK MODELİ (The acoustic model of speech
Doğal sesli harflerin oluşumunda, ses yolunu eşit dağılımlı bir tüp olarak
düşünebiliriz. Bu yapının sayısallaştırılması için sesin oluşumunun matematiksel
anlatımını bilmek gerekir.
Bu modelde4, bir ses kaynağından (periyodik ve rasgele dürtüler) gelen sesler, ses
4
OWENS, F.,J. (1993). Signal Processing of Speech. London, The Macmillan Press.
Sesin Doğası ve Oluşumu
11
boşluğundakine benzer tınlatıcı özelliklere sahip bir zaman değiştirici (time-varying)
filtre tarafından süzülürler.
Böylece filtrenin frekans karakteristiği tarafından kaynak spektrumun çoğaltılmasıyla,
konuşma sinyalinin frekans spektrumu elde edilir. Bu durum yukarıda ötümlü ve
ötümsüz sesler için gösterilmiştir. Av ve An ötümlü ve ötümsüz dalgalanmaların
şiddetini tanımlar.
Ses yolu sonsuz sayıda rezonansa veya formanta sahip olmasına rağmen,
incelemelerde frekans aralığı 100 Hz’den yaklaşık 3,5 KHz’e kadar olan bir bölümü
kapsayan ilk üç veya dört formantı ele almak yeterlidir. Bunun nedeni konuşma
sinyalindeki yüksek formantların genliklerinin, yaklaşık 12 dB/oktav’lık yüksek frekans
iniş-çıkışına sahip ötümsüz seslerin kaynağı tarafından hemen hemen tamamıyla
zayıflatılmasıdır. Burada kayda değer bir nokta da, bu kaynak-sistem filtre
modelindeki filtrenin yalnızca ses boşluğunun iletim özelliklerini modellemediği,
ayrıca ağızdan yayılmanın etkilerini de modellediğidir. Akustik yayılma empedansının
etkileri 0-3 KHz aralığında 6 dB’lik bir hızda artış gösteren birinci sınıf yüksek geçişli
bir karakteristik şeklinde yaklaşık olarak modellenebilir.
Kaynak filtre modeli
konuşma işleminin aşırı basitleştirilmiş bir şeklidir. Sızmalı
sesler, ötümlü seslerle aynı derecede ses yolu rezonansı ile filtre edilemezler.
Dolayısıyla kaynak filtre modeli sızmalı sesler için tam doğru değildir.
Uzun dönemdeki değişiklikler hariç sesletim, frekans seviyelerinde küçük
tutarsızlıklar gösterir ve bu da sesin kalitesini biraz etkileyebilir. Bütün
konuşmacılarda bu tutarsızlık görülür. Frekanstaki bu değişik oluşumlara perde
(pitch) JITTER denir. Jitterin en büyük değeri, seslemin en üst noktasındaki en
büyük azalmadan sonra ötümsüz ünlüyü (voiceless consonant) takip eden seslemi
başlatır. Eğer jitter çok yayılmış ise ses kalitesi bozuk algılanır. Seslemleme
genliğindeki tutarsızlık da SIMMER olarak bilinir.
ÜNLÜ ÜRETİMİNDE SES YOLU FİLTRESİ (The vocal tract filter in vowel
production)
Sözcük üretiminin en karmaşık kısmı ses tellerinin üstünde meydana gelir. Ağız,
burun ve dudakların frekans spektrumu oluşturması sırasında seçimsel olarak
harmonik filtreleme yapılır. Çıkardığımız sesleri normal konuşma şablonları olarak
tanımış oluruz. İnsanın ses yolunun anatomik yapısına baktığımızda ağız ve boğazda
ayarlanabilir bir çok kısım olduğu görülür. Bundan dolayı çok sayıda ses filtresi
oluşturmak gerekmektedir. Sözcük üretimi için beyin sinyal üretir. Bu sinyaller yüz
kasları ve ses yolunu etkiler. Buna bağlı olarak bilgisayarda insan sesi oluşturmak
için, insan yapısındakine benzer sayıda filtre oluşturulması gerekir. İnsan yüzünde,
ağız ve boğazda yaklaşık 49 tane kas olduğunu düşünürsek, önceden tanımlanan
gırtlaksal darbedeki değişimlerin hareket ettirilmesi ile bilgisayarda 49 tane ses filtresi
benzetimi oluşturulmalıdır (Sclater, 1983). İnsan bu 49 filtreyi otonom olarak kendi
oluşturmakta ve filtreleri belli bir düzen içerisinde sıralı olarak kullanmaktadır. Bir
dalga formuna benzer bir gırtlaksal darbe, bir ses filtresi içine girdiğinde akustik
olarak şu olaylar oluşur.
Sesin Doğası ve Oluşumu
12
•
•
Ses filtresi frekansının değişmesiyle şekli de değişir.
Her ne kadar tek frekans tınlatıcısından (rezonatör) bahsetsek de ses yolunda
etkili olan bir çok filtre vardır. Bu filtrelerin her biri tınlama frekansına sahip
olup, sözcük üretimi esnasında çok hızlı değişir.
• Konuşulan sözcüğe bağlı olarak frekans spektrumunda sürekli yukarı veya
aşağıya doğru hareket ile sözcük üretimi esnasında, formant frekanslarında bir
eş zamanlılık oluşur. Konuşan bir kişiyi dinlerken tek bir frekans veya dalga
formu işitmeyiz.
Gırtlaksal darbeden filtreleme yapılarak çok sayıda ses tonu elde edilebilir.
Yukarıda da anlatıldığı üzere insan ses yolunun çeşitli kısımları bir filtre özelliği
göstermektedir. Bunun sonucu olarak çeşitli sesler elde edilmesini sağlamak için bu
özellikten yararlanılır.
Şekil’de insanın boğaz, ağız, diş, dudak
ve burun bölgesinde, ünsüzlerin oluşma
yerleri
gösterilmektedir.
Ünlülerin
çıkışında direkt olarak ses telleri etkili
olmaktadır. Ağız, burun ve dişlerin ünlü
çıkışına etkisi yoktur.
Doğal seslerin oluşumunda ses yolunun
basit bir modeli yukarıda olduğu gibidir.
Cinsiyete ve yaşa göre bu uzunluk
değişebilir. bir erkeğin tipik ses yolu
uzunluğu 17,6 cm dir. Bir kadın ses yolu
erkeğin ses yoluna nazaran % 15-20
daha kısadır.5
Ses yolu frekansı Fres=sC/4L ile
hesaplanır.
Burada
“C”
sesin
havadaki hızını, “L” ses yolu uzunluğu
4 ise formant sayısını gösterir.
5 ERTAŞ, F. (2001) Yazılım Tabanlı Sözcük Sentezleyici. DEÜ Müh.Fak.Fen ve Müh. Dergisi 3:1-27.
Sesin Doğası ve Oluşumu
13
Yandaki şekilde
ötümlü seslere ait
ses yolunun aldığı
şekil ve örüntü
formantları
verilmiştir.
KONUŞMA SESLERİ
Bir dili oluşturan en basit ve en temel birimler olup harf adı verilen simgeler ile temsil
edilen sesler, ünlü (vowel) ve ünsüz (consonant) sesler olmak üzere iki grupta
toplanır.
Sesin Doğası ve Oluşumu
14
Ünlüler, özgür ve gürültüsüz seslerdir. Bir diğer tanımıyla akciğerden gelen soluğun
hiçbir sürtünme ve engellemeye uğramadan dilin üstünden geçerken çıkardığı
seslerdir. Bu sesler çıkarılırken konuşma organlarının herhangi bir yerinde kapanma
ya da daralma olmadığı için gürültüsüzdürler. Ünlülerin çıkarılışında en önemli görevi
üstlenen organlar dil, çene ve dudaklardır. Bu nedenle ünlülerin tanımsal
ayrımlanması bu organların durumuna göre yapılır6.
Ünsüzler, konuşma seslerinin ikinci büyük kümesini oluşturan ünsüzler, engelli
seslerdir. Çıkarılışları sırasında konuşma organlarının herhangi bir yerinde
alıkonulurlar ve bunun sonucu olarak bir sürtünme ya da patlama biçiminde oluşurlar.
Ünsüz sesler de kendi aralarında ötümlü (voiced) ve ötümsüz (unvoiced) olmak üzere
iki gruba ayrılır. Ötümsüz ünsüzler için ses telleri açık tutulur. Ağız ve/veya burun
boşluğunda havaya uygulanan kuvvetle hava türbulans yapar ve sonucunda gürültü
şeklinde bir uyartı oluşur. Ötümlü ünsüzler ise ses tellerine ihtiyaç duyarlar7.
Ünlüler
Geniş
Dar
Geniş
Dar
Kalın
a
ı
o
u
İnce
e
i
ö
ü
Ünsüzler
Sürtünme
Patlamalı
Geniz
Kaygan
Ötümlü
c, j, v, z
b, d, g
m, n
ğ , l, r, y
Ötümsüz
ç, f, h, s, ş
t, k, p
-
-
Yukarıda verilen konuşma seslerinin analizine geçmeden bazı temel kavramları
anlatmakta yarar var.
Konuşma Sinyalinin Sayısal İşlemi
Spektrografik analiz, bilgisayarların kullanılmasına başlandıktan sonra yaygınlaşmış
ve yeni teknikler ortaya çıkmıştır.
Spektrogramın oluşturulabilmesi için analog sinyal sayısallaştırılmalıdır. Sinyal
sayılaştırılma işleminin temeli örnekleme ve nicemlemedir.
Örnekleme (sampling): analog sinyalin
örnek serilere dönüştürülmesi işlemidir.
Örneklenen iki nokta arasındaki enerji
göz
önüne
alınmaz,
Nyquist’un
kuramına göre örnekleme oranı belli
değerde seçilirse örneklenen sinyal,
özgün sinyal ile aynı bilgiyi içerir. Bu oran
en yüksek frekans değerinin en az iki katı
olmalıdır. Yani 10 kHz’de alçak geçiren
6 ERGENÇ, İ. (1995). Konuşma Dili ve Türkçe’nin Söyleyiş Sözlüğü. Ankara, s.:11-28.
7 DEMİRCAN,Ö. (1996). Türkçe’nin Sesdizimi.İstanbul.
Sesin Doğası ve Oluşumu
15
filtreden geçirilmiş analog sinyale en az 20 kHz’de örnekleme yapılırsa,
sayısallaştırılmış sinyal özgün sinyalle aynı bilgiye sahip olur. Eğer örnekleme sayısı
düşük olursa yeniden isimlendirme (aliasing) ortaya çıkar ki bu da özgün sinyalin
bozulması demektir.
Nicemleme (quantization): sayısallaştırma içinde yapılan işlemlere Nicemleme
denir. Örneklenen sinyalin önündeki ve arkasındaki sinyalin öngörülmesiyle
örnekleme ve genlik düzeylerinin rakamsal karşılıklarına çevrildiğinde nicemle işlemi
tamamlanmış
olur.
Nicemleme
seviyeleri
arttırılırsa nicemlenen
sinyal ile özgün sinyal arasındaki
benzerlik de artar. Fazla düzeyde
nicemleme
yapılırsa
nicemleme
gürültüsü
denen
bozulmalar
meydana gelir. Eklenen her bit için
nicemleme seviyesi iki kat artar.
• 1 bit
32
seviye
(örnekleme sayısı)
• 8 bit
256 seviye
• 9 bit
512 seviye
• 10 bit
1024 seviye ye karşılık gelir.
SPEKTRAL ANALİZ VE FİZYOLOJİSİ
1. Formant frekansları: ünlülerin tanınmasında en önemli kriterdir. Sese tınısını
ve rengini F1 ve F2 ağırlıklı olmak üzere ilk üç formant verir. Modern
Spektrogramlar ile
bu değer otomatik
olarak bulunur.
2. Formant Aralıkları
:
parametreler
arasındaki (F1-F2)
mesafenin
ölçülmesidir.
Bu
aralık
ağız
boşluğunun
geniş
kullanılması
durumunda doğru
orantılı olarak artar.
3. Patlama
çubuğu
(burst
bar)
spektrogramı:
patlayıcı ünsüzlerde ölçülen bu parametre spektrogramda dikine ve kısa süreli
Sesin Doğası ve Oluşumu
16
4. (5-10ms) bir enerji yayılımı olarak görülür. Patlamalı ünsüzlerde (b,d,g)
patlama çubuğu daha zayıftır.
5. Sesin tellerinin periyodik olarak titremeye başlama süresi (VOT-voice
onset time): patlayıcı ünsüz harflerde aynı eklemleme bölgesinde oluşan (p/b),
(t/d), (k/g) çiftlerini ayırt etme yoludur. Ünsüz patlayıcı (p,t,k) seslerinde
spektrogramda önce patlama çubuğu görülür, bu esnada F0 görünmez. Aynı
anda ses sinyalinin dalga şekli incelendiğinde patlama sinyalinden kısa bir
süre sonra düzenli ve periyodik dalgaların başladığı görülür. Bu süre genelde
patlama sesini oluşturmak için bir pozisyon almış olan dilin bu sesi takip eden
ünlünün sesletileceği noktaya kadar gitmesine yetecek bir zaman dilimi
kadardır. Ünsüzler için VOT=15-50 ms arasında değişir. Ötümlü patlayıcılarda
(b,d,g) VOT=130 ms’dir. Lisker&Abramson). Yukarıda “para” kelimesinin
spektrogramı verilmiştir. /p/ nin sesletiminde geçen süre 38 ms’dir8.
6. Formant Geçişi (TF): spektrogramda sessiz harften sesliye geçiş bölgesinde,
sessiz harfin patlama
çubuğu ile sesli harfin
formantlarının uyum
sağladığı
bölgedir.
Patlama
sesini
yaratan dil, dudaklar
ve ağız boşluğu, ünlü
formantlarını
yaratabilmek için yeni
bir şekil alırlar. Bu
nokta
formantların
geçiş
bölgesidir.
Spektrogramdan
geçiş
açısı
(başlangıcı ve sonu
arasındaki fark) ve
geçiş süresi ölçülür
(konuşmanın
değerlendirilmesinde ikinci derecede önemlidir, çünkü ölçümü çok zordur)
7. Geniş Bant Spektrogramlar: Spektrografik incelemede koyu alanlar sesin
şiddetini, koyu düşey paralel çizgiler frekans alanındaki büyük genlik
geçişlerini belirtir. Bu çizgilerin her biri gırtlak dürtüleri sonucu ses yolunda
oluşan havanın tınısını gösterir. Perde (pitch) olarak tanımlanan çizgiler
ünlülerde daha ayrıntılı oluşur. Perde değeri ölçülecek kelimenin başlangıç ve
bitiş yerleri zaman ekseninde tespit edilir, bu aradaki düşey paralel çizgiler
sayılır ve zamana bölünür. (örnek : vuru sayısı 15, zaman 0,117 ise perde
değeri 128 Hz bulunur). Yandaki Spektrogram, 75 noktada 215,33 Hz bant
genişliğinde alınmış bir geniş bant örneğidir.
8
Ölçümler KAY CSL-4300B cihazıyla yapılmıştır.
Sesin Doğası ve Oluşumu
17
8. Dar Bant
Spektrogramlar:
Geniş bant
spektrogramda temel
frekansı görmek
zordur. Çünkü bant
genişliği çok büyüktür.
59 Hz bant
genişliğinde dar-bant
spektrogramında temel
frekansı ve geniş
formant aralıklarında
yatay çizgilerle
harmoniklerini daha
ayrıntılı olarak
görebiliriz. Bu nedenle dar-bant Spektrogram perdedeki değişiklikleri görmek
için oldukça iyi bir yöntemdir. Yandaki Spektrogram, 512 noktada 31,54 Hz
bant genişliğinde alınmış bir dar bant örneğidir.
SESLEMDEKİ ÜNSÜZLERİN AKUSTİK ÖZELLİKLERİ (The acoustic properties
of consonants in syllable)
Ünsüzlerin
akustik
özellikleri
ünlülere
göre
daha
karmaşıktır.
Ünlüler, süre ve
formant
değerleri
gibi
spektral
bilgilerle
tanımlanabilir.
Fakat
aynı
durum ünsüzler
için söylenemez.
Çünkü her biri
ayrı
akustik
özellik gösterir.
F3
F2
F1
Bazı
ünsüzler
ses
yolunda
meydana gelen bazı periyodik engellerle oluştuğu halde, bazıları yalnızca ses
yolunun daralmasıyla oluşur. Bazıları da tamamen ağız boşluğunda veya burun
boşluğunda oluşturulurlar. Bu farklılıklarından dolayı ünsüzler patlamalı, geniz ve
sürtünücü gibi gruplara ayrılırlar.
Sesin Doğası ve Oluşumu
18
Ünsüzlerin (patlamalı, nazal ve sürtünücü) Spektrografik incelenmesi:
Patlamalı sesler:
Patlamalı ünsüzler, ötümlü ve ötümsüz olarak ikiye ayrılır. Ötümlülerde ses, havanın
ses tellerinden gırtlağa doğru geçmesi ile oluşur, bu nedenle spektrogramda
belirlenebilir. Ötümsüz patlamalı sesler ağzın ön tarafından sesin salıverilerek
iletilmesi sırasında oluşacak gecikme ile ifade edilebilir.
Bu gecikme 25-100 ms arasındadır. Sesin salıverilmesi ile ses tellerinin titreşmesi
arasında bir ilişki vardır, bu ilişkiye sesin sesletim zamanı (voice onset time=VOT)
denir. Ötümlü patlamalı ünsüzler için VOT=0’dır. Bu salıverilme zamanı ile sesletim
zamanının aynı anını ifade etmektedir. VOT’un en küçük negatif değerinde (VOT=10) sesletim, salıverilmeden önce olur. Bu durum ön sesletim diye tanımlanır.
Eklemleyiciye (articulator) göre değişen ve enerjinin en az olduğu anda, dalga
şeklinde bir yatay çubuk görünür.
Formant geçişi: sesletim sırasında patlamalı ötümsüz ile ötümlü arasında yaklaşık 50
ms lik bir geçiş süresi varsa, akustik iletimde iletim süresi 50 ms dir.
Yukarıdaki şekilde /ba/, /da/ ve /ga/ seslemleri için formant geçişleri görünmektedir.
Her bir seslem için F1 frekansı patlamalı ötümsüzden ötümlüye doğru artmaktadır. F2
ve F3 formant frekansındaki değişiklik F1 dekinden farklıdır.
Formant geçişleri doğal konuşmanın analiz edilmesinde iyi birer veri olmasına
rağmen
zamandaki
değişiklikler,
değişme alanı
ve
kesişme
noktaları
gibi
sebeplerden
dolayı ölçümü
zordur.
/d/ sesini takip
eden farklı
ünlüler için [dide-da-du] F2
geçişleri ve
bölge frekansları Spektrogram ile verilmiştir.
/d/ ile seslendirilen 3 ünlü sesbirim (phoneme) için F2 formant değeri /e/ 1824, /u/
1422 ve /a/ için 1923 Hz bulunmuştur. Bu üç F2 değerin ortalamasından bölge
(locus) frekans değeri 1723 Hz elde edilmiştir .
Sesin Doğası ve Oluşumu
19
frekans
F2 (1923 Hz)/da/
F2 (1824 Hz)/di/
Bölge
frekansı
F2 (1422 Hz)/da/
zaman
Parçalar birbirinden uzaklaştığı halde basınç noktası aynıdır. Benzer durum F3
geçişlerinde de görülür.
F1 formantı, sesletimin tarzını ve biçimini, F2 ve F3 formantları ise sesletimin yerini
belirler. Formant değerleri akustik kurama göre tını (rezonans) frekanslarının
hesaplanmasıyla bulunur. Ötümsüz ünsüzler için F2 ve F3 formant değerleri tümce içi
kullanımında ötümlüye göre sürekli değişir ve bu değer ötümsüzler tek başınayken
elde edilen değerden farklıdır.
Bu duruma göre, Bölge (locus) teorisi şu şekilde açıklanabilir; bu teori belirli bir
sese ait her bir formantın belli bir frekans bölgesinde toplandığını varsaymaktadır.
Gerçekte bölge frekansı çoğunlukla birlikte sesletim (coarticulation) den dolayı hiçbir
zaman ulaşılamayacak sabit bir noktadır. Ancak, araştırmalar patlamalı dil art damak
(velar stop) seslerinde her bir formant ve bütün ünlüler için tek bir bölge frekansı
tespit etmenin imkansız olduğunu göstermiştir. Bunun üstesinden gelmek için bu
teorinin savunucuları iki tip bölge frekansı olduğunu öne sürmüşlerdir. Ön ünlüler
(front vowels) ve arka ünlüleri barındıran ses grupları. Bu da çok açıklayıcı bir çözüm
olmamıştır.
Sürtünücü Ünsüzler: patlamalı ve çarpmalı ünsüzler ile karşılaştırıldığında
sürtünücü ünsüzler düzenli olmayan enerjiye sahiptirler ve daha uzun sürelidir. Bu
süre için kesin bir belirleme yapılamaz çünkü tümcedeki diğer harflere bağlıdır.
Sürtünücü ünsüzleri incelemek için en iyi yol FFT ve LPC incelemesidir.
Sesin Doğası ve Oluşumu
20
Şekilde, /s/ siyah FFT, kırmızı LPC, /z/ mavi FFT ve açık mavi LPC yi göstermektedir.
Jongman’ın 1989 da bulduğu sonuçlarda; süre 74 ms den kısa ise patlamalı, 75-130
ms arasında ise çarpmalı, 130 ms den uzunsa sürtünücü ötümsüz olarak genel bir
tespitte bulunmuştur.
Doğrusal Öngörümlü Kodlama (Lineer Predictive Coding-LPC): bu teoreme göre
bir bütünden alınan her bir örnek bir önceki örneğin doğrusal katsayısıdır. Buna göre
sinyal aynı seviyede kaldığı sürece değişen tek parametre zamandır. LPC analizi,
FFT gibi zaman/frekans boyutundaki grafikleri gösterir. LPC doğrudan Formant
frekanslarını ve genliği gösterirken, FFT temel frekansın harmoniklerini (katsayıları)
gösterir. LPC bir grup harmoniği zarf gibi kaplar ve tepe noktasını o formantın
frekansı olarak belirler.
Öngörüm analizleri yalnızca tınlatıcı (rezonatör) modeller içindir, karşı tınlatıcılar
(antirezonatör) için değildir. Oysa ses yolunda, özellikle Nazal seslerin oluşumu
sırasında karşı-tınlatıcılar oluşur. Bu nedenle LPC analizi bu tür sesleri analiz etmek
için çok iyi bir seçim değildir.
Nazal Sesler:
Nazal sesler /m,n/ ağız boşluğu kapanarak havanın geniz boşluğundan çıkarılması
sonucu oluşur. Nazal seslerin temel üç özelliği vardır.
Sesin Doğası ve Oluşumu
21
•
•
•
larda ve formant olmayan yerlerde yüksek derecede koyuluk vardır.
Hemen
hemen
hepsinin
formant
değeri
300
Hz’dir.
Bant
genişliği
büyüktür
ve bu
sesin
enerjisindeki
soğurulma hızını
yavaşlatır
.
Formant-
Yukarıda /m
ve n/ seslerine
ait
Spektrogram
görülmektedir.
F2 ve F3
formant
değerleri bir
birine çok
yakındır,
çünkü geniz
boşluğunda
son sesletim
doğrusaldır.
Sesin Doğası ve Oluşumu
22
SESLEMDE ÜNLÜLERİN AKUSTİK ÖZELLİKLERİ (The acoustic properties of
vowels in syllable)
Genellikle düşük ünlüler yüksek F1 frekansına, yüksek ünlüler düşük F1 frekansına
sahiptir. Gerideki ünlüler düşük F2 frekansındadır ve F2-F1 farkı küçüktür. Öndeki
sesli harfler yüksek F2 frekansındadır ve F2-F1 farkı büyüktür.
Formant
değerlerindeki bu farklılık, sahip oldukları frekans ve enerjiden dolayı ünlülere ait
spektrogramlarda ayırt edilebilirler.
Ünlülerin temel frekansı; sesletim, vurgu, his ve ortama göre çok çabuk değişir.
Bant genişliği sesin enerjisinin soğurulmasını yavaşlatır, Formant genliği ve bant
genişliği orantılıdır. Genlik ne kadar büyük ise titreşim o kadar büyüktür. Bu nedenle
formant frekansı formant genliklerini etkiler. Yanyana olan iki Formant bir birlerini
kuvvetlendirir ve genlikleri artar. Bu iki formant birbirinden uzaklaştığında ise etkileri
azalır ve genlik değerleri düşer.
İKİLİ ÜNLÜ KAYMASI (diphthongs) :
İkili ünlüler ses yolunun açılması ve formant şekillerinin tanımlanabilir olması
bakımından ünlülere benzerler, tek olarak yeterli karakteristik özellik
göstermemelerinden dolayı da ünlülerden farklıdır. İkili ünlü kaymasındaki ünlüler
dinamik olduğu için formant şekilleri ses üretimi sırasında hızlı değişir.
Sesin Doğası ve Oluşumu
23
Yukarıda üç adet ikili ünlü kaymasının spektrogramı görülmektedir. Her ikili ünlü
kaymasının bir başlangıç ve bir bitiş noktası vardır. Yukarıda / ba¤/, / b—¤/ ve /bau/
seslemlerine ait başlangıç ve bitişler verilmiştir.
F1
F2
Başlangıç Bitiş
Başlangıç
Bitiş
ba¤
660
400
1085
2530
b—¤
625
325
920
2560
İkili ünlüler bir tümce içinde geçerse veya konuşma oranı hızlı ise başlangıç ve bitiş
formant değerlerinde değişiklik olur.
F1(Hz)
b—
¤
507
500
450
400
ba¤
377
300
250
200
2400 2364 2200 2000 1500 1044 1000 900
Sesin Doğası ve Oluşumu
820
F2(Hz)
24
KAYNAKÇA
1. John Perr (1994), ([email protected])Basic acoustics and Signal
Processing .
Erişim: [http://www.linuxfocus.org/English/March2003/article271.shtml]
2. OWENS, F.,J. (1993). Signal Processing of Speech. London, The
Macmillan Press.
3. ERTAŞ, F. (2001) Yazılım Tabanlı Sözcük Sentezleyici. DEÜ
Müh.Fak.Fen ve Müh. Dergisi 3:1-27.
4. ERGENÇ, İ. (1995). Konuşma Dili ve Türkçe’nin Söyleyiş Sözlüğü.
Ankara, s.:11-28.
5.
DEMİRCAN,Ö. (1996). Türkçe’nin Sesdizimi.İstanbul.
6.
Ölçümler KAY CSL-4300B cihazıyla yapılmıştır.
Sesin Doğası ve Oluşumu
Download