MT Between Closely Related Languages

advertisement
Çeviri Sistemleri
İlyas Çiçekli
Bilgisayar Mühendisliği Bölümü
Bilkent Üniversitesi
Bilkent 06800, Ankara
[email protected]
Çeviri Sistemleri
• Tercüme: Kaynak dilde verilen bir metini anlamını
koruyarak hedef dildeki bir metine çevrilmesi.
• Çeviri sistemleri bu tercüme işlemini otomatik olarak
yapmaya çalışırlar.
• Bilgisayar ile çeviri zordur.
– Doğal dildeki bir cümlede her seviyede belirsizlik olabilir:
morfolojik, sözdizim, anlamsal, ...
– Çeviri sırasında bu belirsizliklerin giderilmesi gerekir.
• Çeviri sistemleri değişik yöntemler kullanır.
Çeviri Sistemleri
2
Tercüme Piramidi
Cümlenin Dil Bağımsız
Anlamsal Yapısı (Interlingua)
Kaynak Dildeki
Anlamsal Yapı
Cümlenin Anlamsal
Transferi
Yapısı
Kaynak Dildeki
Cümlenin Sözdizim
Yapısı
Kaynak Dildeki
Cümle
Hedef Dildeki
Cümlenin Anlamsal
Yapısı
Sözdizim Yapı
Transferi
Doğrudan Transfer
Çeviri Sistemleri
Hedef Dildeki
Cümlenin Sözdizim
Yapısı
Hedef Dildeki
Cümle
3
Doğrudan Transfer
• Doğrudan transferde sadece aşağıdaki basit işlem
adımları kullanır.
– Kaynak cümlenin morfolojik analizi
– Kaynak cümle için morfolojik belirsizlik gidericinin
uygulanması
– Kaynak cümlenin morfolojik seviyedeki kelimelerinin hedef
dildeki morfolojik seviyedeki kelimelere transferi.
– Hedef dildeki kelimelerin sıralanın tekrardan belirlenmesi.
– Hedef cümledeki morfolojik seviyedeki kelimelerin
üretilmesi.
Çeviri Sistemleri
4
Sözdizim Yapı Transferi
• Kaynak cümlenin sözdizim analizinin yapılarak sözdizim
yapısının bulunması.
– kaynak dil için morfolojik analizci,
– kaynak dil için morfolojik belirsizlik giderici,
– kaynak dil için sözdizim analizcisi.
• Kaynak cümlenin sözdizim yapısının hedef dildeki sözdizim
yapısına transferi.
– yapıların transferi,
– iki-taraflı sözlük
• Hedef dildeki sözdizim yapısından hedef cümlenin üretilmesi.
– sözdizim yapısından kelime sıraların bulunması,
– morfolojik üretici
Çeviri Sistemleri
5
Dil Bağımsız Anlam Yapısını
Kullanarak Tercüme
• Bu tür tercüme yönteminde çok fazla kaynak gerekir ve bunları
elde etmek pahalı ve kolay değildir.
• Kaynak cümlenin dil bağımsız anlam yapısının bulunması.
–
–
–
–
–
kaynak dil için morfolojik analizci,
kaynak dil için morfolojik belirsizlik giderici,
kaynak dil için sözdizim analizcisi.
kaynak dil için anlamsal analizci
anlamsal yapının dil bağımsız yapıya çevrilmesi (ontoloji denilen dünya
bilgisini saklayan bir kaynak gerekli)
• Dil bağımsız anlam yapısından hedef cümlenin üretilmesi.
– Dil bağımsız anlam yapısının hedef cümleye çevrilmesi
Çeviri Sistemleri
6
Yapıları Birbirlerine Yakın Diller
Arasında Tercüme
• Yapıları birbirlerine benzeyen diller arasında tercüme
benzemeyenlere göre daha kolaydır.
• Birbirlerine benzemeyen diller arasındaki tercüme
sistemleri daha fazla kaynak bilgiye ihtiyaç duyarlar.
– Sözlük, gramer kuralları, aktarma kuralları, ontoloji
– Gerekli kaynakları hazırlamak pahalı olabilir.
• Birbirlerine benzeyen diller arasındaki tercüme
sistemleri daha az kaynak bilgiye ihtiyaç duyarlar.
– Morfolojik Analizciler, Morfolojik Belirsizlik Gidericiler,
Tercüme Sözlükleri ve Basit Tercüme Kuralları
– Anlamsal Analizciye gerek olmayabilir.
Çeviri Sistemleri
7
Türkçe ve Tatarca Arasında Tercüme
• Türkçe ve Tatarca arasında sonlu durum yöntemleri
kullanıldı.
• Türkçe ve Tatarca Gramerleri Birbirlerine Çok
Benzerler
– Türkçe ile Tatarca arasındaki bir tercüme sisteminde kelime
sırası problemiyle ilgilenmemize gerek yoktur.
– Ama Türkçe ve İngilizce arasındaki bir tercüme sisteminde
kelime sırası problemiyle ilgilenmemiz gerekir.
– Basit Tercüme Kuralları (Sonlu Durum Kuralları)
– Bazı belirsizlikler aynen korunduğundan, daha az belirsizlik
problemi.
Çeviri Sistemleri
8
Türkçe ve Tatarca Arasındaki Tercüme Sistemi
Türkçe Metin
Türkçe Morfolojik Analizci
Türkçe Morfolojik Belirsizlik Giderici
Tercüme
1. Gramer Kuralların Tercümesi
2. Duruma Bağlı Yapıların Tercümesi
3. Köklerin Tercümesi
Tatarca Morfolojik Üretici
Tatarca Metin
Çeviri Sistemleri
9
Örneğe Dayalı Bilgisayar ile Tercüme
• Verilen kaynak dildeki cümle kaynak-hedef diller arasında
verilmiş olan tercüme örnek kümesi yardımıyla hedef dildeki
cümleye çevrilir.
• Bazı çeviri sistemleri kaynak-hedef diller arasındaki tercüme
örnek kümesini direk olarak tercüme sırasında kullanır.
– Kaynak cümleye en çok benzeyen cümleler örnek kümesinden bulunarak,
kaynak cümlenin parçaları tercüme edilir.
– Parçalar birleştirilerek tercüme sonucu bulunur.
• Bazı çeviri sistemleri ise örnek kümesinden tercüme kalıpları
öğrenir ve bu tercüme kalıplarını kullanarak kaynak dildeki
cümleyi tercüme ederler.
– İngilizce ve Türkçe arasında bu tür sistem üzerinde çalıştık.
Çeviri Sistemleri
10
İstatiksel Tercüme Yöntemleri
Kaynak-Hedef
tercüme örnek kümesi
Hedef örnek kümesi
İstatiksel Analiz
Kaynak dildeki
cümle
İstatiksel Analiz
Tercüme Modeli
Çeviri Sistemleri
Dil Modeli
Hedef dildeki
cümle
11
İstatiksel Tercüme Yöntemleri
• Dil Modeli
– verilen bir cümle e için, P(e) değerini bulur
– e doğru bir cümle yapısındaysa ve çok kullanılan bir yapı ise
P(e) değeri yüksek olacaktır, aksi halde düşük olacaktır.
• Tercüme Modeli
– verilen iki cümle e ve f için, P(e | f) değerini bulur.
– e ve f bir birlerinin tercümesi olmaya ne kadar uygun ise,
P(e | f) değeri o kadar yüksek olacaktır, aksi halde düşük
olacaktır.
• Ayrıştırma Algoritması
– Verilen bir f cümlesi için P(e) * P(e | f) formülünü en yüksek
değeri verecek olan e cümlesini bulmaya çalışır.
Çeviri Sistemleri
12
Sonuçlar
• Kullanacağımız yönteme göre ihtiyaç duyacağımız
kaynaklar değişir.
– Örneğe dayalı bilgisayar ile tercüme için:
• Büyük tercüme örnek kümeleri. Türkçe için örneklerin morfolojik
seviyede işaretlenmiş olması gerekir.
• Kaynak ve hedef diller için morfolojik analizciler.
• Kaynak ve hedef diller için morfolojik belirsizlik gidericiler.
• Yapıları benzer olan diller arasındaki bir tercüme
sistemi daha az bir çabayla geliştirilebilinir.
– Yapıları benzer olan diller arasındaki tercüme sistemlerinde çoğu zaman sonlu
durum yöntemleri yeterli olabilir.
– Türkçe ve Tatarca arasında kullanılan yöntemler, diğer Türk diller içinde
uygulanabilir.
Çeviri Sistemleri
13
Download