“Eşek yükü” ve “Nükteli sözler”: Makine Çevirisinin Eksikleri Üzerine

Özgün Adı: Shitloads and zingers: on the perils of machine translation

Arthur Goldhammer yazar, çevirmen, eğitmen ve Fransız politikası hakkında bir blog yazarıdır. Fransızca’dan Tocqueville’in Amerika’da Demokrasi’si ve Thomas Piketty’nin 21’inci Yüzyılda Kapital kitapları da dahil 120’den fazla kitap çevirmiştir. Harvard’s Center for European Studies üyesidir ve diğer yazılarının yanı sıra The American Prospect’te yer alan yazıları da bulunmaktadır. Cambridge, Massachusetts’te yaşamaktadır.

Yıllar önce, Amsterdam’dan Boston’a giden bir uçakta, sağ tarafımda oturan iki Amerikalı rahibe, Amerika Birleşik Devletleri’ne doğru yola çıkan heyecanlı ve genç bir Hollandalıyı dinliyordu. Rahibelere nereli olduklarını sordu. Ne yazık ki, Framingham, Massachusetts seyahat programında yoktu, ancak “eşek yüküyle (shitload) zamanı olduğunu ve daha birçok yeri ziyaret edebileceğini” belirtti.

Neşeli genç Hollandalı, görünüşe göre, “eşek yükü”nün, “çok fazla” anlamına geldiğinin farkındaydı. İngilizcenin sentaksına hakimdi ve geniş bir kelime hazinesi vardı. Fakat kelimelerin sosyal bağlamda nasıl kullanıldığına dair deneyimi eksikti.

Yakın zamanda Google Çeviri motorunun ifade-temelli (phrase-based) bir sistemden nöral ağ sistemine geçeceği haberi aklıma aniden bu anıyı getirdi. (Teknik farklılıklar burada açıklanmıştır.) Her iki yöntem de makineyi cümle çiftlerinden oluşan bir “korpus” ile eğitmeye (train) dayanır: kaynak metin ve çeviri. Bilgisayar daha sonra, kaynak metindeki kelime sırasına göre, hedef dilden en olası kelime sırasını çıkarmak (infer) için kurallar üretir.

Yöntem olarak örüntü eşleştirme (pattern matching) kullanılır. Akıllı telefonunuzdan sizi “Brookline’e götürmesini” istediğinizde söylediğiniz heceleri yorumlamak için veya bir fotoğraf uygulaması arkadaşınızın yüzünü etiketlediğinde benzer örüntü eşleştirme algoritmaları kullanılır. Makine, yüzleri veya hedefleri “anlamaz”, onları sayı vektörlerine indirger ve işler.

Fransızcadan 125 kitap çevirmiş profesyonel bir çevirmen olarak, Google’ın yeni çeviri motorunun neredeyse bir insan çevirmen kadar iyi olduğu, 0 ve 6 arasında bir puanlama yaptığımızda insanların 5.1, Google çeviri motorunun da 5.0 puan alabileceği iddialarına sert çıkmam beklenebilir. Fakat ben aynı zamanda doktorasını matematik alanında yapmış, Avrupa gazetelerini dört dilde “okuyan” ve sonuçları konuya göre kategorize eden bir yazılım geliştirmiş biriyim de aynı zamanda. Dolayısıyla bir makine çevirmenin yerimi alabileceği ihtimalinden korkmaktan ziyade, hangi makinelerin nasıl olağanüstü başarılara sahip olduğunun farkındayım ve Google’ın çalışmalarının teknik karmaşıklığına ve ustalığına hayranlık beslemekteyim.

Ancak hayranlığım, makine çevirisinin eksikliklerine karşı beni kör etmiyor. “Eşek yüküyle” İngilizce bilen Hollandalı genç gezgini düşünün. Genç adamın akıcılığı, “beyninin” -canlı nöral ağının da diyebilirsiniz- dili doğal kılan ince kuralları (ve istisnaları) yakalayacak kadar iyi eğitildiğini gösteriyordu. Bilgisayar dilleri ise bağlam-bağımsız gramerlere sahiptir. Ancak genç Hollandalı, anadili İngilizce olan kişinin diksiyonunu, tonunu ve yapısını şekillendiren daha ince kuralları kavramak için İngilizce sosyal deneyiminden yoksundu. Anadili İngilizce olan kişi de belirli etkileri elde etmek için bu kuralları çiğnemeyi seçebilir. Bir çift rahibeye “bir sürü yer” yerine “eşek yüküyle yer” deseydim, bununla bir anlam ifade ederdim. Hollandalı genç yanlışlıkla kendini bir komedide buldu.

Google’ın çeviri motoru, haber kaynaklarından Wikipedia’ya kadar çeşitli korporalar üzerinde “eğitilmiştir”. Her korpusun yalın tanımlaması, ortaya çıktığı bağlamın tek göstergesidir. Bu kadar az bir bilgiden, “eşek yükü” gibi bir kelimenin uygunluğunu veya uygunsuzluğunu çıkarmak zor olurdu. Fransızcaya çeviri yapılıyorsa, makine beaucoup (çok fazla) veya plusieurs (çok, çeşitli) iyi bir eşleşme sunabilir. Bu, nötr plusieurs’in aksine toplumsal olarak belirlenmiş “eşek yüküne” dayanan komediyi değil, ifadenin anlamını verirdi. Algoritma ne kadar karmaşık olursa olsun, verilen enformasyona dayanmalıdır ve bağlama, özellikle de sosyal bağlama ilişkin ipuçlarını kodda iletmek korkutucu şekilde zordur.

Fransızca “petite phrase”i ele alalım. “Phrase”, İngilizce’de “cümle” veya “parça” anlamına gelebilir. Marcel Proust bunu À la recherche du temps perdu (1913–27) adlı romanında, “la petite phrase de Vinteuil” satırında müzikal bir bağlamda kullandığında(phrase), “parça” anlamına gelmelidir; çünkü “cümle”nin burada hiçbir anlamı yoktur. Google Çeviri (eski ifade-tabanlı sistem; yeni tarafsız ağ henüz yalnızca Mandarin Çincesi için kullanılabilmektedir) bu konuda oldukça başarılıdır. Yalnızca petite phrase’i çevirdiğinizde “kısa cümle” (karşılığını) verir. La petite de Vinteuil’i (Vinteuil, bestekar olan bir karakterin adıdır) çevirirseniz, yayınlanmış Proust çevirilerini yankılayarak “Vinteuil’in kısa parçası” karşılığını sunar. “Vinteuil” adının nadirliği gerekli bağlamı sağlar –ki bunu da istatistiksel algoritma seçer. Fakat “la petitephrasede Sarkozy”yi çevirirseniz, doğru olan “Sarkozy’nin nükteli sözü” yerine “küçük parça Sarkozy” karşılığını verir. Çünkü, eski cumhurbaşkanının adının da gösterdiği üzere une petite phrase siyasi bağlamdadır ve müzikal bir parçadan ziyade siyasi rakibinize karşı söylenen nükteli bir sözdür. Ancak Sarkozy adı o kadar çeşitli cümlelerde geçer ki, istatistik motoru onu düzgün bir şekilde kaydedemez- ve ardından bu hatayı da talihsiz bir gramer hatasıyla birleştirir.

MIT’deki öğrencilik günlerime kadar uzanan önceki tüm yapay zeka (AI) yaratma girişimlerinde olduğu gibi sorun, zekanın inanılmaz derecede karmaşık olmasıdır. Zeki olmak, yalnızca kurallardan mantıksal olarak veya düzenliliklerden istatistiksel olarak çıkarımlarda bulunabilmek değildir. Bundan önce hangi kuralların uygulanabileceğini bilmek, duruma duyarlılık bilinci gerektiren bir sanat gerekir. Programcılar çok zekidir, ancak anlamın ortaya çıktığı çok çeşitli bağlamları tahmin edecek kadar zeki değillerdir. Bu nedenle, en iyi algoritmalar bile bir şeyleri kaçıracaktır- ve Henry James’in dediği gibi, ideal çevirmen “üzerinde hiçbir şeyin kaybolmadığı” bir kişi olmalıdır.

Bu, mekanik çevirinin yararlı olmadığı anlamına gelmez. Çoğu çeviri işi rutindir. Zaman zaman, makineler uygun bir iş yapabilir. Bununla birlikte, mucizeler, başarılı edebi çeviriler veya uygun şekilde tercüme edilmiş politik iğneli sözler beklemeyin. Ortaya atılan aşırı özgüvenli iddialar, YZ araştırmalarını daha en eski zamanlarından beri besliyor. Bunu işimden olurum korkusuyla söylemiyorum: Çevirmenlikten emekli oldum ve bugünlerde zamanımın bir kısmını … kod yazmaya ayırıyorum.

Biliş Çalışmaları İçin İşlemlemesel Bir Temel — David Chalmers

Çalışma Belleğinin Kısa Bir Tarihçesi — Beril Sercem Şengül

GPT-2 ve Zekanın Doğası — Gary Marcus