Kara Kutuyu Yorumlamak: Büyük Dil Modelleri ve Dil Bilgisi — Giriş

“Kara Kutuyu Yorumlamak” serisinin tüm yazılarına buradan erişebilirsiniz.

Deniz Ekin Yavaş, Heinrich-Heine Üniversitesi’nde Hesaplamalı Dilbilim alanında doktora öğrencisi ve araştırma görevlisi. Öneğitimli dil modellerini kullanarak sözlüksel anlambilim ve anlambilim-sözdizim kesişimini araştırıyor.

Son zamanlarda GPT, BERT gibi büyük dil modelleri (large language models) hem bilimsel, hem de bilimsel olmayan camiada büyük bir yankı uyandırdı. Bunun nedenlerinin başında bu modellerin birçok farklı doğal dil işlemleme görevinde şu ana kadarki model performanslarının çok üzerinde performans göstermesi geliyor.

Bu modellerin üstün başarısıyla beraber akademik alanda yorumlanabilirlik (interpretability) çalışmaları da çok büyük bir ilgi görmeye başladı. Bu çalışmalar, modellerin davranışlarının altında yatan nedenleri ortaya çıkararak bu modellerin gerçekten neler bildiğini ortaya koymayı amaçlar. Bu yazı serisinde farklı konulardaki yorumlanabilirlik çalışmalarına değinerek bu çalışmaların bize bu modellerin sahip olduğu bilgiler hakkında neler söylediğini göreceğiz. Bu modeller gerçekten düşündüğümüz kadar “zeki” mi? İnsana benzer şekilde “düşünme”, kavramları temsil etme ve kavramlar arasında ilişki kurma özelliklerine sahip mi? Bu yazı dizisinde bu soruları, alanda yapılan akademik çalışmalardan örnekler vererek yanıtlamaya çalışacağız. Bu serinin sonunda amacımız ise, bu dil modellerinin bilişsel olarak insan zihnine benzerliğine, yani bilişsel gerçekçiliğine (cognitive plausibility) ilişkin fikir sahibi olmak.

Bu yazıda öncelikli olarak büyük dil modelleri hakkında temel bilgilere değineceğiz ve “yorumlanabilirlik” terimine ve yorumlanabilirlik çalışmalarının önemine açıklık getireceğiz.

Öneğitimli Büyük Dil Modelleri

Son yıllarda doğal dil işlemleme alanındaki gelişmeler alanda büyük bir çığır açtı. Bu gelişmelerin başında yapay sinir ağları (artificial neural networks) modellerinin bir devamı niteliğindeki BERT (Devlin vd. 2018), GPT (Floridi ve Chiriatti, 2020) gibi, öneğitimli (pre-trained) transformers modellerinin geliştirilmesi gelmektedir. Öneğitimli transformers modelleri, dil modelleme amacıyla eğitilirler ve bu nedenle büyük dil modelleri olarak da adlandırılırlar. Dil modelleme amacıyla eğitilme süreçleri öneğitim süreci olarak adlandırılır. Modeller bu süreçte çok büyük sayıda ham metne maruz bırakılır ve bu süreç sonunda bu metinler üzerinden dildeki sözcüklerin dağılımı, yani dile ilişkin temel istatiksel bilgiyi edinmiş olurlar.

Bu modellerin farklı doğal dil işlemleme görevlerine uyarlanması için ise ek bir eğitim sürecinden geçmeleri gerekmektedir; bu süreç ince ayar (fine tuning) sürecidir. Büyük dil modellerinin bu noktadaki avantajı ise görevlere yönelik eğitimlerinin çok hızlı ve kolay olmasıdır. Bu modeller, göreve ilişkin az sayıda veri ile ve kısa bir ince ayar sürecinden sonra görev için kullanılabilir hale getirilirler. Son zamanlarda bu modellerin birçok farklı doğal dil işlemleme görevi için kullanıldığını ve bu görevlerde rekor puanları rahatlıkla geçtiklerini görüyoruz. Bunun temel nedeni ise modellerin önöğrenme sürecinde edindiği dile ilişkin genel bilginin ince ayar süreciyle göreve aktarılabilmesi ve bu bilginin doğal dil işlemleme görevleri için oldukça kullanışlı olmasıdır.[1]

Yorumlanabilirlik ve Büyük Dil Modelleri

Yapay sinir ağı modelleri doğaları gereği bir kara kutudur. Modele verilen bir girdi sonucunda bir çıktı alınır, ancak modelin bu süreçteki davranışları ve kararları hakkında bir fikir sahibi olunmaz. Bir başka şekilde ifade etmek gerekirse, bu modellerin davranışlarının ve model öngörülerinin altında yatan nedenler araştırmacılar için erişilebilir ve doğrudan yorumlanabilir değildir. Yorumlanabilirlik çalışmaları ise bu nedenleri ortaya çıkarmayı amaçlar. Bu, hem modelin çalışma prensipleri hakkında daha çok bilgi verirken hem de modelin performansının iyileştirilmesi için yapılabilecekler hakkında ipucu verir.

Peki, büyük dil modelleri birçok farklı doğal dil işlemleme görevinde çok başarılı sonuçlar elde ederken modellerin performanslarındaki başarılarını tam olarak neye borçluyuz? Bu modeller öneğitim süreçlerinde dilin istatiksel bilgisinin dışında dile, dilin yapısına, kavramlara ilişkin bilgileri öğreniyor mu? Yorumlanabilirlik çalışmaları büyük dil modelleri özelinde bu soruları yanıtlamaya çalışır. Bu nedenle de modellerin sahip olduğu dil bilgisini sözdizim, anlambilim gibi farklı alanlarda test etmeyi amaçlar; örneğin, dilbilgisellik yargısı, özne-yüklem uyumu, sözcük türü bilgisi, sözdizimsel ilişkiler, kavramlar arası olgusal ilişkiler, sözcükler arası anlamsal ilişkiler, çokanlamlılık, vb.

Doğal dil işlemleme görevlerindeki performans ve dil bilgisi ilişkisini birkaç örnek üzerinden açıklamak bunu daha anlaşılır kılacaktır. Örneğin, soru yanıtlama görevini ele alalım. Soru yanıtlama görevinde modelden, verilen bir metin üzerinden sorulan soruyu yanıtlaması beklenir.[2] Böyle bir görevin model tarafından başarılı bir şekilde gerçekleştirilmesi için öğeler arasındaki artgönderimsel (anaphoric) ilişkinin çözülebilmesi oldukça önemlidir[3]. Örneğin; Şekil 2’de verilen örnekte “İstanbul’da yaşıyorum.” tümcesinin öznesinin başarılı bir şekilde Minnoş olarak belirlenebilmesi için (boş) artgönderimin doğru şekilde çözümlenebilmesi gerekmektedir. Bunun yanı sıra başka dilsel bilgiler de bu görevde etkili olabilir. Örneğin; tümcenin öğeleri, bu öğeler arasındaki hiyerarşik ilişkiler, eylemlerin üye yapıları ve üyelerin anlambilimsel rolleri, vb. Örneğin Şekil 2’deki sorunun doğru yanıtlanmasında, “yaşa-” eylemi ve eylemin üyeleri arasındaki ilişkinin doğru tanımlanması etkili olabilir. Bunun için de bu dilsel bilgiler gereklidir.

Başka bir örnek olarak duygu analizi görevi verilebilir. Bu görevdeki amaç tümceleri olumlu veya olumsuz duygu taşımalarına göre sınıflandırmaktır. Bu görev için en önemli dilsel bilgi, olumsuzlama, olumsuzlama türleri (örneğin, tümce veya sözcük düzeyinde) ve olumsuzlamanın kapsam alanına ilişkin bilgidir. Örneğin, “Film kötü değildi.” gibi olumsuz duygu taşıyan bir sözcükle beraber olumsuzlamanın kullanıldığı bir tümce, model için zorlayıcı olacaktır. Çünkü bir tümcenin olumsuz bir öğe içermesi, o tümcenin olumsuz duygu taşıdığı anlamına gelmemektedir ama bu ayrım model için çok net değildir.[4]

Yorumlanabilirlik çalışmalarıyla araştırmacılar, büyük dil modellerinin farklı konulardaki bilgilerini ölçmek için tanısal testler geliştirmeyi ve bu testlerle model davranışlarını veya gösterimlerini “yorumlanabilir” hale getirmeyi amaçlamaktadır. Böylelikle, modellerin sahip olduğu dilsel bilgi hakkında bir sonuca ulaşmak mümkün olmaktadır. Ancak bu testlerin dilin istatistiğine ilişkin bilgiyle değil, dilsel bilginin kendisiyle ilgili sonuçlara ulaştırdığından emin olmak gerekmektedir.

Sonuç

Bu makalede büyük dil modelleri ve yorumlanabilirlik kavramına ilişkin genel bilgilere değindik. Serinin bir sonraki yazılarında farklı konular özelinde akademideki yorumlanabilirlik çalışmalarına yakından bakacağız ve bu çalışmaların başarılı büyük dil modellerinin bilişsel gerçekçiliği konusunda hangi sonuçlara vardığını göreceğiz.

Notlar

[1] Farklı öneğitimli büyük dil modelleri, öneğitim yöntemleri, ince ayar yöntemleri ve bu modellerin kullanıldığı farklı görevler ile ilgili daha fazla bilgi için bkz: Qiu vd. 2020, Han vd. 2021.

[2] Bu görev metin odaklı olmadan da yapılabilir. Bağlam verilerek yapılan soru yanıtlama görevi açık soru yanıtlama, verilmeden yapılan ise kapalı soru yanıtlama görevi olarak adlandırılmaktadır.

[3] Artgönderim çözümlemesinin soru yanıtlama görevleri açısından önemi için bkz: Vicedo ve Ferrández 2000.

[4] Duygu analizi ve olumsuzlama ilişkisi için bkz: Wiegand vd. 2010.

Kaynakça

Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

Floridi, L., & Chiriatti, M. (2020). GPT-3: Its nature, scope, limits, and consequences. Minds and Machines, 30, 681–694.

Han, X., Zhang, Z., Ding, N., Gu, Y., Liu, X., Huo, Y., … & Zhu, J. (2021). Pre-trained models: Past, present and future. AI Open, 2, 225–250.

Qiu, X., Sun, T., Xu, Y., Shao, Y., Dai, N., & Huang, X. (2020). Pre-trained models for natural language processing: A survey. Science China Technological Sciences, 63(10), 1872–1897.

Vicedo, J. L., ve Ferrández, A. (2000). Importance of pronominal anaphora resolution in question answering systems. In Proceedings of the 38th Annual Meeting of the Association for Computational Linguistics (pp. 555–562).

Wiegand, M., Balahur, A., Roth, B., Klakow, D., & Montoyo, A. (2010). A survey on the role of negation in sentiment analysis. In Proceedings of the workshop on negation and speculation in natural language processing (pp. 60–68).

Elizabeth Loftus — Kognitif VikiMaraton

Uyarı! Gözetimsiz Nörobilim İlerliyor — Mark Humphries

İkizlerin Gizli Dili — Fatma Nihan Ketrez Sözmen