Kara Kutuyu Yorumlamak: Büyük Dil Modelleri ve Dil Bilgisi- Sözdizimi

Son yıllarda büyük dil modelleri birçok farklı görevde elde ettikleri başarılarla büyük ilgi çekti. Bu başarılar, bizlere büyük dil modellerinin öneğitim (pre-training) süreçlerinde dilin istatistiksel bilgisinin ötesinde dile ilişkin çok daha fazlasını öğrenip öğrenmediğini sormamıza neden oldu. Bunun sonucu olarak bu soruyu yanıtlamayı amaçlayan yorumlanabilirlik (interpretability) çalışmaları bilimsel alanda büyük bir önem kazandı. Bu serinin amacı, farklı konulardaki yorumlanabilirlik çalışmalarına değinerek modellerin bilişsel olarak gerçekçiliğini (cognitive plausibility) sorgulamak.

Önceki yazılarımızda modellerin sözcük anlamı ile kavram ve kategorilere ilişkin bilgilerine odaklandık. Bu yazıyla beraber serimizde odağımızı dilbilgisine çekeceğiz ve sözdizimi (syntax) ile başlayacağız. Sözdizimi, bir dilde sözcüklerin bir araya gelme kurallarını ve tümce oluşum kurallarını çalışan dilbilimin bir alt dalıdır. Sözdizimsel bilgi, sözcük türleri (part of speech), sözcüklerin tümcelerdeki dilbilgisel işlevleri (grammatical function), sözcük sırası (word order) gibi birçok bilgiyi içerir.

Bu yazıda büyük dil modellerinin sözdizimine ilişkin bilgi edinip edinmediğini sorgulayacağız ve bu konuda yapılmış yorumlanabilirlik çalışmalarına yer vereceğiz. Bu çalışmalara geçmeden önce sözdizimine ve sözdiziminin temel kavramlarına değinerek başlayalım.

Sözdizimi ve Temel Kavramları

Sözdizimi, bir dilde sözcüklerin bir araya gelme kurallarını ve tümce (sözdizimi alanında “cümle” yerine “tümce” terimi tercih edilmektedir) oluşum kurallarını çalışan dilbilimin alt dalıdır. Sözcüklerin nasıl bir araya gelerek dilbilgisel tümceler oluşturulduğunu, yani tümcelerin dilbilgiselliğini (grammaticality) açıklamayı amaçlar.

Dilde sözcükler, “ad”, “sıfat”, “zarf”, “eylem” ve birkaç tür daha olmak üzere işlev ve anlamlarına göre farklı türlere ayrılır; sözcük türleri (part of speech) dildeki kurallara göre bir araya gelir ve öbekleri (phrase) oluşturur. Örneğin, “kedi” sözcüğü bir addır ve bir sıfat olan “tatlı” sözcüğü ile birleşmesi ile “tatlı kedi” öbeğini oluşturur. Ancak bu iki sözcük türünün nasıl bir araya getirilebileceğine ilişkin kurallar vardır. Bu öbeğin dilbilgisel bir öbek olması için ad, sıfattan sonra gelmelidir:

tatlı + kedi → tatlı kedi

tatlı + kedi ⥇ kedi tatlı

Tümceler ise öbeklerin belirli kurallara göre bir araya gelmesiyle oluşur; “Tatlı kedi piyano çalıyor.”. Tümcedeki her öbek diğer öbeklerle kurduğu ilişkiye göre belirli bir dilbilgisel işleve (grammatical function) sahiptir. Örneğin, “tatlı kedi” tümcenin öznesi, “piyano” nesnesi, “çalıyor” ise eylemidir.

Tatlı kedi piyano çalıyor.

Özne Nesne Eylem

Bütün diller için ortak olan kavramlar olsa da bazı özellikler dilden dile farklılık gösterebilir. Örneğin birçok dilde Ad, Eylem gibi sözcük türlerinden ve Özne, Nesne gibi dilbilgisel işlevlerden bahsedebiliriz. Ancak sözcüklerin ve öbeklerin bir araya gelme kuralları dilden dile farklılık gösterir.

Dilden dile farklılık gösteren özelliklerden biri sözcük sırasıdır (word order). Türkçede tümcede önce Özne sonra Nesne en son da Eylem gelir, yani Türkçe Özne-Nesne-Eylem sıralamasına (SVO order) sahip bir dildir. İngilizcede ise tümcede önce Özne sonra Eylem en son ise Nesne gelir, yani İngilizce Özne-Eylem-Nesne sıralamasına (SOV order) sahip bir dildir. Ancak Türkçe söz sırası açısından oldukça esnektir ve sözcüklerin farklı sıralanmaları çoğunlukla dilbilgisel tümceler oluşturur. İngilizce için ise bu geçerli değildir ve sadece Özne-Eylem-Nesne sıralaması dilbilgisel tümceler oluşturur. Aşağıda örneklerde bu farkı görebilirsiniz. Sözdiziminde bir tümcenin dilbilgisel olmadığı tümcenin başına konulan “*” işareti ile belli edilir.

Türkçe:

1. Tatlı kedi piyano çalıyor.

2. Tatlı kedi çalıyor piyano.

3. Piyano çalıyor tatlı kedi.

4. *Piyano tatlı kedi çalıyor.

5. Çalıyor piyano tatlı kedi.

6. Çalıyor tatlı kedi piyano.

İngilizce:

1. The cute cat is playing the piano.

2. *The cute cat the piano is playing.

3. *The piano is playing the cute cat.

4. *The piano the cute cat is playing.

5. *Is playing the cute cat the piano.

6. *Is playing the piano the cute cat.

Sözdizimi Özelinde Sorgulama Çalışmaları

Serinin bir önceki yazısında doğal dil işlemlemede sözcüklerin vektörlerle temsil edildiklerini ve bu vektörlere sözcük gömmesi (word embedding) adı verildiğini gördük. Bu gömmelerin sözcüklerin anlamsal özelliklerine ilişkin bilgi taşıdıklarına ve bunun sonucu olarak ise, anlamsal olarak benzer olan sözcüklerin vektörlerinin birbirlerine benzerlik gösterdiğine değindik. Ancak sözcük gömmeleri sadece sözcüklerin anlamsal özelliklerine ilişkin bilgiyi kodlamaz.

Görsel 1: “kedi” sözcüğünün vektör temsili.

Büyük dil modelleri de aynı insanlar gibi dili, kullanımı üzerinden öğrenir; yani sözcüklerle, tümcelerde ve metinlerde karşılaşır. Peki çocuklarda olduğu gibi, bunun sonucu olarak dil modelleri de dilin içsel kurallarını, yani dilbilgisini, bu maruz kalmanın sonucu olarak öğrenir mi? Sözdizimi odağındaki yorumlanabilirlik çalışmaları bu soruyu yanıtlamayı amaçlar. Bu konudaki önemli bir çalışma alt alanı ise sorgulama çalışmalarıdır (probing studies). Sözdizimi odağındaki sorgulama çalışmaları, bu modellerin sözdizimine ilişkin ne kadar bilgi öğrendiğini test etmeyi amaçlamaktadır. Bu çalışmalar dil modellerinin sözcük sırası, tümcelerin dilbilgiselliği, sözcük türleri, sözcükler arasındaki dilbilgisel ilişkileri öğrenip öğrenmediğini ortaya çıkarmayı amaçlar.

Sorgulama çalışmalarında sorgulayıcı sınıflandırıcıları (probing classifiers) kullanılır. Sorgulayıcı sınıflandırıcılarla büyük dil modellerinin gömmelerinin taşıdığı bilgiyi ortaya çıkarmak amaçlanır. Bu sınıflandırıcılar kullanılarak sözcük gömmeleri, dilbilgisel özelliklerine göre sınıflandırılır. Bunun için sınıflandırıcıya girdi olarak bir sözcük gömmesi verilir. Sınıflandırıcı gömmeden yola çıkarak bu gömmenin temsil ettiği sözcüğün dilbilgisel özelliklerini tahmin etmeye çalışarak gömmeyi sınıflandırır (bkz. Görsel 2). Sorgulayıcı sınıflandırıcılar farklı dilbilgisel özelliklere odaklanabilir.

Görsel 2: “tatil” ve “yapmak” sözcüklerinin sözcük türüne göre sınıflandırılması.

Sorgulayıcı sınıflandırıcıları ile yapılan çalışmalardaki temel fikir şudur: Eğer aranan bilgi sözcük gömmelerinde kodlanmışsa çok basit bir sınıflandırıcı bile doğru etiketi üretebilecektir. Bunun sonucu olarak da sınıflandırıcı birçok örnekle başarılı performans gösterecektir. Burada amaç sadece sözcük gömmesinin kendisinden yola çıkarak bir sözcüğe ilişkin dilbilgisel bilgilerin tahmin edilmesidir. Bu nedenle de sınıflandırıcının performansı bize bu bilginin ne kadar başarılı bir şekilde sözcük gömmesinden çıkarılabildiğini gösterir.

Farklı sözdizimi bilgileri için sorgulayıcı sınıflandırıcılar nasıl eğitilir ve bu sınıflandırıcılarla bu bilgiler nasıl ortaya çıkarılır yakından bakalım.

Sözcük Türü Bilgisi: Sözcük türü bilgisini test etmek için eğitilen bir sorgulayıcı sınıflandırıcısının amacı, verilen bir sözcüğe karşılık o sözcüğün sözcük türünü (Ad, Eylem, Sıfat, vb.) tahmin etmektir. Örneğin Görsel 2’de olduğu gibi, bu sınıflandırıcıya “tatil” sözcüğünün sözcük gömmesini verdiğimizde sınıflandırıcının “Ad” etiketini üretmesini bekleriz. Benzer şekilde bu sınıflandırıcıya “yapmak” sözcüğünün sözcük gömmesini verdiğimizde sınıflandırıcının “Eylem” etiketini üretmesini bekleriz.

Dilbilgisel İşlev Bilgisi: Sözcüklerin dilbilgisel işlevleri için eğitilen bir sınıflandırıcının amacı benzer bir şekilde, verilen bir sözcüğe karşılık o sözcüğün belirli bir tümcedeki dilbilgisel işlevini (Özne, Eylem, Nesne, vb.) tahmin etmektir. Örneğin bu sınıflandırıcıya Görsel 3’deki gibi “tatil” sözcüğünün iki farklı tümcedeki gömmesini verdiğimizde sınıflandırıcıdan farklı tahminler bekleriz. Çünkü ilk tümcede “tatil” sözcüğünün dilbilgisel işlevi Öznedir, ikincide ise Nesnedir.

Görsel 3: “tatil” sözcüğünün farklı tümcelerdeki dilbgilsel işlevine göre sınıflandırılması.

Öbek Yapı Bilgisi: Sözcük gömmelerinde öbek yapı bilgisinin kodlanıp kodlanmadığını test edebiliriz. Örneğin “Geçen yaz Barcelona’da güzel bir tatil yaptık.” tümcesini düşünelim. Bu tümcenin öbekleri şunlardır: “geçen yaz”, “Barcelona’da” “güzel bir tatil” ve “yaptık”. Görsel 4’te olduğu gibi, eğittiğimiz sınıflandırıcıya bu tümceyi verdiğimizde sınıflandırıcıdan tümcedeki sözcükleri ait oldukları öbeklere göre etiketlemesini bekleriz. Yani bu tümce için sınıflandırıcının “1, 1, 2, 3, 3, 3, 4” etiketlerini üretmesi beklenir.

Görsel 4: “Geçen yaz Barcelona’da güzel bir tatil yaptık.” tümcesinin öbek sınıflandırılması.

Sözcük Sırası: Sözcük gömmelerinde sözcük sırası bilgisinin kodlanıp kodlanmadığını da test edebiliriz. Daha önceki örnekten “Tatlı kedi piyano çalıyor.” tümcesini ve onun sözcük sırası bozulmuş hali “Piyano tatlı kedi çalıyor.” ele alalım. Bu görevde sınıflandırıcının amacı hangi tümcenin bozuk, hangisinin bozuk olmadığını tahmin etmektir. BERT gibi bazı modeller sözcük gömmelerinin ötesinde tümceler için de gömmeler üretir. Böyle bir modele bir tümce verdiğinizde o tümceyi temsil eden tümce gömmesini (sentence embedding) modelden alabilirsiniz. Bu görev için tümce gömmesini kullanabiliriz. Bunun için, Görsel 5’deki gibi, bu tümceleri temsil eden gömmeler sınıflandırıcıya verilir ve sınıflandırıcıdan “Tatlı kedi piyano çalıyor.” tümcesi için bozuk değil; “Piyano tatlı kedi çalıyor.” tümcesi için ise bozuk etiketi vermesi beklenir.

Görsel 5: Tümcelerdeki sözcük sırası ihlalinin sınıflandırılması.

Bahsettiğimiz bilgi türleri üzerine yapılan sorgulayıcı çalışmalar, büyük dil modellerinin bu bilgileri kodladığını göstermektedir. Liu vd. (2019) ve Tenney vd. (2019) çalışmalarında İngilizce BERT ve GPT’nin sözcük türünü, sözcüklerin dilbilgisel işlevlerini ve öbek yapısına ilişkin bilgilerini test etmek için sorgulayıcı sınıflandırıcılar eğitilmiştir. Bu iki çalışmanın da sonuçları bu sınıflandırıcıların iki modelin gömmeleriyle çok başarılı performans gösterdiğini (%90 civarlarında) ortaya koymaktadır. Bu da bize bu bilgilerin modellerin gömmelerinde kodlandığını göstermektedir.

Otmakhova vd. (2022) ise sözcük sırası bilgisinin kodlanmasının Rusça ve İngilizce BERT’te farklı olup olmadığına odaklanır. Bu iki dilin seçilme nedeni Rusçanın tıpkı Türkçe gibi sözcük sırası açısından esneklik göstermesidir. Bu çalışmada beklenen, sözcük sırası esnek olan dillerin modellerinin gömmelerinde bu ayrımın daha az kodlanmasıdır. Çünkü bu dillerde söz sırası esnektir ve hangi yapının bozuk olduğunu tespit etmek daha zor olabilir. Ancak çalışmanın sonuçları, iki dil için de sözcük sırası bilgisinin modellerin gömmelerinden kolaylıkla tespit edilebildiğini göstermektedir. İlginç şekilde Rusça için performans, İngilizceye kıyasla daha bile yüksektir.

Sonuç

Serinin bu yazısında büyük dil modellerinin sözdizimsel bilgilerini sorgulayan yorumlanabilirlik çalışmalarına değindik. Bu yazıda değindiğimiz çalışmalar, sorgulayıcı sınıflandırıcılarla bu modellerin bilgilerini ortaya çıkarmayı amaçlamaktadır. Bu çalışmaların sonucunda sözcük türü, sözcüklerin dilbilgisel işlevleri, sözcük sırası ve öbek yapı ile ilgili sözdizimsel bilgilerin büyük modellerin gömmelerinde kodlandığı sonucuna vardık.

Kaynakça

Liu, N. F., Gardner, M., Belinkov, Y., Peters, M. E., & Smith, N. A. (2019). Linguistic knowledge and transferability of contextual representations. arXiv preprint arXiv:1903.08855.

Otmakhova, J., Verspoor, K., & Lau, J. H. (2022, Temmuz). Cross-linguistic comparison of linguistic feature encoding in BERT models for typologically different languages. In Proceedings of the 4th Workshop on Research in Computational Linguistic Typology and Multilingual NLP (ss. 27–35).

Tenney, I., Xia, P., Chen, B., Wang, A., Poliak, A., McCoy, R. T., … & Pavlick, E. (2019). What do you learn from context? probing for sentence structure in contextualized word representations. arXiv preprint arXiv:1905.06316.

Susan Carey — Kognitif VikiMaraton

Yetenek Doğuştan Gelen, Yaratıcılık ise Geliştirebileceğindir — Jyoti Mishra