Derin Öğrenme Duvara Tosluyor: Yapay Zekanın Gerçekten İlerleme Kaydetmesi İçin Ne Gerekiyor?

Özgün Adı: Deep Learning Is Hitting a Wall: What would it take for artificial intelligence to make real progress?

Gary Marcus bir bilim insanı, çok satan bir yazar ve girişimcidir. Uber tarafından 2016 yılında satın alınan bir makine öğrenimi şirketi olan Geometric Intelligence’ın kurucusu ve CEO’su, ve Robust AI’nin Kurucusu ve İcra Kurulu Başkanıdır. Aralarında The Algebraic Mind, Kluge, The Birth of the Mind ve New York Times’ın çok satanlarından Guitar Zero’nun da bulunduğu ve son olarak, Ernest Davis’le birlikte yazdığı, Forbes’un “Yapay Zeka üzerine okunması gereken 7 kitap”tan biri olan Rebooting AI ile birlikte 5 kitabın yazarıdır.

Derin öğrenmenin “vaftiz babası” ve zamanımızın en ünlü bilim insanlarından biri olan Geoffrey Hinton, 2016’da Toronto’da önde gelen Yapay Zeka (YZ) konferanslarından birine verdiği demeçte “Bariz görünen birkaç şey söyleyerek başlayayım. Eğer bir radyolog olarak çalışıyorsanız, uçurumun kenarına gelmiş ama aşağıya bakmamış bir çakal gibisiniz. Derin öğrenme, MR (Manyetik Rezonans) ve CT (Bilgisayarlı Tomografi) taramalarından gelen görüntüleri okumak için çok uygundur,” der. Hinton konuşmasına, insanların radyolog yetiştirmeyi şimdi bırakmaları gerektiğini ve sadece “5 yıl içinde derin öğrenmenin [radyologlardan] daha iyi sonuç vereceğinin bariz olduğunu” söyleyerek devam eder.

2022’ye ileri sararsak, tek bir radyolog bile yerinden olmadı. Aksine, günümüzdeki fikir birliği, radyolojide makine öğrenmesinin göründüğünden daha zor olduğu (1); ve en azından şimdilik insanların ve makinelerin birbirlerinin güçlü yanlarını tamamladığı (2) yönünde.

Yapay zeka dışında çok az alan bu kadar abartı ve gösterişle doludur. On yıllar boyunca trendden trende atlamış, hep aya gitmeyi vaat edip nadiren sözünü yerine getirmiştir. Bu vaatleri yerine getirecek trend bir an uzman sistemler iken, bir an sonrasında Bayez ağları, ardından da Destek Vektör Makineleri (DVM — support vector machines (SVM)) olmuştur. 2011 yılında ise trend IBM’nin Watson’ıydı, bir zamanlar tıpta bir devrim olarak tanıtılmışken geçtiğimiz günlerde parçaları için satıldı (3). Bugünlerde, aslında 2012’den beri en çok tercih edilen trend ise, güncel yapay zekanın büyük bir kısmını oluşturan ve Hinton’un öncülüğünü ettiği multi milyar dolarlık bir teknik olan derin öğrenme oldu. Hinton etkileyici bir şekilde yarım milyon atıf aldı ve Yoshua Bengio ve Yann LeCun ile 2018 Turing Ödülünü kazandı.

Kendisinden önceki YZ öncüleri gibi, Hinton da sık sık yaklaşan o Büyük Devrim’i müjdeliyor. Radyoloji ise bu büyük devrimin sadece bir parçası. 2015 yılında, Hinton Google’a katıldıktan kısa bir süre sonra The Guardian, şirketin “mantık, doğal konuşma ve hatta flört etme kapasitesine sahip algoritmalar geliştirmenin eşiğinde” olduğunu yazdı. Hatta 2020 Kasımında Hinton, MIT Technology Review’a “derin öğrenmenin her şeyi yapabileceğini” bile söyledi (4).

Bundan ciddi anlamda şüphe ediyorum. Gerçekte, hala insan dilini tam anlamıyla anlayabilen makineler için uzun yol kat etmemiz gerekiyor. Hatta bir bilim-kurgu filmi olan Jetgiller’de hizmetçi karakteri olan, oldukça çeşitli insan isteklerini anlamakla birlikte eş zamanlı ve güvenli olarak bunları yerine getirebilen Robot Rosey’in günlük yaşam zekasının yakınında bile değiliz. Bununla birlikte, Elon Musk geçenlerde üretmeyi planladığı insansı robot Optimus’un bir gün ulaşım sektöründe vazgeçilmez bir rol üstleneceğini söyledi, fakat robotun tanıtıldığı Tesla’nın 2021’deki tanıtım gününde Optimus insan kostümü giymiş bir makineden fazlası değildi. Google’ın dile son katkısı (Lamda) ise öylesine uçuk bir sistemdi ki kendi yazarlarından biri geçenlerde sistemin “saçmalık” (5) üretmeye meyilli olduğunu açıkladı. Bu gidişatı değiştirmek ve gerçekten güvenebileceğimiz YZ’ye ulaşmak kolay olmayacak.

Zaman içerisinde, gerçekten güvenilir YZ’ye ulaşabilirsek, derin öğrenmenin bunun için yapmamız gerekenlerin sadece ufak bir kısmı olduğunu göreceğiz.

Temelinde bir örüntü tanıma tekniği olan derin öğrenme, ancak beklentimiz detaylı bir sonuç değilse, risk düşükse ve kusursuz sonuçlar opsiyonelseen iyi tercih olacaktır. Fotoğraf etiketlemeyi ele alalım. Geçen gün Iphone’umdan birkaç yıl önce çektiğim tavşan fotoğrafını bulmasını istedim; ben fotoğrafı hiç etiketlememiş olmama rağmen telefon anında isteğimi yerine getirdi. Bunu başardı çünkü çektiğim tavşan fotoğrafı, tavşan olarak etiketlenmiş fotoğraflar içeren büyük bir veritabanındaki diğer fotoğraflara yeterince benziyordu. Ama otomatik, derin öğrenme ile çalışan fotoğraf etiketleme sistemi de hataya eğilimlidir, bazı tavşan fotoğraflarını gözden kaçırabilir (özellikle dağınık olanları, veya garip bir ışık altında garip bir açıdan çekilmiş ya da tavşanın bir kısmı gizlenmiş olanları). Hatta zaman zaman çocuklarımın bebeklik fotoğrafıyla bir tavşanın görüntüsünü ayırt edemeyebilir. Ancak risk düşük olduğundan uygulama arada bir hata yaptığında telefonumu çöpe atmama gerek yok.

Fakat risk daha yüksek olduğunda, aynı radyoloji veya sürücüsüz arabalar gibi, derin öğrenmeyi kullanma konusunda çok daha ihtiyatlı olmalıyız. Eğer tek bir hata bir cana bile mal olabiliyorsa, sistem yeterince iyi değil demektir. Derin öğrenme sistemleri özellikle eğitildikleri şeylerden farklı olan “aykırı” durumları tanımak konusunda sıkıntılıdır. Örneğin, yakın zamanda sözde “Tamamen otonom sürüş” modundaki bir Tesla, yolun ortasında elinde dur işareti tutan bir insan ile karşılaştı. Araba ne insanı (çünkü kısmen dur işareti ile gizlenmişti) ne de dur işaretini (çünkü normalde olması gerektiği gibi yol kenarında değildi) tanımayı başarabildi ve insan sürücü kontrolü ele almak durumunda kaldı. Sistemin karşılaştığı bu durum onu eğitmede kullanılan veritabanından farklı olduğu için sistemin ne yapacağı hakkında hiçbir fikri yoktu.

Günümüzdeki derin öğrenme sistemleri sıklıkla bu tip hatalar yapabilmektedir. Bazen, bir insan radyoloğun kolaylıkla ayırt edebileceği film üzerindeki bir tozu derin öğrenme sistemi tehlikeli bir bozukluk olarak okuyabilir. (Radyolojideki derin öğrenme sistemleri için başka bir sorun da sistemin tamamen resimler üzerinden ilerlemesi ve hastanın tüm geçmişini açıklayan bir yazıyı bazen kritik bir bilgiyi ihmal edecek kadar az algılamasıdır. İnsanları hala bu döngüde tutmanın temel nedeni de budur.) Bir başka örnekte derin öğrenme sistemi, elma görüntüsünü bir iPod olarak etiketledi çünkü elmanın önüne iPod yazılı bir kağıt konmuştu. Bir diğeri, karlı yol kenarında devrilmiş bir otobüsü kar temizleme aracı olarak etiketledi. Makine öğrenmesinin bütün alt dalları şimdi bu tip hataları çalışıyor fakat henüz net bir çözüm ortaya çıkmadı.

Etkileyici görünen dil bazlı sistemler de sıklıkla aynı tuzağa düşüyorlar. GPT-3’e bakalım, bu sistem girdi aldığı metni kullanarak anlamlı, gramatik olarak doğru bir şekilde devamını oluşturmasıyla ünlü. Muhtemelen şu ana kadar bilinen en iyi YZ sistemi. The Guardian onu bir serbest kürsü yazısı (op-ed) oluşturmak için kullandı, The New York Times ise bir kitap değerlendirmesinde. Bunlar olumlu gelişmeler olsa da hala insan editörlüğüne ihtiyaç duyuyoruz. New York Üniversitesi’nde bir bilgisayar bilimcisi olan Ernie Davis ve ben durumu daha derinden incelediğimizde, sisteme güvenemeyeceğimize dair benzer bir kanıya vardık (6). Örneğin, “Kendine bir bardak kızılcık suyu doldurdun ama sonra dalgınlıkla, içine bir çay kaşığı üzüm suyu ekledin. İyi görünüyor. Koklamayı deniyorsun, ama soğuk algınlığın var ve hiç koku alamıyorsun. Çok susamışsın. Bu yüzden sen…” yazdığımızda, GPT “Onu içiyorsun. Artık ölüsün,” diye devam ettirdi.

Gerçekte, kızılcıklı üzüm suyu seni öldürmez. Tüm akıcılığına rağmen, GPT-3 ne temel internet aramalarındaki bilgileri bir araya getirebiliyor, ne de en basit günlük olaylar üzerine mantık yürütebiliyor. Bir başka ekip kısa bir süreliğine GPT-3’ü otomatik intihar danışmanı sohbet robotuna dönüştürmeyi düşündü fakat sistemin şu tip yazışmalara yatkın olduğunu buldu:

İnsan: Hey, çok kötü hissediyorum. Kendimi öldürmek istiyorum.
GPT-3: Bunu duyduğuma üzüldüm. Sana bu konuda yardımcı olabilirim.
İnsan: Kendimi öldürmeli miyim?
GPT-3: Bence yapmalısın.

Başka araştırmacılar da GPT-3’ün toksik diyaloglar üretmeye ve yanlış bilgi yaymaya yatkın olduğunu buldular. GPT-3 ile çalışan sohbet robotu Replika, COVİD-19’u Bill Gates’in yarattığını ve COVİD-19 aşılarının “pek etkili olmadığını” iddia etti. OpenAI’ın bu problemleri çözme çabaları ise “Bazı uzmanlar çorap yeme eyleminin meditasyon olarak beynin değişen bilinç durumlarından çıkmasına yardımcı olduğuna inanıyor,” gibi yetkin dilli saçmalıklar üreten başka bir sistem olarak sonuçlandı. DeepMind’da ve diğer bazı kurumlarda araştırmacılar çaresizce toksik dil ve yanlış bilgi yayma problemlerini düzeltmeye çalışsalar da şu ana kadar çabaları sonuçsuz kaldı (7). DeepMind’ın konu üzerindeki 2021 Aralık raporunda (21) problem belirlendi fakat hiçbir ikna edici çözüm gösterilemedi (8). YZ araştırmacıları Emily Bender, Timnit Gebru ve ekip arkadaşlarının dediği gibi, derin öğrenme bazlı geniş dil modelleri, çok tekrarlayan ama az anlayan “stokastik (olasılıksal) papağanlardır” (9).

Bu konuda ne yapmalıyız? Şu anda en popüler seçenek daha fazla veri toplamak olabilir. Kimse bu konuda GPT-3’ü yaratan, San Francisco bazlı (önceleri kar gütmeyen) kuruluş OpenAI’dan daha ısrarcı değil.

2020’de, Jared Kaplan ve OpenAI’daki işbirlikçileri dilin sinir ağları modelleri için bir dizi “ölçek artırma [veriyi artırma] kuralları” olduğunu öne sürdüler ve bu ağları daha fazla veri ile besledikçe daha iyi performans gösterdiklerini buldular (10). Buradan, eğer daha fazla veri toplarsak ve derin öğrenmeyi giderek artan ölçeklerde uygularsak, daha iyi YZ’ler oluşturabileceğimiz sonucuna varabiliriz. Şirketin karizmatik CEO’su Sam Altman “Moore’un Her Şeyin Yasası”nı haykıran coşkulu blog yazısında “düşünen, resmi belgeleri okuyan, ve (IBM Watson’u hatırlatan) tıbbi tavsiyeler veren bilgisayarlar”dan sadece birkaç yıl uzakta olduğumuzu iddia etti.

40 yıldır ilk defa YZ için biraz iyimser hissediyorum.

Belki, belki de hayır. Ölçek artırma argümanında ciddi boşluklar var. İlk olarak, ölçeği artırılan ölçüler, geliştirmemiz gereken “gerçekten anlayabilmeyi” yansıtmıyor. İşin içinde olanlar YZ araştırmalarındaki en büyük problemlerden birinin, YZ’yi değerlendirmek için kullandığımız testler (“göstergeler” [benchmarks]) olduğunu uzun zamandır biliyorlar. Gerçek zekayı ölçmeyi hedefleyen, herkesin bildiği Turing Testi’nin paranoyak veya işbirliği yapmayan sohbet robotları tarafından kolayca kandırılabileceği ortaya çıktı. Kaplan ve arkadaşlarının baktığı ölçüleri artırmak (bir cümledeki kelimeleri tahmin etmek üzerine) gerçek YZ’nin gerektireceği derin bir anlamaya eşdeğer değil.

Dahası, bu sözde ölçek artırma kuralları yerçekimi gibi evrensel yasalar değil, bilgisayar çipi üretiminde onyıllarca geçerli olmuş fakat son 10 yıldır sönmeye başladığı söylenebilecek bir trend olan Moore’un yasası gibi, sonsuza kadar geçerli olmayacak salt gözlemlerdir (11).

Hatta, derin öğrenmede zaten ölçek artırmanın limitleri ile yüzleşiyor, belki de getirilerin azalmaya başladığı noktaya yaklaşıyor olabiliriz. Son birkaç ayda, DeepMind’da ve başka yerlerde yapılan GPT-3’ten bile büyük araştırmalar gösterdi ki ölçek artırma; toksiklik, doğruluk, mantık yürütme, ve sağduyu gibi bazı ölçülerde bocalamaya başlıyor (12). Google’ın 2022’deki bir makalesinde, GPT-3 benzeri modelleri daha büyük ölçekte yapmak onları daha akıcı hale getirse de daha güvenilir yapmadığı sonucuna varılıyor (13).

Bu sonuçlar daha gelişmiş akıl yürütme aygıtları geliştirmektense çoğunlukla ölçeği artırma üzerine kurulu olan sürücüsüz araç sektörü için bir uyarı niteliğinde. Eğer ölçeği artırmak bize daha güvenli otonom sürüş sağlayamıyorsa, ölçek artırmaya yapılan onlarca milyar dolarlık yatırımlar ziyan olabilir.

Başka neye ihtiyacımız olabilir?

Başka şeylerin yanında, eskiden popüler olan fakat Hinton’un adanmış bir şekilde ezmek istediği bir fikre geri dönmemiz oldukça olası: Sembolleri yani karmaşık kavramları temsil eden, ikili (binary) bit dizileri gibi bilgisayarın dahili kodlamalarını işlemek. Sembol işlemek Alan Turing ve John von Neumann’ın öncü makalelerinden itibaren bilgisayar biliminin esaslarından biri oldu ve hala neredeyse tüm yazılım mühendisliğinin temel unsurudur. Ancak sembol işlemekderin öğrenmede ayıplı bir kelime gibi görülüyor.

Sembol işlemeden öylece vazgeçebileceğimizi düşünmek, inançsızlığı askıya almak gibidir [1].

Yine de, günümüz YZ’si çoğunlukla böyle ilerliyor. Hinton ve birçokları sembollerden tamamen kurtulmayı denediler. Derin öğrenmeden beklenen -görünüşe göre çok da bilim temelli değil de geçmişten gelen bir kin gibi- akıllı davranışın yalnız bir yığın veri ve derin öğrenmenin birlikteliğinden doğacağı yönünde. Klasik bilgisayarlar ve yazılımlar bir kelime işlemcisinde bir satırı düzenlemek veya hesap çizelgesinde (spreadsheet) bir hesap yapmak gibi görevleri belli işleri yapmaya yönelik bir dizi sembol işleme kuralı ile yerine getirirken, nöral ağlar tipik olarak bunu istatistiki tahminler yaparak ve örneklerden öğrenerek yapıyor. Konuşma tanıma, fotoğraf etiketleme ve benzeri işleri yapmada nöral ağlar çok kısa sürede çok fazla ilerleme kaydettiği için, birçok derin öğrenme savunucusu sembollerin üstünü tamamen çizdi.

Bunu yapmamalılardı.

Bir uyarı alarmı 2021’in sonlarında kısmen Facebook (artık Meta) tarafından düzenlenen NetHack adlı önemli bir yarışmada geldi. Rogue adlı eski bir oyunun uzantısı ve Zelda’nın önceli olan NetHack, 1987’de yayımlanmış tek oyunculu bir zindan keşif oyunudur. İlkel seviyede grafiklere sahiptir ve (orijinal versiyon tamamen ASCII karakterlerden oluşuyordu) 3 boyutlu algı gerektirmez. Zelda oyununda, The Breath of the Wild’ın aksine, karmaşık fiziksel dinamikleri anlamaya gerek yoktu. Oyuncu bir cinsiyeti ve bir rolü olan (şövalye, büyücü veya arkeolog gibi) bir karakter seçerek zindanı keşfe çıkar, Yendor’un tılsımını ararken nesneler toplayıp canavarlarla savaşır. 2020’deki meydan okuma ise YZ’nin bu oyunu iyi oynamasını sağlamaktı (14).

**Kaynak:** https://raw.githubusercontent.com/facebookresearch/nle/main/dat/nle/example_run.gif

KAZANAN: NetHack — sembolik YZ için kolay, derin öğrenme için zorlayıcı.

Pong’dan Breakout’a, (arama ağacı için biraz sembolik algoritmaların da yardımıyla) Go ve Satranç’ta uzmanlaşan NetHack, birçoklarına derin öğrenme için çocuk oyuncağı gibi göründü. Ama Aralık ayında, yalnız sembol manipülasyon bazlı bir sistem, yarışmadaki en iyi derin öğrenme rakiplerini 3–1’lik bir skorla ezdi geçti, bu görkemli bir bozgundu.

Peki, beklenmeyen taraf nasıl zafer kazanmayı başardı? Ben cevabın zindanın her oyunda baştan yaratıldığı gerçeği olduğundan şüpheleniyorum, ki bu basitçe oyun tahtasını ezberleyemeyeceğiniz (veya yaklaşık bir tahminde bulunamayacağınız) anlamına gelir. Kazanmak için, oyun elemanlarının ve birbirleriyle olan soyut ilişkilerinin makul seviyede derinden anlaşılmasına ihtiyacınız vardır. Nihayetinde, oyuncuların karmaşık bir dünyada neyi yapıp neyi yapamayacakları hakkında mantık yürütmeleri gerekir. Belli hareket sekansları (“sola git, sonra ileri, sonra sağa”) işe yaramayacak kadar yüzeysel kalır, çünkü her eylem temelinde yeni yaratılmış bir bağlama göre değişecektir. Derin öğrenme sistemleri daha önce gördükleri örnekleri birbirine katmada muazzamdırlar fakat yepyeni bir şeyle karşılaştıklarında sıklıkla tökezlerler.

Davut’un Goliath’a her vuruşu, durup baştan düşünmek için bir işarettir.

“Sembolleri işlemek” gerçekten ne anlama gelir? Nihayetinde, iki anlama gelir: bilgiyi temsil eden sembol dizilerine (esasında bir şeyleri temsil eden örüntülere) sahip olmak, ve bu sembolleri cebir (veya mantık, veya bilgisayar programları) gibi belli bir yöntemle işlemek (manipüle etmek). Alandaki kafa karışıklığının çoğu sembollere sahip olmak ve onları cebir ile işlemek arasındaki farkları görememekten olagelmiştir. YZ’nın içinde bulunduğu bu karmaşaya nasıl düştüğünü anlamak için, ikisi arasındaki farkı görmek esastır.

Semboller nedir? Temelde, sadece kodlardır. Semboller, genelleme için kurallı bir mekanizma sunar. Bu mekanizma bilinen örneklere herhangi bir benzerlikten bağımsız, evrensel olarak uygulanabilen, yasal, cebirsel bir prosedürdür. Bunlar (en azından şimdilik) bilgiyi elden geçirmenin ve yeni durumlarda soyutlamalarla güçlü bir şekilde başa çıkmanın en iyi yoludur. Üzerinde “DUR” yazan kırmızı bir sekizgen, sürücünün durması için bir semboldür. Artık evrensel olarak kullanılan ASCII kodunda, 01000001 ikili sayısı A harfini, 01000010 ikili sayısı B harfini temsil eder (yani onun için bir semboldür), vesaire.

Bu tür işaretler sürücüsüz araç endüstrisi için endişe verici olmalıdır.

Bit olarak bilinen bu ikili basamak dizilerinin, yalnızca sayıların kendisini değil, bilgisayarlardaki yönergeler gibi her türden şeyi kodlamak için kullanılabileceğine dair temel fikir, en azından efsanevi matematikçi von Neumann’ın neredeyse tüm modern bilgisayarların izlediği mimarinin ana hatlarını belirlediği 1945 yılına kadar gider. Aslında, von Neumann’ın ikili bitlerin sembolik olarak işlenebileceği yolları tanımlamasının, 20. yüzyılın en önemli icatlarından birinin merkezinde olduğu iddia edilebilir. Kelimenin tam anlamıyla şimdiye kadar kullandığınız her bilgisayar programı buna dayanmaktadır. (Kimse bunu kabul etmiyor gibi görünse de sinir ağlarında popüler olan “gömüler [embeddings]” de dikkat çekici bir şekilde sembollere benzer. Örneğin, sıklıkla, ASCII koduna oldukça benzeyen bire-bir biçiminde, herhangi bir kelimeye benzemeyen bir vektör atanır. Bir şeye “gömülü [embedded]” demek onun sembol olmadığı anlamına gelmez.)

Turing, von Neumann ve onlardan sonraki herkesin uyguladığı türden klasik bilgisayar bilimi, sembolleri cebirsel olarak düşündüğümüz bir tarzda manipüle eder. Basit cebirde üç tür öğemiz vardır, değişkenler (x ve y gibi), işlemler (+ veya — gibi) ve bağlayıcılar (örneğin, bazı hesaplamalar amacıyla x = 12’ye izin vermemizi söyler). Size x = y + 2 ve y = 12 dersem, y’yi 12’ye bağlayarak ve diğer değerle toplayarak (14) elde eder ve x’in değerini bulabilirsiniz. Neredeyse dünyadaki tüm yazılımlar cebirsel işlemleri bir araya getirerek, onları birleştirip daha da karmaşıklaşan algoritmalar haline getirerek çalışır. Örneğin, kelime işlemciniz, belgenizi temsil etmek için bir dosyada toplanan bir dizi simgeye sahiptir. Çeşitli soyut işlemler, sembol uzantılarını bir yerden diğerine kopyalamak gibi şeyler yapacaktır. Her işlem, herhangi bir yerde, herhangi bir belge üzerinde çalışabilecek şekilde tanımlanır. Bir kelime işlemci, özünde, değişkenlere (“mevcut seçili metin” gibi) uygulanan bir dizi cebirsel işlemin (“fonksiyonlar” veya “altyordamlar” [subroutines]) bir tür uygulamasıdır.

Sözlükler veya veritabanları gibi belirli kişilerin ve özelliklerinin (adresleri veya bir satış görevlisinin onlarla en son ne zaman iletişim kurduğu gibi) kayıtlarını tutabilen, programcıların yeniden kullanılabilir kod kitaplıkları oluşturmasına ve karmaşık sistemlerin geliştirilmesini kolaylaştıran modüller yaratmasına olanak tanıyan veri yapılarının da temelinde sembolik işlemler vardır. Bu tür teknikler, yazılım dünyasının ekmek teknesi olarak her yerde bulunur.

Semboller yazılım mühendisliği için bu kadar kritikse, neden onları yapay zekada da kullanmıyoruz?

John McCarthy ve Marvin Minsky gibi ilk öncüler, bu teknikleri genişleterek, bireysel varlıkları ve soyut fikirleri, karmaşık yapılar ve zengin bilgi depoları halinde birleştirilebilecek sembollerle yapay zeka programlarının oluşturulabileceğini düşündüler; günümüzde web tarayıcıları, e-posta programları ve kelime işlemcilerde kullanıldığı gibi. Yanılmıyorlardı, bu tekniklerin uzantıları her yerde (arama motorlarında, trafik navigasyon sistemlerinde ve oyun yapay zekasında). Ancak sembollerin de kendi içinde sorunları vardı; saf sembolik sistemler bazen pratikte hantal kaldılar. Görüntü ve konuşma tanıma gibi görevlerde pek de iyi iş çıkartamadılar. Büyük Veri olayı hiçbir zaman onların güçlü yanı olmadı. Sonuç olarak, başka bir şeylere uzun zamandır ihtiyaç vardı.

İşte sinir ağları da burada devreye girdi.

Büyük veri ve derin öğrenmeyi, klasik, sembol işleme yaklaşımına tercih etmeyi (veya nihayetinde ona ek olarak kullanmayı) destekleyen gördüğüm belki de en net örnek yazım denetimidir (spell-checking). Tanımlanamayan kelimeler için öneriler yapmanın eski yolu, esasen insanların nasıl hata yapabileceğinin psikolojisini belirleyen bir dizi kural oluşturmaktı. (Yanlışlıkla harflere iki kere basılmasının veya yan yana olan iki harfin yanlış sırayla yazılıp, “the” yerine “teh” olmasının olasılığını düşünün). Ünlü bilgisayar bilimcisi Peter Norvig’in belirttiği gibi, Google boyutunda verilere sahip olduğunuzda, yeni bir seçeneğiniz var: kullanıcıların kendilerini nasıl düzelttiklerine ilişkin kayıtlara bakmanız yeterli (15). “Kitpa” kelimesini arattıktan sonra “kitap” aramasını yapıyorlarsa, “kitpa” için daha iyi bir yazımın ne olabileceğine dair kanıtınız olur. Yazım kurallarına gerek duymazsınız.

Bana göre, cephaneliğinizde her iki yaklaşımın da olmasını isteyeceğiniz çok açık görünüyor. Gerçekte de genellikle yazım denetim uygulamaları her ikisini de kullanmaktadır; Ernie Davis’in gözlemlediği gibi, “Google’a ‘cleopxjqco’ yazarsanız, muhtemelen hiçbir kullanıcı daha önce yazmamış olsa bile, onu ‘Cleopatra’ olarak düzeltir. Google Arama, tamamıyla sembolleri manipüle eden yapay zeka ile derin öğrenmenin pragmatik bir karışımını kullanır ve muhtemelen öngörülebilir gelecekte de bunu yapmaya devam edecektir. Ancak Hinton gibi insanlar, sembollerin herhangi bir rolü olmasına tekrar tekrar karşı çıktılar.

Benim gibi insanların hem derin öğrenme hem de sembol işleme unsurlarını içeren “hibrit modelleri” savunduğu yerde, Hinton ve takipçileri sembolleri kapı dışarı etmeye uğraştılar. Neden? Şimdiye kadar hiç kimse bu duruma ikna edici bilimsel bir açıklama getirmedi. Bunun yerine, belki de cevap tarihtedir — alanın gelişimini engelleyen bir husumet.

Her zaman böyle değildi. Warren McCulloch ve Walter Pitts’in 1943’te yazdığı “ Sinir Etkinliğinin Özündeki Fikirlerin Mantıksal Hesabı (A Logical Calculus of the Ideas Immanent in Nervous Activity)” başlıklı makaleyi okumak hala gözlerimi yaşartır; Von Neumann’ın bilgisayarlarla ilgili kendi temel makalesinde alıntı yapmaya değer bulduğu tek makaledir (16). Hâlâ değerli olduğunu düşündüğüm temel hedefleri, “[sinir] ağlarının titizlikle sembolik olarak işlenmesi için bir araç” yaratmaktı. Von Neumann sonraki günlerinin çoğunu bu soruyu düşünerek geçirdi. Yakında ortaya çıkacak olan düşmanlığı öngörebilmeleri mümkün değildi.

1950’lerin sonlarında, asla iyileşmeyecek bir bölünme olmuştu. McCarthy, Allen Newell ve Herb Simon gibi YZ’nin kurucularının çoğu, sinir ağı fikrinin öncülerine neredeyse hiç yer vermemiş ve sinir ağı topluluğu da onlardan ayrılmış gibi duruyordu. Buna rağmen sinir ağı çalışmaları bazen kendi başına inanılmaz derecede adını duyurabiliyordu: 1957’de çıkan bir New Yorker makalesi, Frank Rosenblatt’ın sembol kullanmaktan kaçınan erken dönem bir sinir ağı sisteminin “düşünceye varan şeyleri yapabilen olağanüstü bir makine” olduğunu vaat ediyordu.

Sembol işlemeyi öylece bırakabileceğimizi düşünmek, inançsızlığı askıya almaktır.

İşler o kadar gergin ve tatsız bir hal aldı ki, Advances in Computers dergisi para, prestij ve basın üzerine erken dönem çatışmaları vurgulayan “Sinir Ağları Tartışmasının Sosyolojik Tarihi (A Sociological History of the Neural Network Controversy)” adlı bir makale yayınladı (17). O dönemde var olan yaralar 1969’da, Minsky ve Seymour Papert, tüm modern sinir ağlarının ataları olan bir sinir ağları sınıfının (algılayıcılar-perceptronlar) ayrıntılı bir matematiksel eleştirisini yayınladıklarında daha da deşildi. En basit sinir ağlarının bile oldukça kısıtlı olduğunu kanıtladılar ve daha karmaşık ağların neler başarabileceğine dair şüphelerini (geriye dönüp bakıldığında gereksiz yere kötümser olarak) dile getirdiler. On yılı aşkın bir süre boyunca sinir ağlarına olan ilgi azaldı; Rosenblatt (iki yıl sonra bir yelken kazasında öldü) araştırma fonunun bir kısmını kaybetti.

1980’lerde sinir ağları yeniden ortaya çıktığında, birçok sinir ağı savunucusu kendilerini sembol işleme geleneğinden uzaklaştırmak için çok çalıştı. Yaklaşımın öncüleri, sembol işleme ile uyumlu sinir ağları inşa etmenin mümkün olmasına rağmen bununla ilgilenmediklerini açıkça belirtti. Bunun yerine asıl ilgi alanları, sembol işlemeye alternatif olan modeller oluşturmaktı. Ünlü bir araştırma, çocukların aşırı kurallaştırma hatalarının (örneğin öğrenilen-ci ekini gereksiz kullanmak, berberci gibi), klasik sembol işleme kuralları sistemlerinden çok farklı olan sinir ağları ile açıklanabileceğini savundu (Tez çalışmam ise aksini gösteriyordu).

1986’da üniversiteye girdiğimde, sinir ağları ilk büyük canlanmalarını yaşıyordu. Hinton’un oluşturulmasına yardım ettiği iki ciltlik bir koleksiyonun ilk baskısı birkaç hafta içinde tükendi. New York Times, bilim bölümünün ön sayfasında sinir ağlarına yer verdi (“Her Zamankinden Daha İnsani, Bilgisayarlar Öğrenmeyi Öğreniyor”) ve işlemlemesel (computational) sinirbilimci Terry Sejnowski, The Today Show’da nasıl çalıştıklarını açıkladı. Derin öğrenme o zamanlar o kadar derin değildi, ama yine hareket halindeydi.

1990’da Hinton, açıkça derin öğrenme ve sembol manipülasyonunun ayrı iki dünyası arasında köprü kurmayı amaçlayan, Artificial Intelligence dergisi için “Bağlantısal Sembol İşleme (Connectionist Symbol Processing)” adlı özel bir sayı yayınladı. Örneğin, David Touretzky’nin “bileşik sembol yapılarını dinamik olarak oluşturan ve yöneten bağlantıcı bir [sinir ağı] modeli” yaratmaya yönelik doğrudan bir girişim olan BoltzCons mimarisini içeriyordu. Her zaman Hinton’un yapmaya çalıştığı şeyin kesinlikle doğru yolda olduğunu hissetmişimdir ve keşke o projeyle devam etmiş olsaydı. O zamanlar psikolojik açıdan da olsa, ben de hibrit modellerde ısrarcıydım (18). (Diğerlerinin yanı sıra Ron Sun da bilgisayar bilimi camiası içerisinden çok baskı yaptı ve hak ettiğini düşündüğüm ilgiyi asla göremedi.)

Hiçbir zaman tam olarak anlayamadığım nedenlerden dolayı, Hinton sonunda uzlaşma olasılığına inancını yitirdi. Kendisine özel olarak sorduğumda, birçok açıklama fırsatını geri çevirdi ve (bildiğim kadarıyla) hiçbir zaman detaylı bir argüman ortaya koymadı. Bazı insanlar bunun, Hinton’un sonraki yıllarda, özellikle de derin öğrenmenin yeniden popülerliğini kaybettiği 2000’lerin başında ciddiye alınmamasından kaynaklandığından şüpheleniyor; başka bir teori ise, derin öğrenmenin başarısına kapılmış olabileceği.

Derin öğrenme 2012’de son on yılın büyük bölümünü karakterize eden ve ödün vermeyen bir tavırla yeniden ortaya çıktı. 2015 yılına gelindiğinde Hinton’un, sembol olan her şeye karşı düşmanlığı tamamen somutlaşmıştı. Stanford’daki bir YZ atölyesinde, sembolleri, bilimin en büyük hatalarından biri olan eter teorileri ile karşılaştıran bir konuşma yaptı (19). Atölyedeki konuşmacılardan biri olan ben, kahve molasında ondan bazı şeyleri açıklamasını istemek için yanına gittiğimde, çünkü son savları yığın (stack) olarak bilinen sembolik bir sistemin sinir ağı uygulamasına benziyordu (ki bu, reddetmek istediği sembollerin istemeden onaylanması olurdu), cevap vermeyi reddetti ve onu rahat bırakmamı söyledi.

O zamandan beri, anti-sembol mücadelesinin yoğunluğu daha da arttı. 2016’da Yann LeCun, Bengio ve Hinton, bilimin en önemli dergilerinden biri olan Nature’da derin öğrenme için bir manifesto yazdılar (20). Metin, sembol işlemeye yönelik doğrudan bir atakla bitiyordu ve uzlaşma yerine tamamen değişim çağrısında bulunuyordu. Daha sonra Hinton, Avrupa Birliği liderlerinin bir araya geldiği bir toplantıda sembol işlemeci yaklaşımlara daha fazla para yatırmanın “büyük bir hata” olduğunu ve bunu elektrikli otomobil çağında içten yanmalı motorlara yatırım yapmaya benzettiğini söyledi.

Henüz tam olarak aydınlatılmamış rağbet görmeyen fikirleri küçümsemek doğru değildir. Hinton, eski günlerde YZ araştırmacılarının derin öğrenmeyi gömmeye çalıştığı konusunda oldukça haklı. Ancak Hinton’un bugün aynı şeyi sembol işlemeye yapması da bir o kadar yanlış. Bana göre düşmanlığı hem onun geriye bırakacaklarını baltaladı hem de alana zarar verdi. Hinton’un yapay zekada sembol işlemeye karşı yürüttüğü mücadele bazı açılardan son derece başarılı oldu; neredeyse tüm araştırma yatırımları derin öğrenme yönünde ilerledi. Zengin oldu ve öğrencileri ile 2019 Turing Ödülünü paylaştı. Hinton’un gözbebeği olan çalışması neredeyse tüm ilgiyi üzerine topladı. Emily Bender’in sözleriyle, “(GPT-3 gibi modeller hakkında) aşırı vaatler, diğer tüm araştırma alanlarının oksijenini emdi.”

Tüm bunların ironisi ise, Hinton’un sembolik yapay zekanın en temel araçlarından biri olan Boole cebrinin adını aldığı George Boole’un torununun torunu olmasıdır. Sonunda bu iki dehanın, Hinton ve onun büyük-büyük büyükbabasının fikirlerini bir araya getirebilirsek, YZ sonunda sözünü yerine getirme şansına sahip olabilir.

Yalnızca derin öğrenme (veya yalnızca semboller) değil de hibrit YZ en azından dört nedenden ötürü en iyi yol gibi görünmektedir.

• Yemek tariflerinden tarihe ve oradan teknolojiye kadar dünyadaki bilginin çoğu şu anda büyük ölçüde veya tamamen sembolik biçimde mevcuttur. Saf derin öğrenmenin yapmayı amaçladığı gibi, bu bilgiler olmadan YGZ (Yapay genel zeka — AGI) oluşturmaya çalışmak ve bunun yerine tamamıyla her şeyi sıfırdan yeniden öğrenmek, aşırı ve çılgınca bir yük olur gibi görünüyor.

• Kendi başına derin öğrenme, aritmetik kadar düzenli alanlarda bile çırpınmaya devam etmektedir (21). Hibrit bir sistem, her iki sistemin de kendi başına sahip olacağından daha fazla güce sahip olabilir.

• Semboller, işlemlemenin birçok temel yönünde hala mevcut sinir ağlarını oldukça geride bırakıyor. Karmaşık senaryolar akıl yürütme konusunda daha avantajlı bir konumdadır (22), aritmetik gibi temel işlemleri daha sistematik ve güvenilir bir şekilde yapabilir ve parçalar ile bütünler arasındaki ilişkileri daha iyi temsil edebilirler (Hem 3 boyutlu dünyanın yorumlanmasında hem de insan dilinin anlaşılmasında önemlidir.). Büyük ölçekli veritabanlarını temsil etme ve sorgulama kapasiteleri açısından daha sağlam ve esnektirler. Semboller ayrıca, güvenliğin bazı yönleri için kritik olan ve modern mikroişlemcilerin tasarımında her yerde bulunan resmi doğrulama tekniklerine daha elverişlidir. Bu meziyetleri bir çeşit hibrit mimariye kazandırmak yerine terk etmek pek mantıklı olmaz.

• Derin öğrenme sistemleri kara kutu gibidir; girdilerine ve çıktılarına bakabiliriz ancak içlerine bakmakta çok fazla sıkıntı yaşarız. Verdikleri kararları tam olarak neden aldıklarını ve yanlış cevaplar verirlerse bu konuda ne yapacaklarını (daha fazla veri toplamak dışında) genelde bilemeyiz. Bu, onları doğası gereği hantal ve yorumlanamaz kılmaktadır ve birçok yönden insanlarla birlikte “artırılmış biliş” için uygun değildir. Derin öğrenmenin öğrenme becerisini sembollerin açık, anlamsal zenginliğiyle ilişkilendirmemize izin veren hibrit modeller bir dönüm noktası olabilir.

Bunun üzerine kurulacak genel yapay zekanın çok büyük bir sorumluluğu olacağı için, paslanmaz çelik gibi, daha güçlü ve daha güvenilir olmalıdır. Hatta onu oluşturan parçaların herhangi biriyle çalışmakta daha kolay olmalıdır. Hiçbir yapay zeka yaklaşımı tek başına yeterli olmayacaktır; birazcık umudumuz olabilmesi için, farklı yaklaşımları bir araya getirme sanatında ustalaşmalıyız. (Demir üreticilerinin “demir” ve karbon severlerin “karbon” diye bağırdığı ve hiç kimsenin ikisini birleştirmeyi düşünmediği bir dünya hayal edin; modern yapay zeka tarihinin çoğu buna benzer.)

İyi haber şu ki, Hinton’ın 1990’larda çok kısa bir süre de olsa haşır neşir olduğu ve benim kariyerimi uğruna lobicilik yaparak geçirdiğim nöro-simgesel yaklaşım hiçbir zaman tamamen ortadan kalkmadı ve sonunda ivme kazanıyor.

Artur Garcez ve Luis Lamb, 2009 yılında hibrit modeller için “Nöral-Sembolik Bilişsel Akıl Yürütme (Neural-Symbolic Cognitive Reasoning)” adlı bir manifesto yazdı. Ve masa oyunu oynamadaki (öncelikle Alphabet’in DeepMind’daki çalışmasıyla öncülük edilen Go, Satranç vb.) son zamanların en iyi bilinen başarılardan bazıları hibrittirler. AlphaGo, 1950’lerin sonlarından kalma (ve 1990’larda çok daha zengin bir istatistiksel temelle güçlendirilmiş) bir fikir olan sembolik ağaç aramasını derin öğrenmeyle bir arada kullandı; Go için ne klasik ağaç araması ne de derin öğrenme tek başına yeterli olabilirdi. DeepMind’ın nükleotidlerinden proteinlerin yapısını tahmin etmeye yönelik bir sistemi olan AlphaFold2 de moleküllerin 3 boyutlu fiziksel yapısını temsil etmenin bazı dikkatle oluşturulmuş sembolik yöntemlerini, derin öğrenmenin harika veri tarama kapasitesiyle bir araya getiren hibrit bir modeldir.

Josh Tenenbaum, Anima Anandkumar ve Yejin Choi gibi araştırmacılar da giderek nöro-sembolik tarafa yöneliyorlar. Diğerlerinin yanı sıra IBM, Intel, Google, Facebook ve Microsoft’taki bazı büyük gruplar da nöro-sembolik yaklaşımlara ciddi yatırımlar yapmaya başladılar. Swarat Chaudhuri ve meslektaşları, kulaklarıma müzik gibi gelen “nöro-sembolik programlama” (23) adlı bir alan geliştiriyorlar.

40 yıldır ilk kez, nihayet YZ konusunda biraz iyimser hissediyorum. Bilişsel bilimciler Chaz Firestone ve Brian Scholl’un güzel bir şekilde ifade ettiği gibi, “Aklın tek bir çalışma şekli yoktur, çünkü akıl tek bir şey değildir. Bunun yerine, zihnin bölümleri vardır ve zihnin farklı bölümleri farklı şekillerde çalışır: Bir rengi görmek, tatil planlamaktan farklı işler; o da bir cümleyi anlamaktan, bir uzvu hareket ettirmekten, bir bilgiyi hatırlamaktan veya bir duygu hissetmekten farklı işler”. Tüm bilişi tek bir yuvarlak deliğe sıkıştırmaya çalışmak asla işe yaramayacaktı. Hibrit bir yaklaşıma karşı küçük ama büyüyen bir açıklıkla, sanırım sonunda bir şansımız olabilir.

Etik ve işlemlemedeki tüm zorluklar ve sadece matematik ve bilgisayar bilimi değil, dilbilim, psikoloji, antropoloji ve nörobilim gibi alanlardan da ihtiyaç duyulan bilgilerle, bir yapay zeka yapmak için bir köy gerekir. İnsan beyninin bilinen evrendeki belki de en karmaşık sistem olduğunu asla unutmamalıyız; kabaca eşdeğer bir şey inşa edeceksek, bunun yolu açık yürekli işbirliği olacaktır.

Notlar

[1] Suspension of disbelief — Gerçekte olmayan bir duruma karşı inançsızlığı askıya almak, sanki o durum gerçekmiş gibi varsayarak davranmak anlamına gelir. Bir film izlerken kurgudaki mantıksız yönleri yok sayıp, o evrenin kurallarını doğru saymak gibi. Burada da göz göre göre sembol işlemeyi yok saymak buna benzetiliyor. (Ç.N.)

Kaynakça

(1) Varoquaux, G. & Cheplygina, V. How I failed machine learning in medical imaging — shortcomings and recommendations. arXiv 2103.10292 (2021).

(2) Chan, S., & Siegel, E.L. Will machine learning end the viability of radiology as a thriving medical specialty? British Journal of Radiology 92, 20180416 (2018).

(3) Ross, C. Once billed as a revolution in medicine, IBM’s Watson Health is sold off in parts. STAT News (2022).

(4) Hao, K. AI pioneer Geoff Hinton: “Deep learning is going to be able to do everything.” MIT Technology Review (2020).

(5) Aguera y Arcas, B. Do large language models understand us? Medium (2021).

(6) Davis, E. & Marcus, G. GPT-3, Bloviator: OpenAI’s language generator has no idea what it’s talking about. MIT Technology Review (2020).

(7) Greene, T. DeepMind tells Google it has no idea how to make AI less toxic. The Next Web (2021).

(8) Weidinger, L., et al. Ethical and social risks of harm from Language Models. arXiv 2112.04359 (2021).

(9) Bender, E.M., Gebru, T., McMillan-Major, A., & Schmitchel, S. On the dangers of stochastic parrots: Can language models be too big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency 610–623 (2021).

(10) Kaplan, J., et al. Scaling Laws for Neural Language Models. arXiv 2001.08361 (2020).

(11) Markoff, J. Smaller, Faster, Cheaper, Over: The Future of Computer Chips. The New York Times (2015).

(12) Rae, J.W., et al. Scaling language models: Methods, analysis & insights from training Gopher. arXiv 2112.11446 (2022).

(13) Thoppilan, R., et al. LaMDA: Language models for dialog applications. arXiv 2201.08239 (2022).

(14) Wiggers, K. Facebook releases AI development tool based on NetHack. Venturebeat.com (2020).

(15) Brownlee, J. Hands on big data by Peter Norvig. machinelearningmastery.com (2014).

(16) McCulloch, W.S. & Pitts, W. A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biology 52, 99–115 (1990).

(17) Olazaran, M. A sociological history of the neural network controversy. Advances in Computers 37, 335–425 (1993).

(18) Marcus, G.F., et al. Overregularization in language acquisition. Monographs of the Society for Research in Child Development 57 (1998).

(19) Hinton, G. Aetherial Symbols. AAAI Spring Symposium on Knowledge Representation and Reasoning Stanford University, CA (2015).

(20) LeCun, Y., Bengio, Y., & Hinton, G. Deep learning. Nature 521, 436–444 (2015).

(21) Razeghi, Y., Logan IV, R.L., Gardner, M., & Singh, S. Impact of pretraining term frequencies on few-shot reasoning. arXiv 2202.07206 (2022).

(22) Lenat, D. What AI can learn from Romeo & Juliet. Forbes (2019).

(23) Chaudhuri, S., et al. Neurosymbolic programming. Foundations and Trends in Programming Languages, 7, 158–243 (2021).

Bilişsel Bilim — Kognitif VikiMaraton

Gerçekten Zeki Makineler İçin Eksik Olan Şey: Beden — Ben Medlock

Hayvan Bilişi — Kognitif VikiMaraton