Neden Beyinde Ödül Tahmin Hatası Vardır?

Özgün Adı: Why does the brain have a reward prediction error?

Mark Humphries, beyni incelemek için hayvan modelleri yerine hesaplamalı (computational) ve istatistiksel modeller kullanan bir sistem nörobilimcisidir. Ekibiyle, birçok nöronun ortak faaliyetinin, davranışı yönlendirmek için geçmişi, bugünü ve geleceği nasıl kodladığını araştırmaktadır. Bunu yapmak için, geniş çapta uygulanabilir veri analizi tekniklerinin geliştirilmesini sağlamaktadır. Ekibi ve kendisi, bu teknikleri yüzlerce, binlerce nöronun kayıtlarını; farklı görevler esnasında, farklı tür ve filumların çeşitli beyin devrelerinden alınan kayıtları analiz etmek için kullanıp, bu ortak faaliyetin sinir devrelerinden nasıl ortaya çıktığına dair teorik ve hesaplamalı modeller geliştirmektedir.

Dopamin ve geri bildirim sanatı

Modern sinirbilimin derin başarı öykülerinden biri, dopamin nöronlarının bir tahmin hatasını, beklenen ödül ile elde edilen şey arasındaki hatayı işaret ettiği teorisidir.

Teorinin başarısı derinlere iniyor. Nöronların ateşlenmesinden, dopaminin salınımından ve fMRI’da görülen kan akışından elde edilen, birbirine yakınsayan kanıtlarla desteklenmiştir. Bu kanıtlar farklı türler arasından; insanlardan, maymunlardan, sıçanlardan ve arılardan elde edilmiştir. Hatta dopamin nöronlarının zorla ateşlenmesinin beyne hata sinyalleri gönderdiğine dair, etkilerini bu dopamin nöronlarıyla oynadığımız canlıların davranışlarında görebileceğimiz nedensel kanıtlar da mevcut. Teori, insan davranışı ölçeğinden tek bir nöron seviyesine kadar inen veriler arasında köprü kuruyor. Beyin üzerine birçok teorinin aksine, bu teori tamamen işleme dayalı (computational), birçok apaçık olmayan (non-trivial) tahminde bulunuyor ve bu tahminleri doğru çıkıyor. Dopamin ve tahmin hataları, iç içe geçmiş durumda.

Ancak bu derin bağlantı, daha büyük ama nadiren dile getirilen bir soruyu gündeme getiriyor. Hataların açık bir temsilini (explicit representation) bulundurmadan da hatalardan öğrenebilen bir beyin inşa etmek son derece mümkün. Öyleyse beyinde neden ödüllere dair bir hata sinyali var?

Bu soruyu anlayabilmek için, önce tahmin hatasının kendisiyle ilgili biraz bilgi sahibi olmamız gerekiyor. Teori, dopamin nöronlarının “beklenmeyen iyi şey”lere ateşlendiğini söylüyor. Eğer birden omzunuza dokunup size bir şeker verirsem, dopamin nöronlarınız şeker için “bip”leyecektir.

Eğer ki omzunuza dokunup size şeker vermeye devam edersem, dopamin nöronlarınız şekere “bip”lemeyi kesecektir — bir şeker elde etmek harikadır ama artık beklenmedik bir şey değildir (ve açıkçası siz de kişisel alanınıza biraz saygı göstermemi tercih ederdiniz). Bunun yerine, dopamin nöronlarınız omzunuza dokunulmasına “bip”lemeye başlarlar. İşin zekice kısmı da burası: nöron “bip”ler çünkü artık omzunuza dokunulması artık bir şekerin (iyi bir şey) geleceğini hatasızca tahmin ediyordur; ama kendisi beklenmediktir çünkü omzunuza ne zaman dokunulacağını bilmezsiniz. Böylece, omzunuza dokunulması “beklenmeyen iyi şey” haline gelir.

Teori ayrıca der ki; dopamin nöronları, aynı insanlar gibi, rutinlerinin ihlal edilmesinden derin bir üzüntü duyarlar. Bir güven ilişkisi kurulmuşken, –benim tekrar tekrar omzunuza dokunmam ve sizin bu sosyal normun ihlalinden bir dizi şeker elde etmeniz gibi- eğer ben omzunuza dokunur da size şeker vermezsem ne olur? Dopamin nöronlarınız tamamen durur, kısa bir süreliğine ateşlenmeyi keserler.

Kısacası, dopamin nöronları bir ödülü tahmin ederken karşılaşılabilecek üç olası hatayı kapsayan hızlı bir sinyal gönderir: ödülün beklenenden iyi olması (pozitif hata), ödülün beklendiği gibi olması (hata yok) veya ödülün beklenenden kötü olması (negatif hata). Tüm bunları bilim insanlarının çok sevdiği o acı verici birleşik adlardan biri ile nitelendirebiliriz: dopamin nöronları bir ödül tahmin hatası gönderir.

Dopamin ve “ödül tahmin hatası” arasındaki bu ilişkinin kökleri, yapay zekanın pekiştirmeli öğrenme (reinforcement learning) dalından gelir (teknik olarak, makine öğreniminin bir dalıdır, ama şimdilerde sadece kayışa takılmış bir ivmeölçer olduğundan emin olduğum FitBit de dâhil her şey yapay zeka olarak nitelendirildiğinden, bu da yapay zekadır). Pekiştirmeli öğrenme, bir şeyin yalnızca kendi tahminlerinin ne kadar doğru veya yanlış olduğunun söylenmesiyle nasıl öğrenebileceğine ilişkin algoritmaların bütünüdür.

Tüm klasik pekiştirmeli öğrenme algoritmaları, bir seçeneğin ne kadar değerli olduğunu tahmin etmedeki hataya dair açık bir sinyal içerir (bu algoritmaların yoklama listesine kollu kumar [slot] makineleri [bandits], Zamansal Fark Öğrenimi, Q-learning, SARSA veya Actor-Critic dahildir). Bu, bundan sonra olacak şeyin tahmini değeri ile, gerçekten olacak değerinin arasındaki sinyaldir — bu değer, gelecekte beklenen ödülün miktarı ile ölçülür. Pekiştirmeli öğrenmenin sihri, basitçe dünyada sıradaki her bir şeyin tahmini ve gerçek değeri arasındaki hatanın en aza indirgenmesiyle yapay bir öznenin, bir dünyada yolunu bulmak veya koşmak gibi oldukça karmaşık olay dizilerini öğrenebilmesidir.

Dopamin teorisinin işlemsel (computational) kısmı da budur: dopamin nöronlarının hızlı tepkileri, yalnızca pekiştirmeli öğrenme algoritmalarının tahmin hatasıdır. Bundan sonra olacak şeylerin tahmini ile gerçek değerleri arasındaki hatadır ve öğrenmede kullanılırlar. Bu teorinin kilit noktası, dopamin nöronlarının sadece elde edilen ve beklenen ödülün arasındaki farkı sinyallemesi değildir. Aynı zamanda bir ödülü tahmin eden beklenmedik şeylere de bu sinyali aktarabilmeleridir, tam da pekiştirmeli öğrenme algoritmalarının olması gerektiğini söylediği gibi.

Bu, dopamin nöronlarının yalnızca bu tahmin hatasını kodladığı anlamına gelmez. Dopamin nöronlarının kendilerinin ilgilenebilecekleri pek çok detay, tahmin hatalarının da ötesinde bir üst küme dolusu şey vardır. Doğrusu, ödül tahmin hataları da dünya hakkında beyinde var olabilecek tüm olası tahmin hatalarının bir alt kümesidir (bu hikayeyi sonraya bırakalım). Fakat dopamin nöronlarının ödül tahmin etmedeki hatayı kodlamaları, yaptıklarının iyi bilinen bir parçası gibi görünüyor.

(Dopamin nöronlarının hızlı tepkisi ile tahmin hatası arasındaki bu öne sürülen ilişki, daha ayrıntılı pekiştirmeli öğrenim algoritmaları için de geçerlidir, aynı Peter Dayan’ın “takipçi temsil” [successor representation] fikrinin Sam Gershman, Ida Momennejad, Kim Stachenfeld ve takım arkadaşları tarafından heyecan verici şekilde hayata döndürülmesi ve genişletilmesi gibi. Bu “takipçi temsil” anlatısında, tahmin ettiğinizle elinize geçen arasında tek bir basit hata değil, dünyanın farklı özelliklerindeki değişimler üzerine yapılan tahminlerdeki tüm hatalardan oluşan bir vektör vardır, bunlardan biri de ödüldür. Greshman ve arkadaşlarının yakın zamandaki bir makalesi, dopamin nöronlarının hızlı tepkisini o hataların toplamı olarak düşünmenin, dopamin nöronlarının dünyadaki ödül haricindeki değişiklikler için de hızlı sinyaller göndermesi hakkındaki bazı yeni bulguları açıklayabileceğini gösteriyor.)

Ancak nöron ve teorik hata sinyali arasındaki bu ilişkinin var olması gerekli değildir. Pekiştirmeli öğrenme algoritmaları hayvan davranışları üzerindeki gözlemlere dayalıdır veoldukça başarılı olabilirler: hayvanlar, insanlar da dahil, genellikle gerçekten de dünyaya dair şeyler öğrenmek için bir ödül tahmin hatası kullanıyormuş gibi davranırlar. Ancak sırf dünyayı ödül üzerine bir tahmin hatasıyla açıklayabiliyoruz diye, bu beyinde böyle açık bir sinyal olduğu anlamına gelmez.

Çünkü tahminlerindeki hataya dair açık bir sinyal olmadan, geribildirimleri kullanarak dünyayı öğrenebilen bir sistem inşa etmek son derece mümkündür. Bunun bir örneği, kesinliklerden çok gelecekteki olayların olasılıklarını öğrenen bir Bayes etmenidir (Bayes agent).

Böylesi bir Bayes etmeni, A eylemini seçmenin değerinin ne olacağının belirsizliğini temsil edebilir. Bu belirsizlik, A eylemini seçmenin olası değerlerinin olasılık dağılımı ile kodlanacaktır -buna P(değer | eylem A) diyebiliriz-. Örneğin, A eylemi seçmenin büyük olasılıkla düşük bir değeri olabilir veya küçük olasılıkla yüksek bir değeri olabilir, ya da tam tersi veya çok daha karmaşık bir şey olabilir.

Bu zavallı Bayes etmenimizi olabilecek en sıkıcı dünyaya fırlatırız. Tüm hayatı, bir bozuk para kazanmak için üç koldan hangisini çekeceğini tekrar tekrar seçmektir. Üç kolun da para kazandırma şansı farklı olduğundan, etmen uzun vadede hangisini çekmenin daha çok para kazandıracağını bulmalıdır. Üç kol, yani üç olası eylem; öyleyse bu kolların değerlerine karşılık gelen üç de olasılık dağılımı vardır. Her turda etmen bu olasılık dağılımlarına göre bir kol seçer –muhtemelen o an en büyük ödül için en yüksek olasılığı vereni seçer- ve parayı bekler.

Para gelse de gelmese de, etmen bu sonucu olasılık dağılımını güncellemek için kullanır. Bir paranın gelmesi, o kolun iyi olduğunun bir kanıtıdır ve etmen de o kolun yüksek bir değeri olması olasılığını artırır; para gelmemesi o kolun kötü olduğunun bir kanıtıdır ve etmen o kolu çekmenin düşük bir değeri olması olasılığını artırır. İki türlü de etmenin seçtiği eylem hakkında artık daha fazla bilgisi vardır, sonuç kötü ise de iyi ise de. Eylemin olasılık dağılımı, dağılımın parametreleri bu bilgiyi yansıtacak şekilde değiştirilerek güncellenmiştir.

Burada bir hata sinyali yoktur. Etmen, dünyayı geribildirim ile öğrenir ve bu öğrenimini karar vermekte kullanır; ama bir tahmin hatası sinyali yoktur. Elbette, para gelmeden önceki ve sonraki olasılık dağılımları arasındaki farkı hesaplayarak bir tane oluşturabiliriz, ama ihtiyacımız yoktur. Hata sinyali örtüktür.

Tekrar etmek gerekirse, bu davranış;henüz beyinden bahsetmiyoruz. Fakat, beynin de dünyayı olasılık dağılımları kullanarak temsil ettiğine inanan birçok kişi mevcut, ve olasılık dağılımlarının nöronları kullanarak nasıl temsil edilebileceğine ve güncellenebileceğine dair makul teoriler de mevcut. Bunlar da özünde nöron popülasyonlarının ateşlemesini bir olasılık dağılımını temsil edecek şekilde düzenlemeye iniyor. Bunu da o nöronlara giden girdilerin güçlülüğünü düzenleyerek yapabilirsiniz (bu girdiler nöron popülasyonunun içinden veya dışından olabilir). Yani beyin, yalnızca bir ödülün meydana gelip gelmediğine dair bir sinyale ihtiyaç duyar ve bunu da bağlantıları düzenlemek için kullanır. Tahminlerdeki hataya dair karmaşık bir sinyale gerek yoktur.

Yani beyin, bir pekiştirmeyi tahmin eden açık bir hata sinyali olsun veya olmasın, pekiştirme ile öğrenebilir. Ancak, beyin dopamin nöronları tarafından kodlanan açık bir hata sinyaline sahip. Bu bize ne anlatıyor?

Bence bu, bize beynin nasıl çalıştığına dair üç ilginç fikir anlatıyor. Ancak bu benim fikrim, yanılmaya ve neden ödülü tahmin eden açık bir hata sinyali olmadan bir beyin inşa edemeyeceğimize dair su sızdırmaz bir argüman olmasına tamamen hazırım.

İlk fikir, açık bir hata sinyalinin varlığının, beyinde dünyanın basit bir temsili olduğuna işaret etmesidir. Bir eylemin tüm olası sonuçlarını temsil etmeyen ve muhtemelen olasılık da kullanmayan, sözde “modelsiz” bir temsil. Zaman daralırken veya dünya durgunken eylem seçmede kullanılan, hızlıca erişebileceğimiz bir arama tablosu. Bu tür temsillerin beynin neresinde bulunduğuna dair bazı iyi fikirlerimiz var ve hakkında bilgi sahibi olduğumuz tüm böylesi basit temsil türleri gerçek ve tahmini değerler arasında açık bir hata sinyali gerektiriyor.

İkinci fikir, pekiştirmeli öğrenmedeki bir konseptin, aslında beyinde iki farklı işlemden oluştuğudur. Pekiştirmeli öğrenmedeki konseptlerden biri, bir eylemin tahmin ettiğiniz değerini, tahmininizdeki hatayı kullanarak değiştirdiğinizdir. Bu neden beyinde iki ayrı işlemden oluşur? Çünkü beyin, bir eylemin değeri hakkındaki tahminlerinizdekikısa ve uzun vadeli değişimleri ayrı ayrı kontrol etmek isteyebilir. Dopaminle taşınan açık bir hata sinyalinin bulunması da beynin ikisini tek bir sinyalle yapmasına olanak verir.

Uzun vadeli değişiklikler için, bir eylemin değerine dair tahminimizi, o olayı temsil eden nöronlara giden bağlantıların güçlülüğünü artırarak veya azaltarak düzenleyebiliriz. Bir değere dair tahminimizi bu şekilde düzenlemek uzun süreli davranışı değiştirir. Gerçekten de hızlı dopamin sinyalinin beyindeki bazı bağlantıların güçlülüklerini değiştirmelerine izin verilip verilmeyeceğini ve bunun hangi yönde olacağını kontrol ettiği düşünülüyor. Burada ise bağlantılara hangi yönde değişecekleriini iletebilmek için hata sinyalinin işaretine ihtiyacınız var.

Fakat beyin, aldığı her bir geri bildirimin nöronlar arası bir bağlantıyı değiştirmesini istemeyebilir. Çünkü bu,onu geri dönüşün zor olacağı bir yola kilitleyebilir. Gerçekten de, bu bağlantıların güçlülüğünü bir nöronun girdilerini uyararak değiştirmeye çalıştığımızda, bazılarını değiştirmenin oldukça zor olduğunu görürüz. Bu da, kısa süreli durumlarda, beynin bağlantıların güçlülüğünü değiştirmeden bir eylemin değerine dair tahminlerini değiştirerek her iki tarafa da oynadığı olasılığını ortaya koyar. Bunu da, bağlantıları değiştirmektense bir nöronun girdilerine ne kadar duyarlı olduğunu değiştirerek yapabilir. Eğer bir nöronu A olayı için ateşlemeye daha yatkın hale getirirseniz, onun tahmini değerini yükseltmiş olursunuz, veya tam tersi. Tahmin edin hangi nörotransmiterin eylemleri kontrol eden nöronların duyarlılığını değiştirdiğini gösteren yüzlerce makale var? Evet, dopamin.

Hepsini birlikte düşünürsek, buradaki argüman, açık bir hata sinyalinin, beynin iki farklı zaman ölçeğinde tahmini değer değişimlerini kontrol etmesini sağlamak için var olduğudur. Bunu dopaminin kodladığı bir hata sinyaliyle yaparsanız, hem uzun sürede bağlantıların güçlülüğünü değiştirebilir hem de kısa sürede nöronların duyarlılığını değiştirebilirsiniz.

Üçüncü fikir ise açık bir hata sinyalinin evrimsel bir rastlantı olduğudur. Geri bildirimden öğrenen bir sistemi açık bir hata sinyaliyle inşa etmek, olasılıkların bir grup nöron arasındaki temsilleriyle yapmaktan daha kolaydır. Muhtemelen, çok eskiden yaşamış hayvanların, hareket kontrolünün bir parçası olarak dopamin veya benzeri bir şey püskürten bir veya iki nöronu vardı. Dopaminin nöronların girdilere tepkisini değiştirerek hareketini etkilediği, sadece birkaç bin nöronu olan birçok omurgasız canlı bulabiliriz. Bu dopamin sisteminin oturmasıyla birlikte, belki de evrime en az direnç gösteren yol, iki nöronun hatayı takiben etkileşimini değiştirmek için bu sinyali seçmekti. Bu, potansiyel olarak, aynı ilkel kökenden, öncelikle bilgileri temsil etmek için açık bir hata sinyali gerektirmeyen dağıtımlı bir sistemin evrimleşmesinden daha kolay görünüyor.

Teorinin sinirbilime katkısı, beynin neyi yapabildiğini göstermek kadar, ne yapmadığını veya yapamadığını da göstermektir. Elbette, her keyfi fikre müsaade edersek, bu alan pratikte sonsuzdur: beynin çilek reçelini nörotransmiter olarak kullanmadığını veya bir zarfın arkasında körelmiş bir kalem kullanarak işlem yapmadığını gösteren teoriler işe yaramaz.

Ancak burada beyindeki açık bir sinyali buluyoruz ve bu geri bildirimle öğrenmenin birçok yolunun üzerini karalarken, bazılarının önünü açıyor. Dopaminin ödül tahmin hatası teorisi bize neleri yapamadığını söylediği kadar, neyin yapabileceğini de söylüyor. Çatallaşan patikalarla dolu bir bahçede, biraz yardıma sevinmeliyiz — ve yalnız az sayıda bahçe patikası beyinden çok daha karmaşıktır.

Aylin Küntay ile Röportaj — CogIST

Çalışma Belleğinin Kısa Bir Tarihçesi — Beril Sercem Şengül

Radikali Radikalleştirmek: Radikal Dışsalcı Bir Biliş Biyolojisine Doğru #1 – Sunuş, Özet, Giriş — Yunus Şahin