Özgün adı: “What Is Intelligence?”

Yaklaşık 7 yıl önce henüz lisedeyken, bir web geliştiricisi olarak çalışıp hobi olarak psikoloji okurken, yapay nöral ağlarla ilgili bir makaleye denk geldim. Heyecan vericiydi. Makaleyi okumayı bitirir bitirmez, insan zekası hakkında daha önce öğrendiklerimi açıklayacak ve bunları bir şekilde yapay karşılıklarıyla bağlantılandıracak bir zeka teorisi aramaya başladım. Psikoloji, nörobilim, sibernetik, bilişsel bilim, bilgisayar bilimi, biyoloji, kimya, fizik, teoloji, sosyoloji ve birçok diğer alana baktım. Binlerce makaleye ve çalışmaya, yüzlerce kitaba ve düzinelerce derse rağmen hala beni tatmin edecek bir cevap bulamadım. Böylece, bu makale ortaya çıktı.

İşe ilk olarak zeka teriminin tanımını Vikipedi’den okumakla başlayalım; işin aslı, bu şimdiye kadar gördüğüm en iyi tanımlardan biri:

Enformasyonu algılama veya enformasyondan anlam çıkarabilme ile enformasyonu çevre ya da bağlamdaki adaptif davranışlara(adaptive behaviors) uygulanacak bilgi (knowledge) şeklinde muhafaza etme yeteneği.

Bu, istihbarat teşkilatlarının (CIA & Co.) zeka için genellikle kullandığından çok farklı bir tanım. Onların tanımı veri (data) tanımına, özellikle de verinin hassas ve değerli olanlarına daha yakın.[1] Ancak, hem yapay hem de biyolojik zekanın tanımı istihbarat teşkilatlarınınkinden tamamıyla farklıdır ve genelde bir tür öznenin[2] (agent) özelliği olarak tanımlanır. Dahası, bu özne çevresinden tamamen izole bir şekilde var olamaz ve öyle veya böyle bedenlenmiştir.

Yapay öznelerin (artificial agents) genel bir açıklaması ile başlayacağım, çünkü yapaylar biyolojik olanlardan çok daha basit. Sonrasında biyolojik olanlara geçiş yapacağım ve aralarındaki ortaklıklara bakacağım.

Yapay Zeka

Yapay zekalı ilk öznenin ne olduğunu belirlemek zor, ama Babbage’nin Analitik Motor’u (Analytical Engine) muhtemelen en iyi aday. Hiçbir özel “adaptif” yeteneği yok ama oldukça esnek. Maalesef teorik olarak inanılmaz güzel olmasına rağmen tek bir prototipi bile tamamlanmamış.

Analitik Motor’un 1840’lardan kalma bir plan şeması. Kaynak: Vikipedi

İlginç bir şekilde, bu makine Turing doğmadan daha 50 yıl öncesinde Turing-tamdı (Turing-complete).[3] Teorik olarak, verileri olan herhangi bir hesaplanabilir fonksiyonu girdi olarak alabilir ve tamamen mekanik bir şekilde çıktı üretebilir — akıllı telefonunuzdan yaklaşık 1.000.000.000.000 kat daha yavaş şekilde.

Bunun sonucunda, algoritmik karmaşıklık teorisi (algorithmic complexity theory) [4] geliştirildi ve evrensel bir bilgisayar (universal computer) inşa etmenin nispeten kolay bir iş olduğu geniş kitlelerce anlaşıldı. Ayrıca algoritmalar birden fazla şekilde uygulanabilirdi. Son 70 yılda, bu süreçte ortaya çıkan teknolojik zorluklara rağmen, aynı fiyata satın alabileceğiniz işlemleme (computation) miktarı her iki yılda bir, yaklaşık olarak iki katına çıkmıştır.

Başka bir deyişle, potansiyel olarak herhangi bir hareket tarzını (policy)[5] hesaplama (calculate) kabiliyetine sahip bir Yapay Zeka (Artifical Intelligence, AI) öznesi inşa etmek oldukça kolay. Ancak bu kabiliyet, sağlanan veriler/girdiler ve işleme (process) için gereken zaman tarafından hep sınırlandırılacaktır. Bu, akıllara şu ilginç soruyu getiriyor: Her bilgisayarın yeteneği mevcut veri tarafından sınırlandırılıyorsa, bu bilgisayarlardan herhangi birini zeki olarak kabul edebilir miyiz? Okuru birazcık bu konu hakkında düşünmeye davet ediyorum.

Bağlamı anlayabilmek için, kısaca AI araştırmasının tarihini hatırlayalım. İlk günlerinden beri yapay zeka araştırması, kabaca iki ayrı ekole bölünmüştü: sembolik (symbolic) ve bağlantıcı (connectionist). Sembolik yaklaşım, formel mantık ve elle girilen bilgiye (hand-crafted knowledge)[6] çok önem verir; bağlantıcı yaklaşım ise yapay nöral ağların (artificial neural networks, ANNler) varyasyonlarına ve istatistiksel öğrenmeye vurgu yapar. Geçmişleri kabaca şöyledir:

Bağlantıcı ve Sembolik AI yaklaşımlarının popülerlik karşılaştırması. Kaynak: Neurons spike back | CC-BY-4.0

Hala güçlü AI[7] ya da yapay genel zekanın (artificial general intelligence, AGI)[8] tek başarılı uygulaması olarak kabul edilen insan beyni ve nörobilimle ilişkisinden dolayı, “Turuncular” ilk zamanlarda liderdi. Ancak ilk yapay sinir ağları, gerçek dünya problemleri ile başa çıkmak için çok kısıtlıydı. Bu ağların çoğu doğaları gereği doğrusaldı (linear) ve çoğunun becerileri Marvin Minsky’nin derinlemesine eleştirdiği üzere çok kısıtlıydı. Bu sırada “Maviler”, titiz bir matematiksel teori geliştirmiş ve daha kullanışlı şeyler üretebilmişti.

Elle girilen bilgi miktarı arttıkça, bu sistemleri geliştirmek giderek daha zor hale geldi. Girdi ve çıktı uzaylarının[9] birkaç bin seçenekten daha çok olduğu senaryolarda sürekli olarak başarısız oldular. Ayrıca, tıpkı hukukta genel kanunların birbiriyle çatışması gibi, uzman sistemlerdeki (expert systems)[10] kurallar da birbiriyle çatıştı. Çatışmalar arttıkça sürekli daha fazla “hakim” gerekir oldu. Gelişim çıkmaza girdi.

Bu arada “Turuncular”, makul bir süre içerisinde ağlarını “eğitmek” için yeteri kadar etiketli veri (labelled data)[11] ve işlemlemesel (computational) kaynaklar edindiler. Bu da dünyanın her yerinden araştırmacıların deney yapmasına olanak sağlıyordu. Ancak, yapay nöral ağların (ANNs) ilk başarısızlıklarından sonra kitlelerin güvenini kazanmak epey zaman aldı. Aynı durum, geliştiricilerin Boolean ve Crisp[12] karşılıklarına zıt düşen bulanık mantık (fuzzy logic)[13] ve istatistik fikirlerine alışması için de geçerliydi.

Ancak yapay nöral ağları detaylarıyla tartışmadan önce, pek çok alanda yararlı olduğu kanıtlanan birkaç başka metodun üstünde durmak istiyorum. Ayrıca karma (mixed) metotlarla karşılaştırıldığında, yalnızca sembolik veya yalnızca bağlantıcı yaklaşımların performanslarının geride kaldığı netleşti. Burada yalnızca ana algoritma sınıflarını tasvir edeceğimi belitmeliyim, çünkü tüm AI (yapay zeka) metotlarının kısa tanımları bile en az birkaç kitap tutar.

Bence, en dikkate değer algoritmalar karar ağaçları (Decision trees), olasılıksal modeller (Probabilistic models) ve evrimsel algoritmalar.

Karar ağaçları en basit ve en etkili algoritmalar arasındadır. Kısaca,”, her veri özelliğinin sırasıyla incelenmesi ve hangisinin belli çıktılara yönelik en fazla öngörü kabiliyetine (predictive power) sahip olduğunun bulunmasıyla“öğrenirler.”. Rassal orman (Random Forests) gibi daha gelişmiş varyasyonlarında daha karmaşık öğrenme teknikleri kullanılır ve bunlar aynı modeldeki çok sayıda ağacı birleştirirler; çıktıları “oylama”yla elde edilir. Ancak, altta yatan ilkeleri ve sezileri (intuition) aynı kalır.

Olasılıksal modeller istatistiksel metotları temsil eder ve yapay nöral ağlarla pek çok ortak özellik taşırlar. İki modelin öğrenme/optimizasyon yöntemleri ve hatta notasyonları sıklıkla aynıdır; ama olasılıksal modeller çoğu zaman olasılıksal mantık (genellikle Bayesci olasılık[14]) dolayısıyla kısıtlıdır. Bunun aksine, yapay nöral ağların bu tür bağlantıları olmayabilir.

Evrimsel işlemleme (evolutionary computation) ilk olarak biyolojik evrimden, özellikle de rastgele mutasyon (random mutation) ve yaşam şartlarına uygunluk (fitness) konularından ilham almıştır. Modifikasyonların genellikle rastgele olduğunu düşünürsek, sınırlandırılmış gürültünün (restricted noise)[15] ne kadar da etkili olabildiği şaşırtıcıdır. Bu sınıf pek çok yönden ısıyla DNA gevşetme (annealing)[16] sürecine benzeyen bir yönlendirilmiş arama (guided search) çeşididir.

“Yürüyen canlıların” evrimi. Kaynak: alanzucconi.com

Bu metotların tümünün ortak bir yönü var: Bunlar genellikle çok gelişmemiş bir hareket tarzı (policy) ile yola koyulurlar; ama yavaş yavaş, bir tür performans değerlendirme fonksiyonunda daha iyi bir skora ulaşmak için gelişirler.

Bu günlerde, makine öğrenmesi teknikleri ve özellikle derin öğrenme, yapay zeka araştırmasını ve gelişimini domine etmekte. 1 ya da 2 ara soyutlama katmanı (intermediate layers of abstraction)[17] kullanan makine öğrenmesi modellerinin (sığ modeller [shallow models] diye bilinen modellerin) aksine; derin öğrenme, istiflenmiş yüzlerce ve hatta binlerce eğitilebilir katmana sahip olabilir.

Deneyler gerçekleştirilmeden önce, bu tür derin ağları eğitmek için tamamen yeni optimizasyon prosedürlerinin keşfinin gerektiğine yaygın şekilde inanılıyordu. Ancak sonrasında, bilindik geri yayılımın[18] (backpropagation) –diğer bir deyişle zincir kuralının- dereceli azalma[19] (gradient descent) ile birlikte bu işi çok kolay bir şekilde yerine getirebildiği görüldü. Bu algoritmalarsa yüzyıllar önce matematikçilerce biliniyordu. Dereceli azalmanın (gradient descent) problemlerini çözmek için daha modern algoritmalar (Adam ya da RMSProp gibi) tasarlandı; ama bunların, çoğu gerçek dünya senaryosunda gereksiz olduğu ortaya çıktı.

Nöral ağların öğrenmesi kısaca ağağıdaki gibidir:

1. Bir grup mümkün (possible) girdiyi al

2. Her birinin karşılığı olan çıktıları hesapla

3. Performansı hesapla

4. Parametrelerini ayarlamak için, hataları bir önceki katmana yolla (ve ağdaki her katman için bunu tekrarla)

5. Yeterince iyi bir performans elde edene kadar, tüm mümkün girdi grupları için bunu tekrar et

Dereceli azalma tek makine öğrenmesi algoritması değildir, fakat makine algoritmalarının ezici bir çoğunluğunun altında aynı ilkeler yatar: Hareket tarzı (policy) eşleştirmelerini kullanarak hataları geri al ve hata oluşmasını minimize etmek için parametreleri ayarla. Bu yaklaşımda duyulan ana kaygı, yaygın bir kesimin ağların bölgesel minimumda (local minimum) sıkıştığına ve olası en iyi ortamda olmadığına inanmasından kaynaklanır. Ancak, son zamanlardaki teorik ilerlemeler birçok sinir ağının gerçekten de global minimuma ulaşabileceğini gösteriyor.[20]

Dereceli Azalma örneği. Kaynak: distill.pub

Derin öğrenmedeki başka bir ilginç empirik sonuç ise öğrenmenin ciddi şekilde parallelleştirilebilmesidir — ki bu dağıtılmış öğrenme (distributed learning) olarak bilinir. Aynı mimariyi aynı anda birden çok makinede eğitir ve arada sırada dereceleri (gradients) makineler arasında değiştirirseniz, hızı 1000 katının üstüne çıkarabilirsiniz. Hızlanma oranı doğrudan mevcut bilgisayarların sayısına bağlıdır.

Ayrıca, eğitilmiş katmanlar benzer görevler için tekrardan kullanılabilir. Transfer öğrenmesi (transfer learning) olarak bilinen bu fenomen, yapay nöral ağların bu kadar popüler olmasından büyük miktarda sorumludur. Örneğin, görüntü sınıflandırılması için eğitilmiş bir ağ, başka bir bilgisayarlı görme (computer vision)[21] görevi için daha sonra kullanılabilir. Aynı ilke doğal dil işleme ve başka alanlar için de geçerlidir. Dahası, aynı ağ, farklı modalitelerin problemlerini çözmek amacıyla da kullanılabilir.

Tüm bunlar, pekiştirmeli öğrenme (Reinforced Learning, RL) alanında bir araya gelirler. Pekiştirmeli öğrenmenin arkasındaki bu ilk fikirler davranışçı psikolojiden ödünç alınmıştır. Davranışçı psikolojide araştırmacılar, ödülün öğrenmeyi nasıl etkilediği ve hayvanların davranışını nasıl şekillendirdiği üzerinde çalışmıştır.

Yapay zeka araştırmacıları için, RL metotları özellikle ilgi çekicidir; çünkü bu metotlar, öğrenme için tamamı doğru olan bir çıktılar seti gerektirmez. Örneğin, robota nasıl hareket etmesi gerektiğini tam olarak göstermek yerine, yalnızca robotu ne kadar uzağa gittiğine ya da ne kadar hızlı gitiğine bağlı olarak pekiştirmeli öğrenme teknikleriyle ödüllendirebilirsiniz. Kalanını robot kendi anlayacaktır. Ancak bu, uygulamada en zorlu öğrenme yöntemidir ve genellikle göreceli olarak daha basit olan görevleri düzgünce hazırlamak bile pek çok çaba gerektirir.

Gerçek dünya problemlerinde çevredeki ödülleri belirlemenin genellikle zor olduğunu ve bugünlerde araştırmacıların daha ziyade içsel ödül modelleme (internal reward modelling) üzerine odaklandığını vurgulamak isterim.

RL ile paralel olarak ters pekiştirmeli öğrenme (Inverse Reinforcement Learning) metotları geliştirilmiştir. Ters pekiştirilmeli öğrenmede uzman tarafından üretilmiş girdileri ve çıktıları alan özne (agent), davranışını yönlendirecek bir ödül fonksiyonuna yaklaşmaya çalışır.

Yukarıda bahsedilen metotların yanı sıra, yapay genel zekaya yönelik bazı araştırmalar önemli derecede farklı temellere sahiptir. Bu yapılardan bazıları katı matematiksel teorilerden gelmekte, bazıları da nöronal devrelerden (neuronal circuits) etkilenmektedir. Bazılarıysa psikolojik modellere dayanır. Ancak çoğunun ortak özelliği, popüler muadillerinin başarısız olduğu yönlere odaklanmaları. Benim altını çizmek istediğim yapılar HTM, AIXI, ACT-R ve SOAR.[22]

Hiyerarşik Geçici Bellek (Hierarchical Temporal Memory, HTM) ile başlayalım. Başlangıçta neokorteks devre sisteminden (neocortex circuitry) esinlenen fikirlere dayanıyordu; ama bu devrelerin hala yeterince anlaşılmadığını ve HTM’nin yalnızca bu devre sisteminin kabaca bir benzeri görevi görebileceğini unutmamak gerekir.

Ancak, HTM teorisinin merkezinde özellikle önemli bir kavram yatar — Seyrek Dağıtılmış Temsil (Sparse Distributed Representation) ya da kısaca SDR. SDR, pratikte yaklaşık birkaç bin ögeden oluşan küçük bir diziden ibarettir ve bu ögeler, semantik olarak ilişkili girdilerin, çok sayıda örtüşen bit[23] ile SDR’lere eşleneceği şekilde oluşturulmuştur. Bu, kavramsal olarak, nöral ağlardan türetilmiş olan vektörleştirilmiş temsillere (vectorized representations) benzer, ancak SDR’nin vektörleştirilmiş temsillerden temel farkı seyreklik ve aşırı kapasitedir. Derin nöral ağ (DNN) yakınsaklığı[24] ispatının arkasındaki temel varsayımlardan biri ağın aşırı parametrelenmesi (overparameterization) olduğu için, bu farklar özellikle öne çıkmaktadır.

Gürültü varlığında örtüşen SDR örneği. Kaynak: numenta.com

HTM teorisinin sunduğu diğer fikirler bence o kadar da ilginç değil. İnhibisyon (inhibition), yığın normalleştirmeye (batch normalization)[25] ve bazı düzenleme (regularization) tekniklerine benziyor. Arttırma (boosting) ise makine öğrenmesinde görece eski bir kavram. Neokorteks daha karmaşık bağlantısallık (connectivity) örüntülerine sahipken, hiyerarşik yapı çok katı görünmekte. Topoloji, nöral ağlar mimarisinin yalnızca eş anlamlısı gibi görünüyor ve genel olarak bu teori, objeler arasındaki ilişkiye çok daha az vurgu yaparken objelere daha çok vurgu yapıyor ve hatta SDR’ler bile, aktivasyonlara ceza değerleri verilirken (penalizing) çok sayıda nöron kullanılarak sıradan yapay nöral ağlar ile oluşturulabiliyorlar. Bütünüyle, HTM hala diğer makine öğrenmesi rakipleriyle uyumlu performansa ulaşmak için çok fazla ince ayar gerektiriyor. Her neyse, Numenta’nın (HTM’yi geliştiren şirket) bu fikirlerin basit ve kolay anlaşılır açıklamaları için saygıyı hak ettiğine inanıyorum.

Sıradaki “konuğumuz” AIXI. AIXI basitlik açısından HTM’ye göre geri kalmış; ama ona nazaran çok daha sağlam matematiksel temellere sahip. Ancak önemli bir dezavantajı var — işlemlenebilir değil (uncomputable). Aslında, çoğu makine öğrenmesi algoritmasının tam olarak işlemlenebilmesi imkânsız ve yakınsamalar (approximations) kullanmak zorundayız. Her neyse, bu yakınsamalar, uygulamada sıklıkla işimize yarıyor. AIXI bir satırda şöyle açıklanabilir:

Modelin, eylemleri (çıktıları), gözlemleri (girdileri) ve ödülleri (girdinin spesifik bir bölümü olarak tasvir edilebilir) kullanarak etkileşimde bulunduğu bir öznesi (agent) ve çevresi (environment) var. Özne, dışarı bir eylem (a) gönderiyor ve sonrasında ise çevre hem gözlem (o) hem de bir ödül (r) gönderiyor; l(q) ifadesiyse çevrenin karmaşıklığını (complexity) göstermekte. Bu süreç bu şekilde hep devam ediyor. Kaynak: lesswrong.com

AIXI pek çok yönden optimum bir yapı olduğunu kanıtladı ve bence, AGI’nın matematiksel olarak neye benzeyebileceği konusunda bugün elimizdeki en iyi betimleme bu. Ayrıca, AIXI genel amaçlı (general purpose) bir pekiştirmeli öğrenme öznesi (agent) ve birçok yönden Schmidhuber tarafından geliştirilen Gödel Makinesi’ne benziyor. Ancak, her ikisi de yapay genel zekayı tasvir etmekle kalan modeller; onu ortaya çıkaracak formüller değiller. Her neyse, yapay zeka araştırmacıları için büyük ilham kaynakları.

Aksine ACT-R ya da (Düşüncenin Adaptif Kontrolü-Rasyonel, Adaptive Control of Thought-Rational)[26] sadece bir teori değildir; aynı zamanda LISP programlama dilinde yazılmış bir yazılım çerçevesidir. Gelişimi, diğer programlama dillerindeki yan ürünleri (spin-off) ve orijinal modelin değiştirilmiş versiyonlarıyla birlikte onlarca yıllık bir geçmişe sahiptir.

ACT-R çoğunlukla farklı türdeki bellekler üzerine odaklanır; içindeki verinin dönüşümlerine ise daha az odaklanmaktadır. İnsan zihninin işlemlemesel bir modeli olarak geliştirilmiştir ve belli bir dereceye kadar başarılı olmuştur. fMRI görüntüleme sonuçlarını tahmin etmek için uygulanmış ve buna ek olarak bellek üzerine gerçekleşen bazı psikolojik deneylerde kullanılmıştır. Ancak, pratiğe yönelik uygulamalarda sürekli olarak başarısız olmuştur ve sadece araştırmacıların kullandığı bir araç olmaktan ileri geçememiştir. Dört bilişsel mimariden biri olan SOAR da benzer köklere ve temel hipotezlere sahip, ama insan bilişinin modellenmesinden daha çok yapay genel zekanın başarılı olması konusuna odaklanmıştır.

ACT-R ve SOAR yapay zekaya sembolik yaklaşımın klasik temsilcileridir ve her ikisi de bağlantıcı (connectionist) yaklaşımlarla ilişkili olarak popülerliklerini yavaşça kaybediyor. Bilişsel bilimin gelişiminde önemli bir rol oynadılar ama modern bağlantıcı makine öğrenmesindeki muadilleri ile karşılaştırıldığında, uygulamaları çok daha fazla konfigürasyon ve ön bilgi gerektiriyor. Dahası, nöro-görüntüleme ve zihni çalışmak için kullanılan başka araçlar daha detaylı ve doğru bir hale gelirken ACT-R ve SOAR geride kalıyor; ayrıca bazı açılardan konuya dahil olamayacak kadar katı kalıyorlar.

Ancak bana göre yapay zekanın geleceği, en azından AI öznelerinin insan dostu sembollerle oluşmuş kuralları takip edip anladığı kadar sembolik olmalıdır.

Vahşi Doğada Yapay Zeka

Yukarıda ağırlıklı olarak günümüzde var olan AI öznelerinin hareket tarzını (policy) tanımlayan algoritmaları tasvir ettim; ama her biri aynı zamanda bir tür bedene sahip: bilgisayarlar, robotlar ya da sunucular (servers) ve işlem yaptıkları (operate) çevre — ki çevre genelde internet hizmetleri tarafından algoritmaların bağlantı kurduğu alan olarak tanımlanır.

Kişisel bilgisayar, akıllı telefon ve diğer aygıtların çoğu çok benzer donanım performanslarına sahip. Hareket tarzları işletim sistemleri tarafından tanımlanır ve harici bir yazılım yükleyerek “öğrenirler”. Eski bilgisayarlarda öğrenim sadece insan etkileşimine dayanıyordu; ama günümüzde çoğu, internet aracılığıyla güncelleştirme alıyor.

Sunucu öznelerinin rolü gittikçe büyüyor ve daha fazla veri bulutlara (clouds) taşınıyor. Bu öznelerin çoğu yoğun işlemlemeselliğe sahip görevlerden sorumlu ve kısmen merkezi sinir sistemine benziyor. Bunun aksine, tüketiciye yönelik aletler girdi/çıktı becerilerini geliştirerek periferik sinirlere benziyor.

Bunun en uç durumu genel olarak nesnelerin interneti (Internet of Things) olarak bilinmekte. Nesnelerin internetinde düzinelerce küçük ve oldukça özelleşmiş aygıttan her biri sadece bir ya da birkaç fonksiyonu yerine getirir; bulut tabanlı “beyin”, evleri, fabrikaları ve hatta tüm alanları kontrol etmek için bunların hepsini düzenler.

Robotik ise genellikle daha otonom öznelere odaklanır. Bu robotlar, karmaşık olan gerçek dünya girdi/çıktı kanallarıyla gerçek zamanlı olarak kendileri ilgilenmek zorundadır. Otonom araçlar muhtemelen bunun en ünlü örneklerindendir:

Voyage adlı otonom taksinin sistem-seviyesindeki görünümü. Kaynak: towardsdatascience.com

Bu, Voyage’ın sadece basitleştirilmiş bir resmi. Gerçek sistemler genellikle sürekli bir girdi akışı olan yüzden fazla sensöre sahipken, çıktıları ise hayat ve ölüm arasındaki farkı yaratabilir. Bu tür öznelerin mühendisliği, yapay zeka araştırmasında günümüzün en zor alanlarından biridir.

Buna ek olarak, tüketiciye yönelik robotlar otonom öznelerin yalnızca küçük bir parçasıdır ve nispeten yeni bir gelişmedir. Otonom öznelerin çoğu, endüstriyel ve askeri amaçlarla tasarlanmaktadır. Böyle bakıldığında otonom bir taksinin yanlış davranışı, bir silahlı insansız hava aracının ya da nükleer santral kontrol birimlerinin bir arızası ile karşılaştırıldığında küçük bir kaza gibi görünebilir. Bu tür sistemlerin hareket tarzları için programlama prensipleri, “karakutu” öğrenme algoritmalarına dayandırılamaz; genelde işlerinin her yönü için katı matematikel spesifikasyonlar içerirler.

Kısacası, AI özneleri tüm şekillerde ve renklerde bulunabilir, ama güncel akım, periferik aygıtlar küçülürken veri merkezlerinin giderek büyümesi şeklinde.

Kuantum Dünyası

Bu bölüm zeka konusundan bağımsızmış gibi dursa da, fiziğin — özellikle de kuantum fiziğinin pek çok nedenden ötürü özel bir dikkat hak ettiğine inanıyorum.

Her şeyden önce, kuantum mekaniği (Quantum Mechanics, QM) tüm yapay ve biyolojik özneler (agents) için ortak paydadır. Hem yarı iletken hem de biyokimyasal öznelerin çalışmaları esas olarak kuantumun etkilerinden temel alır. Zeka hakkında atom ve atomla ilgili bir seviyede konuşmak çok mantıklı gelmese de, her türlü materyalden evrensel bilgisayarlar inşa etmek mümkündür.

İkinci olarak, 300 yıl önce gezegen hareketlerini hesaplamak için geliştirilmiş matematiksel araçlar, geri yayılım (backpropagation) ve dereceli azalma (gradient descent) için gereken temel yapıyı oluşturmuştur. Dahası olasılık teorisi, istatistiksel mekanikler ve matris mekanikleri QM için temeldir ve modern yapay zekanın akrabalarına daha yakınlardır. Şu an derin öğrenme simya ilmi gibidir, ama inanıyorum ki fizik onu daha iyi anlamamızı sağlabilir.

Üçüncüsü ise kuantum işlemlemenin (quantum computing) yükselişi. Kuantum bilgisayarlar hala gelişme döneminde, ama günümüz deneyleri belli tür optimizasyon problemleri için önemli bir hızlanma potansiyelini çoktandır gösteriyor. Örneğin, Boltzmann Makinesi (Boltzmann Machine, BM) çoğu uygulama durumunda çözümlenemeyen (intractable) bir tür yapay nöral ağdır; bu nedenle bu ağı üretenler, ilk derin nöral ağlardan biri olan kısıtlı bir varyasyonunu ürettiler. Ancak belki de kuantum bilgisayarlar, BM’lerin olduğu kadar birçok olasılıksal modelin tam gücünden faydalanmamıza olanak sağlayacaklar.

Son olarak, Kuantum Mekaniği yukarıda bahsedilenlerden çok daha zor anlaşılabilecek bir konu. Olasılık genliği (probability amplitude), klasik olasılıksal mantığın ihlali ve atomla ilgili seviyede gerçekleşen her şeyin belirsiz resmi yalnızca buzdağının görünen kısmı. İronik olarak, pek çok insan yapay nöral ağları zayıf yorumlanabilirliği için eleştirse de insanlar bile kuantum fiziğini sezgisel terimlerle açıklamakta başarısız oluyor.

Biyolojik Özneler

Yaklaşık 100 yıldır var olan yapay zeka öznelerinin aksine, biyolojik özneler 3 milyar yıldır varlar. Dünyada milyonlarca tür var ve hepsi ortak bir şeye sahip: DNA.

DNA neden bu kadar önemli? Genellikle DNA, hücrelerin “merkezi sinir sistemi”dir. Ayrıca, DNA-bazlı bir yaşam olmadan önce RNA-bazlı organizmaların bulunduğu, ama her ikisinin de işlevsel ve yapısal olarak çok benzer olduğu çoğunlukla kabul edilmektedir.

DNA’nın çoğu -bu oran insanlarda yaklaşık yüzde 98’dir- proteinleri kodlamaz ve bu yüzden uzun bir zaman boyunca bu kısmın kullanışsız olduğu düşünüldü. Ancak, bu bölümün önemli bir parçası, çevreye bağlı olarak DNA’nın hangi şifreleme bölümünün aktive olacağını kontrol etmede önemli bir rol oynar. Ayrıca, DNA’nın parçaları metilleme ile geri döndürülebilir şekilde deaktive edilir ve bu, yaşam döngüsü boyunca birkaç kez meydana gelebilir.

Bunların tamamı, konak hücrenin (host cell) hangi rolde uzmanlaşması ve nasıl aktive olması gerektiğine karar vererek, genomun farklı veri birleşimlerine farklı şekillerde tepki vermesine olanak sağlar. Ayrıca, DNA aslında var olabilmek için bir konak hücreye ihtiyaç duymaz. Hücredışı (extracellular) DNA çözünmeye uğrar, ama daha küçük parçaları çokça yıl hayatta kalabilir.

Bu arada, modern biyoteknoloji DNA’yı istediğimiz gibi sentezlememize ve düzenlememize olanak sağlar. Bu nedenle bu noktada yapay ve biyolojik özneler arasındaki ayrım esasen ortadan kaybolur.

Hücreler

Basit işlevsel hücreler, protosel olarak bilinir:

Kaynak: xabier.barandiaran.net | CC-BY-SA-3.0

Protoseller ilk canlı organizmaların neye benziyor olabileceğini gösterir. Yaklaşık olarak 3 ile 4 milyar yıl öncesinde yeryüzündeki çevre modelleri, lipit baloncuklarının tesadüfen ilk genomları üretmeye yetecek kadar nükleotidi içlerine almış olabileceğini; bunun da çevrelerinden besinleri alarak çoğalmaya başlamış olabileceğini ileri sürüyor. Belli bir eşiği aşan miktardaki genleri ve diğer kimyasalları biriktirdikten sonra, bu baloncuklar iç basınçlarının etkisiyle bölündüler.

Bir başka basit örnek ise virüslerdir. Protoseller ile aralarındaki en temel fark, virüslerin içsel bir metabolizma sürdürmemesidir ve çoğalmak için başka biyolojik özneye ihtiyaçları vardır. Genomları genellikle çok kısadır ve 1 ya da 2 proteini kodlayabilir. Ancak, virüsler yatay gen transferi (horizontal gene transfer) olarak bilinen süreçte konakları ile DNA değiş tokuşu yaparak “iletişim kurabilir”. Çoğu tek hücreli organizma bunu yapabilir ve bu mekanizmanın evrimde önemli bir rolü vardır.

Bakterilerse bunun aksine farklı kimyasallar, ışık, basınç, sıcaklık vb. için çok sayıda sensöre sahip olabilir. Çoğunun, moleküler seviyede içten yanmalı motorlara benzeyen hareket mekanizmaları vardır.

Ayrıca, oldukça gelişmiş bir iletişimleri vardır ve sürü halinde bir araya gelebilirler. Çıktıları artık sadece atık değildir. Genomları ve çevresindeki tüm protein tipleri onların geniş bir besin yelpazesini sindirmelerine ve oldukça karmaşık davranışları sergilemelerine olanak sağlar. Ancak genelde yapıları protosellere ve arkealara çok benzer.

Ökaryot hücrelerde ise pek çok organel bulunur. Mitokondri ve kloroplast gibi bazılarının kendi DNA parçaları vardır ve bunların geçmişte ayrı organizmalar olması mümkündür. Ayrıca, mitokondri, metabolizma için elzem olanKrebs döngüsünde önemli bir rol oynar.

Tipik ökaryot hücrelerinin daha karmaşık bir kimyasal aksamı vardır, ama kendi başlarına hareket etmekten mahrumdurlar. Dahası, hayvan hücreleri de kloroplastlardan ve hücre duvarlarından mahrumdur, bu da özerkliklerini daha da tehlikeye atar. Genel olarak, yukarıdaki evrim ağacında gösterilen organizmaların hücreleri, görselde soldan soğa doğru yavaş yavaş kendi başlarına hayatta kalma yeteneklerini kaybederken daha karmaşık “sosyal” hareket tarzları ve özel işlevler kazanırlar.

Hücrelerin çevrelerindeki değişikliklere tepki verebilmesi için en hızlı yollardan biri aksiyon potansiyelidir. Sensörlerin bazıları kimyasalları, basıncı ve diğer uyaranları algıladığında, hücre zarında elektriksel potansiyelde hızlı bir değişikliğe yol açabilirler. Bu da her türlü çıktıya yol açan kimyasal reaksiyon dizilerinin kademeli olarak ortaya çıkmasına neden olur.

Ancak, aksiyon potansiyeli sinyali kaynak hücre ve onunla doğrudan doğruya membran- membran bağlantıları olan hücrelerle sınırlıdır. Sinyal, sinyalizasyon molekülleri aracılığıyla diğer hücrelere iletilebilir ama bu süreç çok çok daha yavaştır. Bu darboğazdan kaçınmak için çoğu hayvan nöron denilen özelleşmiş hücrelere sahiptir.

Bir nöronun şematik görüntüsü. Kaynak: Wikipedia

Nöronlar farklı farklı şekillerdedir ve hayatları boyunca yeni sinapslar üretip eskilerinden kurtulabilirler. Ara (intermediate) nöronlarda 10 binden daha fazla bağlantı varken, periferal nöronlar genellikle sadece birkaç yüz bağlantıya sahiptir. Tüm bu aksam, onların sinyalleri çabucak taşımasına ve sinaptik güçleri (synaptic strengths) ayarlayarak dönüştürmelerine (transform) izin verir. Ayrıca, omurgalılardaki birçok akson daha az membran kanalını aktive ederken ve enerji tasarrufu sağlarken elektrik potansiyellerinin daha da hızlı hareket etmesini sağlayan miyelin kılıfına sahiptir.

Ancak nöronlar birbirleriyle çok sayıda bağlantı kurmuş sistemlerdir ve makro ölçekte ne yaptıklarını anlamak için tüm bağlantıları göz önünde bulundurmanız gerekir. Şimdiye kadar üzerinde en iyi çalışılan sinir sistemlerinden biri, C. elegans solucanının sinir sistemidir:

*C. elegans* sinir sistemine bir bakış. Pek çok nöron, nöron halkasının yakınındaki gangliyoda bulunur. Kaynak: stb.royalsocietypublishing.org

Bu sinir sistemi 50 yılı aşkın süredir çalışılıyor ve 5000’den fazla sinaps içeren 302 nöronunun detaylı yapısını çoktan biliyoruz:

*C. elegans* somatik sinir sisteminin ve kas sisteminin kısmi devri şeması. Duyusal nöronlar üçgenlerle, internöronlar altıgenlerle, motor nöronlar dairelerle, kaslar da dörtgenlerle temsil edilmiştir. Oklar uyarıcı ya da inhibe edici olabilen kimyasal sinapslarla bağlantıları temsil ediyor. Kesikli çizgiler elektriksel sinapslar yoluyla bağlantıları temsil ediyor. VNC: ventral sinir kordonu. Kaynak: rstb.royalsocietypublishing.org

Görebileceğiniz üzere, 302 nöronun bile her birini anlamak gerçek bir zorluk teşkil ediyor. Bu, onların “öğreniyor olmaları” ile ve işlevlerinin gerçek zamanlı olarak değişmesi ile daha da karmaşık hale geliyor. Şimdi insan beynindeki milyarlarca hücreyle neler olduğunu hayal etmeye çalışın.

Tüm bu karmaşıklık göz önüne alındığında, nörobilimdeki çoğu araştırma belli bölgelere, yolaklara (pathways) ve hücre tiplerine odaklanır. Evrimsel geçmişi eski yapıların çoğu solunum, kalp atışı, uyku/uyanma döngüleri, açlık ve başka hayati önemi olan işlevlerden sorumludur. Ancak, serebral korteks her şeyden daha fazla dikkat çekiyor.

Yapısal olarak korteks yaklaşık 2–3 milimetre kalınlığında katlanmış katmanlı bir tabakadır ve beynin diğer kısımlarını çevreleyen, yaklaşık olarak bir kumaş yemek peçetesi boyutunda bir alandır.

Korteks dil, bilinç, planlama vb. gibi yüksek bilişsel beceri olarak kabul ettiğimiz her şeyde müdahildir. İnsanlarda korteksin yaklaşık yüzde 90’ı, beyne dair en yeni evrimsel gelişmelerden biri olan neokorteks ile temsil edilir.

İyi bir şekilde incelenen başka bir bölge ise hipokampüstür:

Tüm omurgalılar palyum (pallium) adı verilen benzer bir yapıya sahiptir ama sadece memeliler yukarıda resmedilen yapının daha gelişmiş bir versiyonunu barındırıyor. Bu yapı uzamsal (spatial) ve epizodik bellekte önemli bir rol oynuyor. Basitçe ifade etmek gerekirse bilişsel bir uzay-zamansal bir harita olarak işlev görüyor. Bu haritayla beyin görsel, işitsel ve diğer tür temsillerde özelleşmiş bölümlerde karmaşık anılar depolayabilir.

Beyne dair ilk çalışmalar yaralanmalara ve lezyonlara odaklanmıştır. Ancak eksik beyin bölgeleri ve eksik bilişsel fonksiyonlar arasındaki korelasyonun korteks için nispeten daha zayıf olduğu anlaşıldı. Anıların korteks boyunca dağıldığı ve hatta komşu nöronların bir parçasının cerrahi olarak çıkarılmasından sonra bile eksik fonksiyonları yeniden öğrenebildiği ortaya çıktı. Ayrıca böyle bir operasyonun sonucunda oluşan yaralanmanın sınırlarını kesin olarak belirlemek de genellikle zor. Bu çalışmalar şöyle bir tablo ortaya çıkarıyor:

Bu tablolardaki temel sorun pratik ve teorik olarak her iki uçta da kesinlik eksikliğidir. Deneysel ortamda beynin küçük kısımlarını uyarabilir ve tepkiyi izleyebilirsiniz; ama bu birincil duyusal ve motor alanlar dışında, genellikle bulanık sonuçlar doğurur. Öte yandan günümüzde denekler görevlerini yerine getirirken beynin hangi bölümlerinin aktif olduğunu izlemek için fonsksiyonel manyetik rezonans görüntülemeyi (fMRI) kullanabilirsiniz, ama alanlar yalnızca birkaç görevde uzmanlaşmadığından sonuçlar genelde bulanıktır. Ayrıca fMRI aslında oksijen tedarik seviyelerini ölçüyor, bu yüzden de tek tek nöron seviyesindeki aktiviteyi ölçmek yeterli değildir.

Nörobilim araştırmalarındaki en umut verici güncel yönlerden biri optogenetiktiktir. Nöronlar için ışık sensörleri sağlayan genleri kullanarak nöronların aktivitesini ayrı ayrı çok daha yüksek bir netlikle kontrol etmemizi sağlar; ancak insanlı deneylerde kullanılamayan genetik manipülasyonlar gerektirir.

Beyin aktivitesinin bir başka özelliği de dalgalar halinde olmasıdır:

EEG kayıtlarının yüksek seviyeli yorumu (cps: saniyedeki döngü). Kaynak: towardsdatascience.com

Tüm bu çalışmalar nörolojik hastalıkları tedavi etmemizi ve anlamamızı sağlar; ancak kişinin ne yaptığına ya da ne düşündüğüne dair oldukça belirsiz tanımlamalarla, bazı bölümlerdeki aktivitelerin korelasyonları haricinde insanların davranışlarını açıklamaktan oldukça uzaktır. Her neyse, zihin araştırmalarına yönelik bu aşağıdan yukarıya (bottom-up) yaklaşım, bir kişinin yapacağı seçimin nöral aktiviteye göre öngörülmesi olasılığının ölçülebilmesi ve “merkezi” bir beyin bölümünün olmadığı gibi birçok önemli keşfe yol açtı.

Öte yandan, psikolojik perspektiften gelen davranışsal çalışmalar genetik, kültürel ve çevresel faktörlerden çokça etkilenmektedir. Bu araştırmanın en iyi bilinen sonuçlarından biri zeka katsayısı (Intelligence Quotient, IQ)’nın yanı sıra onu ölçmek için kullanılan testlerdir. Çoklu zeka teorisi, üçlü (triarchic) zeka teorisi ve diğerleri gibi zekayı açıklamaya çalışan birçok teori vardır; ancak hiçbirisi bu zamana dek yaygın bir şekilde kabul edilmedi.

Psikolojik teorilerin temel sorunu, tanımlayıcı doğalarının onları nicel olarak kanıtlamanın bir yolunu sağlamamasıdır. Yürümek ve “merhaba” demek gibi basit eylemlerin altında yatan nöron düzeyindeki süreçlerin miktarı son derece büyüktür, ek olarak her bir hücrede içindeki DNA ve diğer biyo-aksamların karmaşıklığını da düşünürsek, nörobilimsel araştırmaların psikolojik yorumlamaları genellikle deneylerin kendisinden daha karmaşıktır. Ancak bazı insan biliş modelleri, davranışsal ve nöral aktivite arasında güçlü bağlantılar kurmaktadır.

Bana göre en ilginç olanı bu aksiyomlara dayanan Bütünleşik Bilgi Teorisi’dir (Integrated Information Theory, IIT):

ITT’nin aksiyomları ve postulatları. Kaynak: wikipedia.org

Diğer teoriler pekiştirmeli öğrenmeyi ve onun beyinde nasıl uygulandığını, çok sayıda hafıza, görme, işitme, dil ve diğerleri üzerine modeller içeririr. Ancak bana göre IIT, hepsinin arasında en geniş teorik çerçeveyi öneren kuramdır.

Yukarıda bahsedilen modeller çoğunlukla bireylerin davranışı üzerine odaklansa da, “sosyal psikoloji” çoğu canlı organizma için çok önemlidir. Bağırsağınızdaki bakteri kolonisinden başlayarak balıklara, karıncalara, arılara, kuşlara ve insan topluluklarına her şey sosyal etkileşimlerden doğar. Karıncaların kimyasal dili ve arıların “dans” yoluyla nasıl iletişim kurduğu hakkında zaten çok şey biliyoruz, ancak insan duygularını anlamak büyük bir zorluk teşkil eder. Sahip olduğumuz tüm diller, kurallar ve dinler gittkçe daha karmaşık hale gidiyor.

O halde zeka nedir?

Bu sorunun pek çok yanıtı var, ancak henüz geniş çapta kabul edilen birleşik bir biyolojik ve yapay zeka teorisi yok. Ancak bir AIXI ve IIT hibritinin bizi bu teoriye yaklaştırabileceğine inanıyorum. Bunları birleştirmek için tıp ve ekonomiden türetilebilecek, her yapay ve biyolojik özneye uygulanabilecek fiziksel bir ödül/fayda (reward/utility) kavramına ihtiyacımız olacak ki bu da kendi başına çok büyük bir sorun.

Hemen hemen tüm mevcut zeka ölçümleri bazı görevlerdeki performanslara dayanıyor ve bu, çevrenin de öznenin karşılaşabileceği görevlerin de sürekli değiştiği gerçek dünyada sorun teşkil ediyor. Diğer yandan bilincin “herhangi bir muhtemel deneyim” olarak tanımlanması ve AIXI’nin arkasındaki zeka çerçevesine ilişkin IIT çerçevesi, bilişsel performansın daha geniş bir resmini sağlayabilir.

İçeriden bakıldığında, herhangi bir öznenin çalışmaları bir kuantum sisteminin bir dalga fonksiyonu olarak tanımlanabilir; ama bu, hemen hemen tüm durumlarda işlemlemesel açıdan çözümlenemez olacaktır. Ayrıca, öğrenilmiş ara (intermediate) temsillerin yorumlanması hem biyolojik hem de yapay özneler için büyük bir zorluk teşkil eder.

En önemlisi, ben tek bir algoritmanın ya da mekanizmanın nihayetinde zekadan sorumlu olacağına inanmıyorum; ama bu mekanizma, öznenin çevresi ile nasıl etkileşim kurduğunu niteleyen bir özelliktir.

Sırada ne var?

Yapay zekadaki gelişmeler ve insan zekasının derinlemesine kavranması birçok avantaja ve sayısız pratik uygulamaya sahipken, aynı zamanda başa çıkmamız gereken birçok zorluğu da ortaya koyuyorlar ve çoğu şu kategorilerden birine giriyor:

• Gizlilik: Önceden sizin veriniz size ve belli bir ölçüde hükümete aitti. Verilerin akışını düzenleyen katı kurallar mevcuttu. Şimdi ise yüzlerce izleme servisi, sosyal ağlar ve bu verilerin nasıl kullanıldığına dair neredeyse hiç açıklama yapmayan şirketler mevcut.

• Önyargı (Bias): Yapay olarak düzenlenenler hariç, her öğrenme veri kümesinin önyargıları vardır ve öneri motorları (recommendation engines) gibi kapalı döngü sistemlerinde güçlenme eğilimindedirler.

• Ahlaki Tutum (Alignment): Yapay zeka eğitimlerinin çoğu faydayı en üst düzeye çıkarmaya veya hatayı en alt düzeye indirgemeye dayanır ve bu objektif işlevler tüm insan değerlerini ve ahlakını temsil etmez.

• Yerini Alma: Teknolojiler zaten bir süredir birçok görevde insanların yerini alıyor ve insanın evrimi yapay zekanın evriminden daha yavaş. Sadece birkaç yıl önce bilgisayarlar profesyonellerin kullandığı ve nadir görülen araçlardı, ama günümüzde onları her gün kullanmadan güncel kalmak zor.

• Siber Saldırılar: Eskiden siber saldırılar tek bir kişiyi hedeflerken çok fazla hazırlık gerektiriyordu; ama modern yapay zeka bilgi toplayabilir, şifreleri tahmin edebilir, kimlik avı içeriği oluşturabilir ve süreç içinde kendini geliştirirken insanlardan çok daha hızlı bir şekilde bir başkası gibi davranabilir.

• Psikomühendislik (Psycho-engineering): Tarihten alınan birçok ders ve psikolojik deney, önceden herhangi bir şiddet eğilimi olmayan insanların bile düzgün bir şekilde manipüle edildiğinde zarar verebileceğini ortaya çıkardı. Facebook, Google ve diğer büyük şirketler muhtemelen temelde bizim hakkımızdaki her şeyi hedeflemek, taramak ve bizi herhangi bir şey yapmaya zorlamak için yeteri kadar bilgiye sahip.

Küresel ekonominin büyük kısımlarını kontrol eden ticaret botları söz konusu olduğunda önyargı ve ahlaki tutum problemlerini nasıl çözebiliriz? Yeterince eğitilmedikleri senaryolarda yapay zeka öznelerinin hatalarından kim sorumlu? Zihnimiz üzerinde tahakküm kurmayacak, hataya dayanıklı beyin-bilgisayar arayüzlerini (brain-computer interfaces) nasıl üretebiliriz? Ayrıca bu sorunların çoğu, insanlarla olduğu kadar AI ile de ilgilidir.

5, 10 ya da 20 yıl içerisinde nerede olacağız? Bilmiyorum ve yapay zekayı ilgilendiren herhangi bir tahmin konusunda da sizi şüpheci olmaya davet ediyorum. Tarih, önde gelen yapay zeka araştırmacılarının bile çoğu tahmininin yanlış çıktığını gösteriyor (bazen de büyük bir farkla). Ancak, yapay ve biyolojik zekanın ortak yaşamının kaçınılmaz olduğuna inanıyorum. Bu durum eğer ilgili problemleri tanırsak ve onlarla başa çıkarsak bizler için yararlı bile olabilir.

Kaynakça

• arxiv.org/cs/0309048 — “Goedel Machines: Self-Referential Universal Problem Solvers Making Provably Optimal Self-Improvements” by Juergen Schmidhuber

• numenta.com/hierarchical-temporal-memory-white-paper — “Hierarchical Temporal Memory (HTM)” by Jeff Hawkins

• amazon.com/Soar-Cognitive-Architecture-John-Laird — “The SOAR Cognitive Architecture” by John E. Laird

• act-r.psy.cmu.edu/526FSQUERY.pdf — “ An Integrated Theory of the Mind” by John R. Anderson, Daniel Bothell, Michael D. Byrne, Scott Douglass, Christian Lebiere, Yulin Qin

• arxiv.org/1812.06162 — “An Empirical Model of Large-Batch Training” by Sam McCandlish, Jared Kaplan, Dario Amodei, OpenAI Dota Team

• arxiv.org/1606.06565 — “Concrete Problems in AI Safety” by Dario Amodei, Chris Olah, Jacob Steinhardt, Paul Christiano, John Schulman, Dan Mané

• arxiv.org/1811.03962 — “A Convergence Theory for Deep Learning via Over-Parameterization” by Zeyuan Allen-Zhu, Yuanzhi Li, Zhao Song

• arxiv.org/1805.08974 — “Do Better ImageNet Models Transfer Better?” by Simon Kornblith, Jonathon Shlens, Quoc V. Le

• apps.dtic.mil/708563.pdf — “Utility Theory for Decision Making” by Peter C. Fishburn

• arxiv.org/1812.08342 — “Safety and Trustworthiness of Deep Neural Networks: A Survey” by Xiaowei Huang, Daniel Kroening, Marta Kwiatkowska, Wenjie Ruan, Youcheng Sun, Emese Thamo, Min Wu, Xinping Yi

• archive.org/CerebralMechanismsInBehavior — “Cerebral Mechanisms In Behavior” by Lloyd A. Jeffress

• cognitivemap.net — “The Hippocampus as a Cognitive Map” by John O’Keefe, Lynn Nadel

• mitpress.mit.edu/spikes — “Spikes: Exploring the Neural Code” by William Bialek, Rob de Ruyter van Steveninck, Fred Rieke, David Warland

• psyarxiv.com/d6qhu/ — “The Origins of WEIRD Psychology” by Jonathan Schulz, Duman Barahmi-Rad, Jonathan Beauchamp, Joseph Henrich

• nature.com/articles/d41586–018–05097-x — “What Is Consciousness?” by Christof Koch

• arxiv.org/0706.3639 — “A Collection of Definitions of Intelligence” by Shane Legg, Marcus Hutter

• amazon.com/Frames-Mind-Theory-Multiple-Intelligences — “Frames of Mind: The Theory of Multiple Intelligences” by Howard Gardner

• amazon.com/Beyond-IQ-Triarchic-Theory-Intelligence — “Beyond IQ: A Triarchic Theory of Human Intelligence” by Robert Sternberg

• archive.org/tom_bingham_the_rule_of_law — “The Rule Of Law” by Tom Bingham

• link.medium.com/cDzwHQm0YR — “Facebook and the 2018 Midterms: A Look at the Data” by Jonathan Albright

• intelligence.org/all-publications

• integratedinformationtheory.org

• portal.brain-map.org

• github.com/OpenWorm

Bunlara ek olarak coursera.org, edx.org ve pek çok başka açık eğitim platformundan da yararlandım. Tüm bu kaynaklardan çalışmaya başladığımda, bir yazı yayınlamak gibi bir planım yoktu; bu nedenle bir kaynakça hazırlamamıştım. Eğer çalışmanız bu yazıda yer alıyorsa ve kaynak gösterilmemişse özür dilerim (lütfen bana twitter’da @eDezhic adresinden veya e-posta ile edezhic@gmail.com’dan ulaşmaktan çekinmeyin).

[1] İngilizce’de “intelligence” kelimesi, zeka haricinde “istihbarat” anlamında da kullanılıyor. (E.N.)

[2] Burada “agent” ile kastedilen, eylemleri gerçekleştiren fail, fakat kolay takip edilebilmesi için yazı boyunca “agent” sözcüğünün karşılığı olarak “özne” sözcüğünü kullanacağız. (E.N.)

[3] Turing-bütünlüğü: Bu kavram İngiliz matematikçi ve bilgisayar bilimci Alan Turing’in soyadından gelir. Tüm işlemlemesel problemleri yeterli zaman ve bellek sağlandığı takdirde çözebileceği belirtilen, evrensel Turing makinesiyle simüle edilebilir sistemlerin sahip olduğu bir niteliktir. Kimi zaman Turing-bütünlüğü olarak çevrilse de, aynı literatürün NP-Tam çevirisi ile tutarlılığı korumak için bu şekilde çevirmeyi tercih ettik. (Ç.N.)

[4] Algoritmik karmaşıklık teorisi: Diğer adı “işlemlemesel karmaşıklık teorisi” olan bu teori, bilgisayar biliminde önemli yer tutan işlemleme teorisinin (theory of computation) bir dalıdır. Algoritmaların farklı boyutlardaki girdilere göre ihtiyaç duydukları çalışma zamanı ve bellek miktarlarındaki değişimleri inceler. (Ç.N.)

[5] Hareket tarzı (policy), makine öğrenmesi (machine learning) algoritmalarında, yapay zeka öznesinin eylem seçimini modelleyen eylem-evre (action-state) eşleştirmesidir. (E.N.)

[6] Elle girilen bilgiler, örüntülerin (patterns) ve “ise-o halde” (if-then) olarak geçen korrelasyonların yapay zekaya manuel yolla girildiği bilgi türüdür. (E.N.)

[7] Güçlü AI: 1980 yılında John Searle tarafından icat edilen bir terim. Bir AI sistemi düşünebilir ve zihin sahibi olabilir ise AI hipotezine göre güçlü birimdir. (Ç.N.)

[8] Yapay genel zeka, bir insanın yapabileceği herhangi bir zihinsel görevi başarıyla gerçekleştirebilecek bir makinenin zekasıdır. (Ç.N.)

[9] Girdi uzayı (input space) bir sisteme verilmesi mümkün olan tüm girdileri, çıktı uzayı (output space) ise bir sistemden alınması mümkün olan tüm çıktıları ifade etmektedir. (E.N.)

[10] Bir yapay zeka terimi olan uzman sistemler, bilgi birikimlerinden yararlanarak yaptıkları akıl yürütmelerle karmaşık problemleri çözmek üzere tasarlanmışlardır ve uzman insanların karar alma becerilerini taklit (emulating) ederler. (E.N.)

[11] Etiketli veri, bir ya da daha fazla etiketle sunulmuş bir grup örnektir. Denetlenmiş öğrenme (supervised learning) sırasında etiketli veriler kullanılır ve yapay zekanın kendisine verilmiş etiket sınıflarını daha sonradan etiketlenmemiş verilere de doğru biçimde uygulaması hedeflenir. (E.N.)

[12] Boolean ve Crisp mantığı (logic), bulanık mantıktan farklı olarak yalnızca iki evre halinde, 1 ya da 0 değerlerinden birine sahip olan değişkenler barındıran bir mantık çeşididir. (E.N.)

[13] Bulanık mantığın farkı, değişkenlerinin yalnız 1 ve 0 değil, ikisi arasındaki herhangi bir reel sayı değerini de alabilmesidir. (E.N.)

[14] Bir olgunun gerçekleşme sıklığı ya da eğiliminden değil, bir bilgiye veya sayısallaştırılmış kişisel kanıya dayanarak bir olasılık beklentisi kurulan hesap çeşididir. (E.N.)

[15] İstatistiksel gürültü (statistical noise), gerçek hayattan alınan verilerde bulunan rastgele düzensizliklerdir. Bir örüntüye sahip değillerdir. (E.N.)

[16] Annealing (bağlanma): PCR işlemi sırasında ısıtılarak birbirinden ayrılmış olan DNA zinciri çiftlerinin, soğutmayla birlikte kendilerini tamamlayan zincirlere bağlanması. Adli tıpta, birden fazla DNA bulunduğunda aranan DNA zincirinin varlığını tespit etmek için kullanılır. (Ç.N.)

[17] İşlemlemede (computing), bir soyutlama katmanı, bir altsistemin (subsystem) çalışma detaylarını gizleme ve araişlerlikle (interoperability) platform bağımsızlığını (platform independence) sağlama yöntemidir. Her katman üstündeki katmanlar olmadan var olabilir, ancak altlarındaki katman olmadan işlem yapamazlar. (E.N.)

[18] Zincir kuralı olarak da bilinir. (Ç.N.)

[19] Dereceli azalma (Gradient descent): Dereceli azalma, bir fonksiyondaki parametre değerlerinin minimum maliyeti (cost) sağladığı noktayı bulmakta kullanılan bir optimizasyon algoritmasıdır. (Ç.N.)

[20] Bölgesel minimum, bir fonksiyon değerinin komşu noktalarından küçük olmasıdır; ancak global minimum tüm fonksiyon değerlerinin içindeki en düşük değerdir. (E.N.)

[21] Bilgisayarlı görme, bilgisayarların dijital görseller (images) ve videolar üstüne üst düzey bir anlayış edinebileceğini çözmeye çalışan interdisipliner bir alandır. (E.N.)

[22] HTM, AIXI, ACT-R ve SOAR, bilişsel mimarilerden dördünün adıdır. Bir bilişsel mimari ise hem insan zihninin yapısına ilişkin bir teoriyi, hem de böyle bir teorinin yapay zeka ve işlemlemesel bilişsel bilim (computational cognitive science) alanlarında kullanılan işlemlemesel bir örneklemesidir. (E.N.)

[23] Bilgisayar bilimindeki temel veri birimi (E.N.)

[24] Yakınsama approximation’ı karşıladığından, convergence’ı böyle çevirmeyi tercih ettik. (E.N.)

[25] Yığın normalleştirme, girdi katmanını (input layer) yeniden merkezleme (re-centering) ve yeniden ölçeklendirme (re-scaling) ile normalleştirerek, yapay nöral ağları daha hızlı ve daha stabil hale getiren bir yöntemdir. (E.N.)

[26] ACT-R, ACT’nin (Adaptive Control of Thought) daha güncel bir sürümüdür. (E.N.)

Doğabilimi Olarak Dilbilim — Yunus Şahin

Bayes Teoremi ve Bayesyen Beyin — John Horgan

Öget Öktem Tanör ile Röportaj — CogIST