《智慧簡史》筆記(三)

Dec 29, 2025 - 1 minute read

智慧的第一個重大突破是移動。

寒武紀到來,新的環境激發了新的升級。主要是節肢動物稱霸了海裡,各種動物之間激烈捕食對方。我們的祖先那時候是在海裡,長得像魚的脊椎動物。

因應這種激烈的你追我跑,純粹靠上一代的反射動作已經不夠支應。現在決策神經全部整在一起,變成稱作腦袋的東西。腦袋現在需要新的功能。

1896 年,桑代克(Edward Lee Thorndike)想研究怎麼教小朋友最有效率。但哈佛大學不想給他小朋友研究。

他沒小朋友只好去研究雞、貓、狗。他設計了一些密室逃脫箱。箱子裡的動物可能要拉拉桿、按按鈕、或做一些特定姿勢,門就會自動或手動開啟。動物就能出門領賞。

他本來想研究動物可不可以透過觀察同類,學會開門。實際發現沒辦法這樣(劇透:需要之後靈長類的另一種升級,才能解鎖這個技能)。

實際上貓會在密室箱裡嘗試各種可能性,最後可能碰巧碰到正確的機關而開門。

同樣的密室再重複做一次時,貓嘗試的時間變短了。更多重複時,貓一下子就找到正確機關開門了。某種程度,貓透過嘗試錯誤,學會了正確開門的方式。

這實驗驚人的地方是,給定夠多的嘗試,貓可以學會超級複雜的一系列動作。但這個學習的機制都是嘗試錯誤:好的結果強化了正確的行為。

看完他的研究方式,我完全能理解哈佛大學的決定。應該沒有人想被他這樣實驗。

桑代克接下來把腦筋動到魚的身上。因為魚是比雞、貓、狗、人更古老的脊椎動物祖先。書裡面說魚是最被人們歧視的脊椎動物。人們都說魚笨,說他們金魚腦。

桑代克設計了一個水族箱,裡面有幾道有開口的玻璃。魚會在水中亂走,撞到這些隱形牆壁,但找到開口就可以進到下一關。桑代克可以測量魚過到哪一關要花多少時間。

一樣魚可以透過試誤學習,最後速通全部關卡。這個實驗後人不斷重製,發現魚可以記得這些路線長達「多年」。

試誤學習屬於脊椎動物特有。在線蟲、蛞蝓這些兩側對稱但還沒長出脊椎的動物並不存在。

1951 年,馬文明斯基(Marvin Minsky) 想試著把桑代克動物實驗的結論,轉化成電腦演算法。演算法的名字縮寫( stochastic neural analog reinforcement calculator, SNARC)和零知識證明的 snark 好像,不知道為什麼大家這麼愛這個縮寫。

明斯基用這個演算法學習怎麼走迷宮。演算法是一個類神經網路,只要 AI 通過迷宮,程式就會強化最近有激發過的突觸。這樣理論上要可以讓正確的結果強化正確的行為。

但這演算法實際上不成功,除了走迷宮之外沒辦法再處理更複雜的題目了。

想像拿這套試誤機制來下棋。一開始 AI 會隨便亂下,然後下贏或下輸會來評斷前面的棋步是好棋還是壞棋。下久了 AI 總會學會下棋吧?

問題在於,一盤棋可能幾十步,輸贏是最後才發生的。那到底是哪步棋讓你贏或害你輸的?是你的第一手天元?中間翻盤那手?還是結尾大意的一手?這是強化學習會遇到的歸因問題(Credit Assignment Problem)

第一次升級的兩側對稱動物也遇過這個問題。當食物出現時,同時有聲音或光線,那哪樣才是有食物出現的訊號?他們用的急就章是這樣:同樣情況下,選較新的刺激、教強的刺激、已關連過的刺激。

第一次升級的歸因問題,其實解決的是訊號和獎勵「同時」出現的歸因問題。但寒武紀的魚和下棋,他們要解決的是獎勵在訊號「一段時間之後」的歸因問題,稱為時序歸因問題。

1984 理查薩頓( Richard Sutton)提出了一個解決方法。他把系統分成兩個角色:一個行為者(Actor)和一個評斷者(Critic)。行為者負責下棋,評斷者負責評估這個盤面的勝率。

多了這個評斷者,可以在棋還沒下到終局前,先評價一下前幾步棋下得好不好。

他的演算法叫:時序差分學習(Temporal difference learning,TD learning)

時序差分學習最後在雙陸棋上(Backgammon)取得成功。這裡要學到最重要的經驗是:要強化正確的行為,不能用「實際」的獎勵,而是用「預測」的獎勵。因為實際的獎勵通常來得太晚了,而預測的獎勵已經能告訴我們很多重要的事。這個洞見也順手解決了一個神經科學的謎團。

1950 年代的科學家發現,可以用電極去刺激老鼠的多巴胺分泌中樞。只要老鼠推拉桿的時候,對多巴胺中樞電幾下,老鼠會每小時推五千下拉桿,連推 24 小時。

而且如果要老鼠選擇食物或多巴胺拉桿,老鼠永遠是寧願挨餓選多巴胺。

但多巴胺並不會產生愉悅感。所以追求多巴胺並不是因為喜歡。

後來的猴子實驗發現,多巴胺並不對實際的獎勵反應,而是對預測的獎勵反應。原本神經科學家對實驗的結果感到困惑,但撒頓的同事把時序差分學習的結論套進去才得到解釋。

我們的人腦是在演化中的屎山代碼中,一層一層套件堆砌出來的。下視丘算是古老兩側對稱動物腦袋的豪華版,他掌管效價(Valence)的感知和反應。寒冷的時候會發冷顫,熱的時候會流汗。下視丘也會檢測血液中的飢餓訊號,出發飢餓反應。他掌管真實報酬的部分。

豪華版的部分是下視丘會送多巴胺給基底核。其他比較高級先進的腦袋部分,最後都要來和基底核匯報。基底核掌握了我們全身的行動。而基底核就是想盡辦法得到多巴胺,滿足下視丘的索求。

但從時序差分學習來看,如果基底核不應該是學來自下視丘的真實報酬,而是要學預測的未來報酬。現在主流的理論是說基底核裡面有一塊迴路,專門實作了時序差分學習。基底核本來只學下視丘的回饋,逐漸變成學會在下視丘開口之前就滿足其需求。

模式辨認

有了基底核和強化學習還不夠。

掠食者奇蝦就半掩在海底的沙子裡,魚類祖先不能等他衝出來才開始跑。

這時候大家已經有光線和化學物質的感測器了。而且比兩側對稱動物時代進步一些。以前是用單一細胞感測的,但現在用多個細胞感測。這帶來一個新的問題:要怎麼詮釋多個細胞的訊號?

這難的地方是掠食者的身影會用不同角度和不同的背景進到感測器。所以要詮釋感測器的訊號,必須要能在物體旋轉時不會認錯(Invariance problem),同時也要能夠容忍各種必要的背景噪音。

我們知道魚類腦袋長出了一些皮質層,來詮釋視覺和嗅覺的訊號。

人們模仿了哺乳動物的視覺皮質層,比魚類的先進一些,開發出了捲積神經網路(CNN)。CNN 勉強解決了物體縮放的問題,但沒辦法真的理解 3D 物件的旋轉。

2022 的實驗,訓練金魚去敲青蛙的照片來得到食物。他們可以證明魚可以從不同的新角度辨認出同樣一隻青蛙。到底金魚腦是怎麼運作的,現在人們還不太明白。

好奇心

時序差分學習在雙陸棋成功後,不斷被拿去挑戰其他的電玩遊戲。在這些 90 年代的簡單遊戲之中,時序差分學習大多取得成功。但有一款遊戲:蒙特蘇馬的復仇,時序差分學習表現不佳。

這款遊戲要求玩家去探索不同房間,雖然沒有立即的利益,但有些房間才能進入後面的關卡。這反應出強化學習的第二個挑戰:探索與利用權衡(Exploration Exploitation trade off)。

只往眼前報酬最高的地方走(Exploitation),會被困在某個局部最佳處。有些環境需要先利益放一邊,純粹好奇心探索,才能得到更長遠的獲利。 原版的時序差分學習是有實作簡單的探索,但只是偶爾讓主角亂走。但遊戲中有用的探索需要完全走到一個陌生房間。

現在的 AI 是把驚訝(surprise)也當成報酬的一環。當看到一個沒看過的新房間時,本身就是一種報酬。這樣 AI 就會探索房間了。

脊椎動物看起來也是用驚訝當報酬。桑代克的傳人史金納,發現要讓老鼠推更多次拉桿的最好方式,不是讓每次拉拉桿都會有食物掉出來。而是要隨機掉食物,老鼠陷入好奇之後就會狂拉拉桿,期待有食物會掉出來。

空間感

我們人有辦法在半夜抹黑去上廁所,是因為腦袋對空間有建模。

魚也會記得一些食物的地點。海馬迴負責這個功能。移除海馬迴的魚就不記得地點了。

總結:智慧的第二次重要升級是「強化學習」

身為一隻寒武紀的脊椎動物,面臨眾多節肢動物的追捕軍備競賽。需要各種新型的智慧功能,以取代前代反射系統的不足。

  • 多巴胺實質成為強化學習中,作為報酬的溝通標準。
  • 基底核實作了時序差分學習。讓動物可以用多巴胺玩強化學習
  • 新增好奇心,解決探索與利用權衡
  • 加入模式辨別功能:大腦新增皮質層,能分辨掠食者的光線與化學訊號。
  • 對時間的感知:這應該是強化學習與試誤實際帶來的好處。不只知道什麼情況該做什麼,而是「何時」要做。
  • 對三度空間的感知:新增 3D 地圖。這也是實作在皮質層。

下回預告:泥盆紀的爬蟲類吃到飽,與土遁而出的哺乳類祖先演變出新的超能力。