“人機對齊”：人類文明又到“生死時刻”？

2024-02-20 08:50 來源：文匯報

　　《人機對齊：如何讓人工智能學習人類價值觀》 [美]布萊恩·克里斯汀著唐璐譯湖南科學技術出版社出版　　■唐山

　　多倫多大學經(jīng)濟學家甘斯希望女兒能照顧小弟弟上廁所，他想出一個“好辦法”：每幫小弟弟上一次廁所，女兒可得一塊糖果。女兒很快找到竅門：不斷給小弟弟喂水，讓他多上廁所，以得到更多糖果……

　　甘斯遭遇了典型的“對齊問題”：行動與目標不統(tǒng)一，“需要A卻獎勵了B”。

　　在人類史上，“對齊問題”一次次帶來困擾，隨著人工智能（以下簡寫為AI）出現(xiàn)，“人機對齊”成了難題——AI可打敗世界上最好的棋手，我們卻不知它是如何做到的。隨著人類越來越依賴AI，風險真地可控嗎？我們會不會落入科幻短片《戰(zhàn)爭的最后一天》里的悲慘境地（人類滅絕，AI仍在自動作戰(zhàn)）？

　　《人機對齊》是一本不太好讀的書，全書分三篇，即“預警”“自主”與“示范”，彼此關聯(lián)不大，甚至同篇各章間的邏輯關系亦不明顯。或因本書旨趣不在于說明“AI已發(fā)展到什么地步”，而在于由此引發(fā)的思考。

　　從這個意義看，《人機對齊》不只是科普書，更是通識書，人人都有閱讀它的必要，它應成為現(xiàn)代常識的組成部分——不了解這些常識，你會被現(xiàn)代社會“開除”。

　　不是技術問題，而是社會問題

　　玩家知道，所有電子游戲都有“暗關”。比如玩《魂斗羅》，可反復打較低級的關，刷分換武器，則過難關會更容易；再如老版《FIFA》，下底傳中必進，借此大招，操縱中國隊也能拿世界杯……許多“暗關”來自設計失誤，不論程序員們怎樣小心，也無法完全避免類似失誤。

　　隨著AI發(fā)展，失誤變得越來越不可容忍。

　　2015年，來自海地的網(wǎng)絡開發(fā)者阿爾西內(nèi)利用谷歌照片軟件，在網(wǎng)上分享了自己和親友的照片，讓阿爾西內(nèi)震驚的是，他們的照片竟被歸類為“大猩猩”。谷歌的技術團隊迅速響應，可幾個小時后，問題依舊，谷歌只好關閉了“大猩猩”這個標簽。直到三年后，用谷歌搜大猩猩，仍看不到任何一張照片。

　　軟件是怎么“學會”種族主義的？實際上，技術錯誤從來不只是技術本身的問題。19世紀照相最多的美國人不是林肯、格蘭特，而是弗雷德里克·道格拉斯，一位廢奴主義者，他發(fā)現(xiàn)，照片上的黑人特別難看，因膠片均依白人模特校準，形成化學配方，拍出的黑人則千人一面。

　　解決該問題似乎不難，多找黑人模特即可。同理，增加黑人照片，谷歌軟件的識別率會更準確。

　　然而，結果適得其反：IBM用AI開發(fā)了招聘軟件，輸入100份簡歷，選出5份最好的——幾乎都是男性。程序員關閉了性別選項，卻無法改變結果。因為AI會通過關聯(lián)信息，自動將女性排除。比如，它會把“上一年沒有工作”的簡歷標注為不合格，于是所有剛生育的女性均遭拒。類似的標簽無所不在，改不勝改。程序員們最后發(fā)現(xiàn)，他們面對的不是技術問題，而是社會問題——人類社會處處都有性別標簽，通過這些標簽，女性總會被辨認出來，被視為缺乏競爭力者。單靠技術，已無法解決。

　　無法突破的“不可能性原理”

　　上世紀80年代，美國司法開始用AI判斷囚犯可否假釋，2000年時，已有26個州如此進行。研究者發(fā)現(xiàn)了其中漏洞：黑人初犯者被評為高風險，但他們不再犯罪的可能性是白人的兩倍，白人初犯者反而被評為低風險。

　　這一發(fā)現(xiàn)引發(fā)輿情激蕩，人們紛紛要求去掉該系統(tǒng)的種族標簽，結果卻發(fā)現(xiàn)，落入IBM招聘系統(tǒng)一樣的困境——假釋系統(tǒng)會通過其他標簽，重新進行種族篩選，但如把相關標簽全撤掉，AI又會失去判斷能力。

　　研究者們發(fā)現(xiàn)，一切判斷都存在著“不可能性原理”，這在數(shù)學上得到了證明：沒有標簽，就不可能做判斷；有標簽，又必然有偏見，“原則上，任何風險評分天生都會被批評為有偏見”。

　　AI開發(fā)無法繞過兩大難題：

　　首先，道德無法客觀化。道德選擇沒有固定標準，會隨情境的改變而變，人類常常無法回答“什么是真正重要的”，AI更做不到。

　　其次，精準預測無法減少風險。人類喜歡更精準的預測，從而掉進“預測陷阱”，事實上，造成結果的原因是多元的，預測再精準，也無法影響結果。美國芝加哥市曾列“危險擁槍者”名單，據(jù)說他們比其他人死于兇殺案的比例高232倍，即使如此，他們被槍殺的概率也僅有0.7%，如何從1000人中找到這7個人呢？折騰1000人，真能挽救這7個人？在《反對預測》中，作者哈科特寫道：男司機易出事故，可是嚴查男司機，會鼓勵女司機變得更魯莽，車禍率并未下降。

　　不給答案，因為根本給不出答案

　　AI模仿了人腦的工作方式，通過大量案例訓練，總結出“經(jīng)驗”，獲得判斷力?？蛇@些“經(jīng)驗”正確嗎？比如一款AI診病軟件，研究者驚訝地發(fā)現(xiàn)，它得出的“經(jīng)驗”是：肺病患者如有哮喘病，屬低風險。胸痛有好處。

　　心臟病有好處。

　　超過100歲有好處。

　　這些逆天的“經(jīng)驗”，可能來自相關患者屬高風險，會被特殊照顧，但AI不知全過程，只知他們經(jīng)特殊照顧后，痊愈率較高，便認定“有好處”。

　　AI的大多數(shù)“錯誤經(jīng)驗”之所以不可知，是因為它模仿了人類的神經(jīng)系統(tǒng)，作為人類，我們自己也不知自己有多少“錯誤經(jīng)驗”，以及它們形成的原理。通過可視化技術，研究者們發(fā)現(xiàn)，AI的底層充滿荒謬。

　　比如判斷“什么是啞鈴”，AI會把手臂、肉色的、超現(xiàn)實的圖案都算成啞鈴，試錯后，這些“經(jīng)驗”被否定，但并沒消失，而是滯留在底層。人類會情緒失控，我們能模糊地感到，這與底層“經(jīng)驗”相關，那么“把啞鈴誤認作手臂”會不會帶來長期影響？

　　AI正深入生活的方方面面，自動駕駛、醫(yī)療、城市管理、戰(zhàn)爭……誰能保證AI的底層經(jīng)驗不犯錯？人類從沒真正掌控好自我，引發(fā)一次次災難，我們真能掌控好AI嗎？

　　本書第二篇、第三篇將焦點轉(zhuǎn)向AI發(fā)展史，描述了研究者們的突破歷程，包括從單任務轉(zhuǎn)向多任務，用單一AI在不同游戲中取勝；從外部激勵轉(zhuǎn)向AI自我激勵；通過模仿、逆強化學習等，使AI更強大……

　　然而，更強大的AI不等于“人機對齊”，AI實際上在“強制執(zhí)行自己有局限的理解”，它的目的未必是人類的目的。

　　當然，在牛津大學教授博斯特羅姆等激進進化主義者看來，這些都不是問題。他計算出，未來星際文明非常強大，今天耽誤的每一秒，都相當于失去將來的100萬億人的生命，每向未來世界前進1%，都等于技術加速1000萬年。因此即使AI有風險，也應全力推動。

　　研究者施萊格里斯則說：“如果有一個神奇的按鈕，可以把人類變成一樣的為幸福而優(yōu)化的笨蛋，他們會按下它……幾年前，我也鼓吹這樣做。”但現(xiàn)在，他的看法改變了：“我認為不應該按那個按鈕。”

　　對此，《人機對齊》沒給出答案，因為根本給不出答案。

　　我們乃至歷史，也許都是“AI”

　　雖然本書用大量篇幅在講述AI發(fā)展的細節(jié)，但我更喜歡的，還是書中的“跑題”部分——為強化AI，研究者深入研究了人類自身智能的產(chǎn)生過程，得出的見解振聾發(fā)聵：我們每個人可能都是世界訓練出來的“AI”。

　　人類擁有智能，源頭是趨利避害的本能，在多巴胺的簡單獎勵下，塑造出復雜行為——并不是做對了，多巴胺才獎勵快感，而是做新奇的事時，多巴胺才會給獎勵。

　　所以，人類喜歡刺激、冒險和挑戰(zhàn)。不斷嘗試，就有了更多試錯機會，通過試錯，人類智能得以成長。人類生活的世界就是“有效的課程”，它像一個大型游戲。這就可以理解，為什么電子游戲讓人難以自拔，因為它比現(xiàn)實世界的獎勵更直接。

　　在現(xiàn)實世界中，人在進化，決定成敗的核心因素，是“獎勵的稀疏性”。比如為了讓人類學會飛，讓人從懸崖往下跳，不會飛便摔死——這并非聰明的辦法。在會飛與不會飛之間，有無數(shù)環(huán)節(jié)，如在每個環(huán)節(jié)都設置獎勵，人類最終就能學會飛；如獎勵太稀疏，從不會飛直接跨越到飛，必然失敗。正如眼睛，是經(jīng)四五十次進化才完成的。在書中，一位學者開玩笑說，要么讓自己的孩子學會中文，要么就不給飯吃，孩子的母親明智地拒絕了這個建議。

　　作者本想說明研究者通過改變稀疏性，提高AI能力，卻給讀者一個全新的看世界的視角：人類文明的本質(zhì)就是一個獎勵結構的故事。沿著這一思路，我們會推演出一個完全不同于以往“思想——行動——改變”的歷史解釋的結論，推動進步的力量是多元的，不論個體，還是群體，都沿著稀疏性向密集的方向發(fā)展，決定歷史的關鍵因是稀疏性，而非想法、技術、制度或人物。

　　由此帶來新的認知危機：如果人是受造物，那么自由是什么？

　　在書中，著名思想史學者斯金納指出，在稀疏性面前，人與老鼠相同。當記者問他：“自由意志還有位置嗎？”斯金納回答：“它還有虛構的位置。”哪怕只為與這句話相遇，《人機對齊》就值得一讀。