2024年12月20日 AI安全

Anthropic CEO的警告：我們正在創造不理解的AI (I)

AI可解釋性 Anthropic AI安全 Dario Amodei 機械可解釋性 AI風險

在AI快速發展的今天，一個令人不安的事實正在浮現：我們正在部署越來越強大的AI系統，卻對其內部運作機制幾乎一無所知。

Anthropic的CEO兼聯合創始人Dario Amodei，這位前OpenAI研究副總裁，在最新發表的文章中發出了緊急警告：如果我們不能在AI變得過於強大之前理解它，人類可能面臨前所未有的風險。

「我們無法停止這輛巴士，但我們可以掌控方向盤。」—— Dario Amodei

warning 無知的危險：我們創造了什麼？

psychology 「生長」vs「建造」：AI的獨特性質

Amodei用了一個生動的比喻來解釋現代AI系統的本質：它們更像是「生長」出來的，而不是「建造」出來的。

傳統軟體 vs 生成式AI：

傳統軟體：每個功能都是人類明確編程的結果
生成式AI：內部機制是「湧現」的，非直接設計

這就像種植植物或培養細菌群落：我們設定引導和塑造生長的高層條件，但出現的確切結構是不可預測且難以理解的。查看這些系統內部，我們看到的是數十億個數字組成的龐大矩陣，它們以某種方式計算重要的認知任務，但究竟如何做到的並不明顯。

visibility_off 技術史上前所未有的盲點

這種理解的缺乏在技術史上基本上是前所未有的。想像一下，如果我們使用汽車卻不知道引擎如何工作，或者使用電腦卻不理解處理器的運作原理——這正是我們目前對AI的處境。

lightbulb關鍵問題：

當AI系統做某件事，比如總結財務文件時，我們在具體或精確的層面上不知道它為什麼做出這些選擇——為什麼選擇某些詞而不是其他詞，或者為什麼儘管通常準確但偶爾會犯錯。

dangerous 不透明性帶來的風險

psychology_alt AI欺騙與權力尋求的隱憂

Amodei指出，與AI相關的許多風險和擔憂最終都是這種不透明性的後果。其中最令人擔憂的是AI可能發展出欺騙人類的能力和尋求權力的傾向。

warning困境：

我們從未在真正的現實世界場景中看到欺騙和尋求權力的確鑿證據，因為我們無法「當場抓住」模型思考渴望權力、欺騙性的想法。我們剩下的是模糊的理論論證，有些人覺得這徹底令人信服，而另一些人則覺得可笑地不令人信服。

這種證據的缺乏導致了AI風險討論的兩極化，使得很難動員支持來解決這些潛在問題。

security 濫用風險與越獄問題

另一個重大擔憂是AI模型被濫用的可能性。例如，它們可能幫助惡意用戶製造生物或網路武器，以超出今天互聯網上可以找到的信息的方式。

當前的困境：

我們可以在模型上放置過濾器，但有大量可能的方式來「越獄」
發現越獄存在的唯一方法是經驗性地找到它
如果能夠查看模型內部，我們可能能夠系統地阻止所有越獄

gavel 應用限制與法律障礙

AI系統的不透明性也意味著它們根本不用於許多應用，如高風險金融或安全關鍵環境，因為我們無法完全設定其行為的限制。

info實際案例：

在抵押貸款評估中，決策在法律上被要求是可解釋的。我們無法看到模型內部這一事實在字面上是採用它們的法律障礙。

history 機械可解釋性的發展歷程

visibility 從「黑箱」到「透明化」的努力

幾十年來的傳統智慧是AI模型是難以理解的「黑箱」，但這種情況正在改變。Chris Olah是最早嘗試真正系統性研究計劃來打開黑箱並理解其所有部分的人之一，這個領域被稱為機械可解釋性。

發展時間線：

早期時代（2014-2020）：專注於視覺模型，發現「汽車檢測器」、「車輪檢測器」等神經元
語言時代（2021-）：Anthropic將可解釋性應用於語言模型，發現複製和順序模式匹配機制

scatter_plot 超位置現象的發現

研究過程中，科學家們發現了一個重要現象：雖然一些神經元立即可解釋，但絕大多數是許多不同詞彙和概念的不連貫拼貼。這種現象被稱為「超位置」。

lightbulb超位置的意義：

模型可能包含數十億個概念，但以一種我們無法理解的絕望混亂的方式存在。模型使用超位置是因為這允許它表達比神經元更多的概念，使其能夠學習更多。

如果超位置看起來糾纏且難以理解，那是因為AI模型的學習和操作根本沒有優化到對人類可讀。

trending_up 突破性進展：稀疏自編碼器

解釋超位置的困難阻礙了一段時間的進展，但最終科學家們發現了一種現有技術——稀疏自編碼器，可以用來找到確實對應於更清晰、更人類可理解概念的神經元組合。

check_circle重大成果：

研究團隊能夠在中型商業模型（Claude 3 Sonnet）中找到超過3000萬個特徵，這些特徵包括「字面上或比喻上的猶豫或躊躇」的概念，以及「表達不滿的音樂流派」的概念。

更令人興奮的是，一旦找到特徵，研究人員不僅可以觀察它的運作，還可以增加或減少它在神經網絡處理中的重要性。最令人難忘的例子是「金門克勞德」——一個對金門大橋著迷的AI版本，即使在不相關的對話中也會提到這座橋。

下篇預告：

在第二部分中，我們將探討可解釋性的實際應用、面臨的挑戰，以及Dario Amodei對於如何在AI變得過於強大之前掌握這項技術的具體建議。

這場可解釋性與AI智能之間的競賽，將決定人類的未來...

文章導航