一周兩次事故後,回看Anthropic七位聯創一年前如何談論「安全」

By: blockbeats|2026/04/02 13:00:10
0
分享
copy
原視頻標題:Building Anthropic | 與我們的联合创始人对话
原視頻來源:Anthropic
原文編譯:深潮 TechFlow

要點總結

過去一週,Anthropic 連續發生了兩次事故:

首先是內部近 3000 份文件因 CMS 配置錯誤被公開訪問,緊接著 Claude Code v2.1.88 在 npm 發布時夾帶了 59.8MB 的 source map,51 萬行原始碼直接裸奔。

一家把「安全」寫進基因的公司,在自家運維上連續翻車,諷刺感拉滿。

但在急著嘲諷之前,不妨回頭聽聽 Anthropic 七位聯創一年多前的一次內部對談。這期播客錄於 2024 年 12 月,七個人聊了這家公司是怎麼建立起來的、RSP(Responsible Scaling Policy,直譯「負責任的擴展政策」)是怎麼磨出來的、「安全」這個詞為什麼不能隨便用,以及 CEO Dario 那句被反复引用的話:

「如果一棟樓每周都響火警,那它其實是一棟非常不安全的建築。」

現在再聽這句話,滋味確實不太一樣。

七位聯創,快速認臉

Dario Amodei|CEO,前 OpenAI 研究副總裁,神經科學出身,Anthropic 战略和安全路線的最終拍板人。這場對話裡發言最多。

Daniela Amodei|總裁,Dario 的姐姐。此前在 Stripe 幹了五年半,帶過信任與安全團隊,更早在非營利和國際發展領域工作。Anthropic 的組織搭建和對外溝通基本由她主導。

Jared Kaplan|物理學教授轉 AI 研究者,scaling laws 核心作者之一。經常從局外人視角提供判斷,自稱當初做 AI 是因為「做物理做膩了」。

Chris Olah|可解釋性(interpretability)研究的代表人物,19 歲進灣區 AI 圈,先後在 Google Brain 和 OpenAI 工作。Anthropic 裡技術理想主義色彩最濃的人。

Tom Brown|GPT-3 論文一作,現在管 Anthropic 的算力資源。視角偏工程和基礎設施,播客裡聊了不少他從「不太信 AI 會這麼快」到改變看法的過程。

Jack Clark|前彭博科技記者,Anthropic 政策與公共事務負責人。這場對話裡充當主持人,負責串場和追問。

Sam McCandlish|研究聯創,全場發言最少但經常一句話點到要害,屬於「補刀位」。

精彩觀點摘要

一周兩次事故後,回看Anthropic七位聯創一年前如何談論「安全」

為什麼做 AI:從物理無聊到「看夠了就信了」

Jared Kaplan:「我之前做了很久物理,有點無聊了,也想和更多朋友一起工作,所以就做 AI 了。」

Dario Amodei:「我不覺得我有明確說服過你,我只是一直給你看 AI 模型結果。到某個時候,我給你看得夠多了,你就說『嗯,這看起來是對的』。」

逆共識下注:大多數共識是羊群效應伪裝成了成熟

Jared Kaplan:「很多 AI 研究者被 AI 寒冬心理上傷得很重,好像有雄心是不被允許的。」

Dario Amodei:「我過去十年最深教訓是:很多『大家都知道』的共識,其實是羊群效應伪裝成成熟。你見過幾次共識被一夜翻轉後,就會說:不,我們就押這個。哪怕你只有 50% 正確,也會貢獻很多別人沒貢獻的東西。」

安全與規模化是糾纏在一起的

Dario Amodei:「我們當時把模型擴大的動機之一,就是模型得先足夠聰明,RLHF 才能做起來。這就是我們現在仍然相信的:安全和規模化是糾纏在一起的。」

RSP,負責任的擴展政策是 Anthropic 的「憲法」

Tom Brown:「RSP 對於 Anthropic 來說,就像是我們的憲法。它是一份具有指導意義的核心文件,因此我們願意投入大量時間和精力來反覆打磨。」

Dario Amodei:「RSP 會阻止不符合安全標準的計劃繼續推進。我們不是在空談口號,而是實實在在地將安全融入到每一個環節。」

火警響太多次,真著火就沒人跑了

Daniela Amodei:「我們不能隨便用『安全』這個詞來左右工作進展。我們真正的目標是讓大家清楚地知道我們所指的安全是什麼。」

Dario Amodei:「真正損害安全的往往是那些頻繁的『安全演練』。如果有一棟大樓,每周都會響起火警警報,那麼這其實是一棟非常不安全的建築。」

「高尚的失敗」是個陷阱

Chris Olah:「有一種說法認為,最道德的行為是為了安全而犧牲其他目標,以此來展示自己對事業的純粹性。但這種方式實際上是自我挫敗的。因為這會導致決策權落入那些不重視安全的人手中。」

聯創們承諾捐出 80% 收入

Tom Brown:「我們共同承諾將收入的 80% 捐贈給能夠推動社會發展的事業,這是大家都毫不猶豫支持的事。」

沒人想創業,但覺得必須這麼做

Sam McCandlish:「其實我們中沒有誰一開始就有創辦公司的意願。我們只是覺得這是我們的責任,因為這是確保 AI 發展朝著正確方向前進的唯一途徑。」

Daniela Amodei:「我們的使命既清晰又純粹,在科技行業中這樣的情況並不常見。」

可解釋性:神經網絡裡藏著一整套「人工生物學」

Chris Olah:「神經網絡非常美妙,其中有許多我們還沒有看到的美。我有時會想象,十年後走進一家書店,買一本關於神經網絡生物學的教科書,書中會有各種令人驚嘆的內容。」

AI 用於增強民主,而不是成為獨裁工具

Dario Amodei:「我們擔心如果 AI 被錯誤地開發,它可能會成為獨裁主義的工具。如何讓 AI 成為促進自由和自治的工具?這一領域的重要性絲毫不亞於生物學和可解釋性。」

從白宮會議到諾貝爾獎:AI 的影響力早就超出了技術圈

Jared Kaplan:「2018 年你不會想到總統會叫你去白宮說他們在關注語言模型。」

Dario Amodei:「我們已經看到化學領域的諾貝爾獎授予了 AlphaFold,我們應該努力開發能夠幫助我們創造出數百個 AlphaFold 的工具。」

-- 價格

--

為什麼要研究 AI?

Jack Clark:我們為什麼一開始要做 AI?Jared 你為什麼做 AI?

Jared Kaplan:「我之前做了很久物理,有點無聊了,也想和更多朋友一起工作,所以就做 AI 了。」

Tom Brown:「我還以為是 Dario 說服你的。」

Dario Amodei:「我不覺得我有明確『說服』過你,我只是一直給你看 AI 模型結果,想表達它們很通用,不只適用於單一問題。到某個時候,我給你看得夠多了,你就說『嗯,這看起來是對的』。」

Jack Clark:Chris,你做可解釋性研究那會兒,是在 Google 認識大家的嗎?

Chris Olah:「不是。其實我 19 歲第一次來灣區時就認識了你們中的不少人。我那時見到 Dario 和 Jared,他們是博士後,在當時我覺得特別酷。後來我在 Google Brain,Dario 加入後我們還並排坐過一陣子,我也和 Tom 一起工作過,再後來去 OpenAI 就和你們所有人一起做事了。」

Jack Clark:「我記得我 2015 年在一個會議上見到 Dario 想採訪你,Google PR 還說我要先把你論文都讀完。」

Dario Amodei:「我當時在 Google 寫《Concrete Problems in AI Safety》。」

Sam McCandlish:「我開始和你共事前,你邀我去辦公室聊,像是把 AI 整體講了一遍。我記得聊完後我想:『原來這事比我意識到的嚴肅得多。』你當時講了『大算力團塊』、參數數目、人腦神經元規模這些。」

突破性的擴展

Jack Clark:我記得在 OpenAI 做 scaling laws 時,把模型做大開始真的有效,而且在好多項目上都持續、詭異地有效,從 GPT-2 到 scaling laws 到 GPT-3,我們就這樣越走越近。

Dario Amodei:「我們就是那團『把事做成的人』。」

Jared Kaplan:「我們也都很興奮於安全,那會兒有個想法:AI 會很強,但可能不理解人類價值,甚至不能和我們溝通。語言模型某種程度上能保證它得理解很多隱性知識。」

Dario Amodei:「還有語言模型之上的 RLHF,我們當時把模型擴大的動機之一,就是模型得先足夠聰明,RLHF 才能做起來。這就是我們現在仍然相信的:安全和規模化是繚繞在一起的。」

Chris Olah:「對,當時 scaling 工作其實也是安全團隊的一部分。因為我們覺得,想讓人認真對待安全,首先要能預測 AI 趨勢。」

Jack Clark:我記得我在英國某機場,從 GPT-2 採樣寫假新聞,然後在 Slack 上發給 Dario 說「這真能用,可能有巨大政策影響」,我記得 Dario 回覆是「是的」。

之後我們也做了很多發布相關工作,那很瘋狂。

Daniela Amodei:「我記得發布那段,那是我們第一次真正開始合作,GPT-2 當時發布。」

Jack Clark:「我覺得那對我們很有幫助,我們先一起做了一個『有點奇怪但安全導向』的事,後來又一起做了 Anthropic,一個更大規模、同樣有點奇怪但安全導向的事。」

AI 的起步階段

Tom Brown:「回到《Concrete Problems》這篇文章上來。我 2016 年進 OpenAI,當時你我都是最早那批人,我當時感覺那篇像第一個主流 AI 安全論文。它怎麼來的?」

Dario Amodei:「Chris 知道,他參與了。我們那時在 Google,我都忘了我當時主專案是什麼了,這篇像是我拖延出來的。」

我們想寫下 AI 安全有哪些開放問題。當時 AI 安全總被講得很抽象,我們想把它落到當時真實 ML 上。現在已經有六七年這條線工作了,但那會兒這就是個怪想法。

Chris Olah:「我覺得它某種意義上幾乎是個政治項目。那時很多人不把安全當回事。我們想整理一份大家認可合理的問題清單,很多本來就存在於文獻裡,然後找跨機構有公信力的人共同署名。」

我記得我花了很長時間,和 Brain 里二十多個研究者溝通,為發表爭取支持。如果只看問題本身,今天回頭看未必都成立,可能不是最對的問題。但如果把它看成共識建設:證明「這裡有真實問題,值得認真對待」,那它是重要時刻。

Jack Clark:「最終你會進入一個非常奇特的科幻世界,我記得 Anthropic 早期講 Constitutional AI,Jared 說「我們給語言模型寫一部憲法,它行爲就會變」。當時聽起來很瘋狂。為什麼你們覺得可行?」

Jared Kaplan:「我跟 Dario 討論了很久,我覺得 AI 里簡單方法常常效果極好。最早版本挺複雜,後來不斷削減,最後變成:利用模型擅長做選擇題這點,給它明確提示告訴它要找什麼這就夠了,然後我們可以把原則直接寫下來。」

Dario Amodei:「這回到「大算力團塊」(The Big Blob of Compute)「慘痛教訓」(The Bitter Lesson)「規模化假設」(Scaling Hypothesis):只要你能給 AI 一個清晰目標與數據,它就能學會。一組指令、一組原則,語言模型能讀它們,也能把它們和自身行爲對照,訓練目標就在那兒。所以我和 Jared 的看法是:有辦法做成,只要細節反覆調。」

Jared Kaplan:「對我來說早期很奇怪。我從物理轉來,現在大家都興奮於 AI,容易忘了當時氛圍。我當時和 Dario 聊這些,感覺很多 AI 研究者被 AI 寒冬心理上傷得很重,好像「有雄心」是不被允許的。討論安全要先相信 AI 可能非常強、非常有用,但當時有種反雄心禁令。物理學家一個優勢是「傲慢」,他們常做很雄心的事,習慣談宏大圖景。」

Dario Amodei:「我覺得這是真的,2014 年很多話就是不能說。這也像學術界普遍問題,除了某些領域外,機構越來越厭惡風險,工業 AI 也繼承了這心態,我覺得直到 2022 年左右才走出來。」

Chris Olah:「還有「保守」的兩種形式:一種是認真看待風險,另一種是把認真對待並相信想法可能成功視為傲慢。我們當時處於後者主導。歷史上 1939 年核物理討論裡也類似:Fermi 抵抗,Szilard 或 Teller 更認真看待風險。」

Dario Amodei:「我過去十年最深教訓是:很多「大家都知道」的共識,其實是羊群效應伪裝成成熟。你見過共識幾次一夜翻轉後,就會說:不,我們就押這個。也許不一定對,但忽略噪音去下注。哪怕你只有 50% 正確,也會貢獻很多別人沒貢獻的東西。」

公眾對人工智能的態度轉變

Jared Kaplan:「今天在一些安全議題上也這樣:外界共識覺得很多安全問題不自然會從技術裡長出來,但我們在 Anthropic 做研究看到它確實會自然長出來。」

Daniela Amodei:「但過去 18 個月這在變化,同時世界對 AI 的情緒也在明顯變化,我們做用戶研究時,更常聽到普通用戶擔心 AI 對世界整體影響。」

有時是工作、偏見、毒性,有時是「它會不會把世界搞亂、改變人類協作方式」,這其實我都沒完全預料到。

Sam McCandlish:「不知為何,ML 研究圈常比公眾更悲觀於「AI 變很強」。」

Jared Kaplan:「2023 年我和 Dario 去白宮,會議裡 Harris、Raimondo 基本意思是:我們盯著你們,AI 是大事,我們在認真關注,但 2018 年你不會想到「總統會叫你去白宮說他們在關注語言模型」。」

汤姆·布朗:「有趣的是,我们很多人是这件事看起来还不确定时就入场的,像 Fermi 对原子弹持怀疑态度一样,有一些证据表明原子弹可能会被制造出来,但也有很多证据表明它不会,但他最终决定一试。因为如是真的,影响会很大,所以值得做。」

2015-2017 有一些且不断增加的证据证明 AI 可能是件大事,我 2016 年和导师聊:我做过创业,想做 AI 安全,但数学不够强,不知道怎么办。当时有人说你得精通决策理论;有人说不会出现疯狂 AI 事件,真正支持的人很少。

杰克·克拉克:「我 2014 年做 ImageNet 趋势报道被当疯子。2015 年的时候我想写 NVIDIA 因论文都提 GPU,也被说疯了;2016 离开新闻去 AI,还有邮件说「你犯了人生最大错误」。当时从很多角度看,认真押注「规模化会成」确实像疯子。」

Jared Kaplan:「你是怎么决定的?纠结吗?」

杰克·克拉克:「我做了个反向下注:提要求做全职 AI 记者并工资翻倍,我知道他们不会答应。然后睡一觉醒来就辞职。因为我每天都在读档案文件,我总觉得有件疯狂大事在发生,某个时点你就该高信念下注。」

汤姆·布朗:「我没那么果断,我摇摆了六个月。」

丹妮拉·阿莫代:「而且那时「工程师也能显著推动 AI」这件事并不主流。当时是「只有研究员才能做 AI」,所以你的犹豫不奇怪。」

汤姆·布朗:「后来 OpenAI 说「你可以通过工程帮助 AI 安全」,那才让我加入。丹妮拉你在 OpenAI 还是我经理,你当时为什么加入?

丹妮拉·阿莫代:「我在 Stripe 五年半,Greg 曾是我老板。我还介绍过 Greg 和 Dario 认识。当时他正在创立 OpenAI,我对他说:「我认识的最聪明的人是 Dario。如果你能让他加入团队,那真是你的幸运。」后来,Dario 就加入了 OpenAI。」

或許和你一樣,我也在思考從 Stripe 離開後,自己想做些什麼。我之所以加入 Stripe,是因為之前在非營利組織和國際發展領域工作時,我覺得自己需要更多技能,其實當時我還以為自己最終會回到那個領域。

加入 Stripe 之前,我覺得自己並沒有足夠的能力去幫助那些比我條件差的人。所以我在關注其他科技公司,希望找到一種新的方式去產生更大的影響,而當時的 OpenAI 則讓我覺得它是一個很好的選擇。它是一家非營利組織,致力於實現一個非常重要且具有遠大意義的目標。

我一直很相信 AI 的潛力,因為我對 Dario 也有一些了解,而且他們確實需要有人來幫忙管理,所以我覺得這份工作和我的背景非常契合。我當時心想:「這是一家非營利機構,這裡聚集了一群非常優秀、懷抱美好願景的人,但他們的運作似乎還有些混亂。」而正是這種挑戰讓我感到興奮,因為我可以加入進去。

當時我感覺自己像是一個全能型選手,不僅負責管理團隊成員,還要帶領一些技術團隊,還有擴展組織的管理,我負責組織擴展工作,也曾在語言團隊工作過,後來還接手了一些其他任務。我還參與了一些政策方面的事務,還和 Chris 一起合作過。我覺得公司裡有很多優秀的人才,這讓我特別想加入進來,幫助公司變得更加高效、更有條理。

Jack Clark:「我記得做完 GPT-3 後你說「你們聽說過 trust and safety 嗎?」」

Daniela Amodei:「我以前在 Stripe 帶過 trust and safety 團隊。對於像這樣的技術,你們可能需要考慮一下信任與安全這個問題。這其實是人工智能安全研究 (AI Safety Research) 和更務實的日常工作之間的一個橋樑,也就是說,如何讓模型變得真正安全。」

提出「這項技術未來會產生重大影響」是非常重要的。同時,我們也需要在日常中開展一些更實際的工作,為將來面對更高風險的場景打下基礎。

負責任的擴展政策:確保 AI 的安全發展

Jack Clark:「讓我們來討論下負責任的擴展策略(RSP,Responsible Scaling Policy)是如何提出的,為什麼我們會想到它,以及我們現在是如何應用它,特別是考慮到我們目前在模型的信任與安全方面所做的工作。那麼,這個 RSP(負責任的擴展策略)是誰最先提出來的?」

Dario Amodei:「最初是我和 Paul Christiano 提出來的,時間大概是在 2022 年底。最開始的想法是,我們是否應該在模型擴展到某個特定規模之前暫時限制它,直到我們找到解決某些安全問題的方法?」

但後來我們覺得,僅僅在某個點上限制擴展,然後再放開限制,這樣的做法有些奇怪。因此我們決定設定一系列門檻,每當模型達到一個門檻時,就需要進行一系列測試,以評估模型是否具備相應的安全能力。

在每達到一個門檻時,我們都需要採取更嚴格的安全和保障措施。不過,最初我們就有一個想法:如果這件事由第三方來執行,可能會更好。也就是說,這種策略不應該由某一家公司單獨負責,否則其他公司可能就不願意採納這一策略。因此,Paul 親自設計了這個策略。當然,隨著時間的推移,其中的許多細節也發生了變化。而我們團隊這邊則一直在研究,如何讓這個策略更好地運作。

當 Paul 把這個概念整理成型後,他幾乎是在宣布這個概念的同時,我們也在一兩個月內發布了自己的版本。其實,我們團隊中的很多成員都深度參與了這個過程。我記得自己至少寫過其中的一個初稿,但整個文件經歷了多次修訂。

Tom Brown:「RSP 對於 Anthropic 來說,就像是我們的「憲法」。它是一份具有指導意義的核心文件,因此我們願意投入大量時間和精力來反覆打磨,確保它的準確性和完善性。」

Daniela Amodei:「我覺得,RSP 在 Anthropic 的發展過程真的非常有趣。它經歷了多個階段,同時也需要多種不同的技能來推動它的實施。比如,有一些宏大的理念,這部分主要由 Dario、Paul、Sam 和 Jared 等人負責,他們在思考:「我們的核心原則是什麼?我們想要傳遞什麼樣的信息?我們如何確定自己的方向是正確的?」」

但除此之外,还有非常实际的操作层面的工作,比如在不断迭代过程中,我们会評估並調整一些細節。比如,我們原本預計在某個安全級別下會達到某些目標,但如果沒有實現,我們就會重新評估,並確保我們能夠對自己的工作結果負責。

此外,還有很多與組織架構相關的調整。比如,我們決定重新設計 RSP 的組織結構,以便更清晰地劃分責任。我很喜歡用憲法來類比這份文件的重要性。就像美國為了確保憲法的實施,建立了法院、最高法院、總統、參眾兩院等一整套制度和機構。雖然這些機構還承擔著其他職責,但它們的存在在很大程度上是為了維護憲法,而我們在 Anthropic 的 RSP 也在經歷類似的過程。

Sam McCandlish:「我認為,這其實反映了我們對安全問題的一種核心觀點:安全問題是可以解決的。這是一項非常複雜且艱鉅的任務,需要投入大量的時間和精力。」

就像車輛安全領域一樣,相關的制度和機構是經過多年的發展才建立起來的。但我們現在面臨的問題是:我們是否有足夠的時間來完成這些工作?因此,我們必須儘可能快速地找出 AI 安全所需的關鍵制度,並率先在我們這裡建立起來,同時確保這些制度可以被其他地方借鑑和推廣。

Dario Amodei:「這也有助於組織內部的協作統一,因為如果組織中有任何部分的行為不符合我們的安全價值觀,RSP 就會透過某種方式將問題暴露出來,對吧?RSP 會阻止他們繼續推進那些不符合安全標準的計畫。因此,它也成為一個不斷提醒每個人的工具,確保安全性成為產品開發和規劃過程中的基本要求。我們並不是在空談一些口號,而是實實在在地將安全融入到每一個環節。如果有人加入團隊後無法認同這些原則,他們就會發現自己無法融入。要麼適應這個方向,要麼就會發現難以繼續下去。」

Jack Clark:「隨著時間的推移,RSP 變得越來越重要。我們為它投入了數千小時的工作,而當我向參議員們解釋 RSP 時,我說:「我們制定了一些措施,確保我們的技術既不容易被濫用,同時也能夠保證安全。」他們的反應通常是:「這聽起來很正常。難道不是每家公司都這樣做的嗎?」這讓我有些哭笑不得,其實並不是每家公司都這樣做。」

Daniela Amodei:此外我認為除了推動團隊的價值觀一致性之外,RSP 還增強了公司的透明度。因為它清楚地記錄了我們的目標是什麼,公司內部的每個人都能理解,同時外部的人也能清楚地知道我們在安全方面的目標和方向。雖然它還不完美,但我們一直在不斷優化和改進它。」

我覺得明確指出「我們關注的核心問題是什麼」,我們不能隨便用「安全」這個詞來左右工作進展,比如說「因為安全問題,我們不能做某件事」或者「因為安全問題,我們必須做某件事。」我們真正的目標是讓大家清楚地知道我們所指的安全是什麼。

Dario Amodei:「從長遠來看,真正損害安全的往往是那些頻繁的「安全演練」。我曾說過:「如果有一棟大樓,每周都會響起火警警報,那麼這其實是一棟非常不安全的建築。」因為當真正發生火災時,可能沒人會在意,我們必須非常注重警報的準確性和校準。」

Chris Olah:「換個角度來看,我覺得 RSP 在很多層面上都創造了健康的激勵機制。比如在公司內部,RSP 將每個團隊的激勵機制與安全目標對齊,這意味著,如果我們在安全方面沒有取得足夠的進展,相關工作就會被暫停。」

而在外部,RSP 也比其他方法更能創造健康的激勵機制。比如說,如果有一天我們必須採取一些重大行動,比如承認「我們的模型已經發展到某個階段,但我們還無法確保它的安全性」,那麼 RSP 提供了一個清晰的框架和證據支持這一決定。這種框架事先已經存在,且清晰易懂。回想起我們討論 RSP 早期版本時,我並沒有完全意識到它的潛力,但現在我認為它確實比我能想到的其他方法更有效。」

Jared Kaplan:「我同意這些觀點,但我覺得這可能低估了我們在制定正確政策、評估標準以及劃定界限時所面臨的挑戰。我們已經在這些方面進行了大量的迭代,並且仍在繼續優化。一個困難的問題是,對於一些新興技術,有時很難明確地判斷它是危險的還是安全的。很多時候,我們會遇到一個巨大的灰色地帶。這些挑戰讓我在 RSP 開發初期感到非常興奮,現在依然如此。但與此同時,我也意識到,要清晰地實施這一策略並讓它真正發揮作用,比我最初想象的要更複雜、更具挑戰性。」

Sam McCandlish:「灰色地帶是無法完全預測的,因為它們無處不在。只有當你真正開始實施時,才能發現問題的所在。因此,我們的目標是盡早實施所有內容,這樣我們就能盡快發現潛在的問題。」

Dario Amodei:「你必須進行三到四次迭代才能真正做到完美,迭代是一個非常強大的工具,你幾乎不可能第一次就完全正確,所以如果面臨的風險在不斷增加,你需要盡早完成這些迭代,而不是等到最後。」

Jack Clark:「同時,你還需要建立內部的制度和流程。雖然具體的細節可能會隨著時間而變化,但培養團隊的執行能力才是最為重要的。」

Tom Brown:「我負責 Anthropic 的計算資源管理,對我來說我們需要與外部的利益相關者進行溝通,不同的外部人士對技術發展的速度有著不同的看法。我一開始也認為技術不會發展得那麼快,但後來我的看法改變了,所以我對此非常能夠理解。我覺得 RSP 對我來說特別有用,尤其是在與那些認為技術發展會比較緩慢的人交流時。我們可以告訴他們:「在技術發展到非常緊急的程度之前,我們不需要採取極端的安全措施。」如果他們說:「我認為事情在很長一段時間內都不會變得緊急。」我就可以回應說:「好的,那我們暫時不需要採取極端的安全措施。」這讓與外界的溝通變得更加順暢。」

Jack Clark:「那麼,RSP 還在哪些方面對大家產生了影響呢?」

Sam McCandlish:「一切都圍繞評估,每個團隊都在進行評估。比如你的訓練團隊一直在做評估工作,我們試圖確定這個模型是否已經變得足夠強大,以至於可能帶來危險。」

Daniela Amodei:「這其實意味著我們需要根據 RSP 的標準來衡量模型的表現,包括檢查是否存在可能引發我們擔憂的跡象。」

Sam McCandlish:「評估模型的最低能力相對容易,但評估模型的最高能力則非常困難。因此,我們投入了大量的研究精力,嘗試回答這樣的問題:「這個模型是否能夠執行某些危險的任務?是否存在我們尚未考慮到的某些方法,比如思維導圖、最佳事件(best event)或某些工具的使用,這些會不會讓模型能夠執行一些非常危險的行為?」」

Jack Clark:「在政策制定过程中,这些评估工具非常有帮助。因为「安全」是一个非常抽象的概念,而当我说:「我们有一个评估工具,它决定了我们是否可以部署这个模型。」然后,我们可以与政策制定者、国家安全专家以及 CBRN(化学、生物、放射和核领域)的领域专家进行合作,共同制定精确的评估标准。如果没有这些具体的工具,这些合作可能根本无法实现。但一旦有了明确的标准,人们就会更愿意参与进来,帮助我们确保其准确性。所以在这方面,RSP 的作用非常显著。」

Daniela Amodei:「RSP 对我来说也非常重要,而且经常影响我的工作。我觉得有趣的是,我思考 RSP 的方式有点特别,更多是从它的「语气」出发,就是它的表达方式。最近我们对 RSP 的语气进行了大幅调整,因为之前的语气太过技术化,甚至有些对立的感觉。我花了很多时间思考,如何构建一个让人们愿意参与其中的体系。」

如果 RSP 是一份公司里每个人都能轻松理解的文件,那就会好得多。就像我们现在的 OKR(目标与关键结果)一样。比如,RSP 的主要目标是什么?我们怎么知道是否达到了目标?当前的 AI 安全等级(ASL)是多少?是 ASL-2 还是 ASL-3?如果每个人都知道需要关注的重点,那么发现潜在问题就会变得更容易。相反,如果 RSP 过于技术化,只有少数人能够理解,那么它的实际效用就会大打折扣。

很高興能夠看到 RSP 正在向一个更易理解的方向发展。现在,我認為公司裡的大多數人,甚至可能是所有人,無論他們的職位是什麼,都能讀懂這份文件,並且覺得:「這很合理。我希望我們在以下這些原則的指導下開發 AI,我也明白為什麼要關注這些問題。如果我在工作中遇到問題,我大致知道該注意什麼。」我們希望讓 RSP 足夠簡單,就像在製造工廠工作的人能夠輕鬆判斷:「安全帶應該連接在這裡,但現在沒有連接到位。」從而及時發現問題。

關鍵在於建立一個健康的反饋機制,使領導層、董事會、公司其他部門以及實際從事研發工作的團隊之間能夠順暢交流。我認為,大多數問題的產生往往是因為溝通不順暢或信息傳遞出現了偏差。如果問題僅僅因為這些原因而出現,那將是非常遺憾的,對吧?最終,我們需要做的就是將這些理念切實付諸實踐,並確保它們簡單明了,便於每個人理解。

Anthropic 的創立故事

Sam McCandlish:「其實我們中沒有誰一開始就有創辦公司的意願。我們只是覺得這是我們的責任,我們必須採取行動,因為這是確保 AI 發展朝著正確方向前進的唯一途徑,這也是我們為什麼會做出那個承諾的原因。」

Dario Amodei:「我最初的想法很簡單,我只是希望通過某種有益的方式去發明和探索新事物。這種想法引導我進入了 AI 領域,而 AI 的研究需要大量的工程技術支持,最終也需要大量的資金支持。」

然而,我發現如果沒有一個明確的目標和規劃來設立公司和管理環境,很多事情雖然會被完成,但卻會重複科技行業中那些讓我感到疏離的錯誤。這些錯誤往往源於相同的人、相同的態度和相同的思維模式。所以在某個時刻,我意識到我們必須以一種全新的方式來做這件事,這幾乎是不可避免的。

Jared Kaplan:「還記得我們在研究生院的時候,你曾經有一個完整的計劃,嘗試探索如何通過科學研究來促進公共利益。我覺得這與我們現在的思路非常相似。我記得你當時有一個叫「Project Vannevar」的項目,目標就是實現這一點。我當時是個教授,我觀察了當時的情況,並深信 AI 的影響力正在以一種極快的速度增長。」

然而,由於 AI 研究對資金的高需求,再加上作為一名物理學教授,我意識到自己無法單靠學術研究推動這些進展。我希望能夠與值得信賴的人一起,建立一個機構,確保 AI 的發展能夠朝著正確的方向前進。但老實說,我從來不會建議別人去創辦一家公司,也從未有過這樣的願望。對我來說,這只是一種實現目標的手段而已。我認為通常情況下,成功的關鍵在於你真正關心實現一個對世界有意義的目標,然後找到實現這一目標的最佳手段。

如何打造信任文化

Daniela Amodei:「我經常思考我們作為團隊的戰略優勢,其中一個可能聽起來有些意外,但卻非常重要的因素就是我們之間的高度信任。要讓一大群人擁有共同的使命是非常困難的,但是在 Anthropic,我們能夠成功地將這種使命感傳遞給越來越多的人。在這個團隊中,包括領導層和所有成員,大家都因為共同的使命而聚集在一起。我們的使命既清晰又純粹,在科技行業中這樣的情況並不常見。」

我覺得我們正在努力實現的目標充滿了一種純粹的意義,我們沒有人是因為想要創辦公司而開始的。我們只是覺得必須這麼做。我們無法在原來的地方推進我們的工作,必須靠自己來完成這件事。

Jack Clark:「當時,隨著 GPT-3 的出現,以及我們所有人都接觸過或參與過的項目,比如擴展法則 (scaling laws) 等等,我們在 2020 年已經清楚地看到了 AI 的發展趨勢。我們意識到,如果不盡快採取行動,可能很快就會到達一個不可逆轉的臨界點。我們必須採取行動,才能對這個環境產生影響。」

Tom Brown:「我想延續 Daniela 的觀點,我確實認為團隊內部存在著高度的信任。我們每個人都清楚,我們加入這個團隊是因為我們想為世界做出貢獻。我們還共同承諾將收入的 80% 捐贈給能夠推動社會發展的事業,這是一件大家都毫不猶豫支持的事情:「是的,我們當然會這麼做。」這種信任是非常特別且稀有的。」

Daniela Amodei:「我覺得 Anthropic 是一個政治色彩非常淡薄的公司。當然,我們的視角可能與普通人有所不同,我也時刻提醒自己這一點。我認為,我們的招聘流程和團隊成員的特質,使得這裡的文化幾乎對「辦公室政治」有一種天然的排斥。」

Dario Amodei:「還有團隊的團結性,團隊的團結性至關重要。無論是產品團隊、研究團隊、信任與安全團隊、市場團隊還是政策團隊,大家都在為實現公司同一個目標而努力。當公司內部的不同部門各自追求完全不同的目標時,往往會導致混亂。如果他們認為其他部門在破壞自己的工作,那更是非常不正常的現象。」

我認為,我們最重要的成就之一是成功地保持了公司的整體一致性。像 RSP 這樣的機制在其中發揮了重要作用。這種機制確保了公司內部不是某些部門在製造問題,而其他部門在試圖修復問題,而是所有部門都在履行各自的職能,同時在統一的變革理論 (theory of change) 框架下協同工作。

Chris Olah:「我最初加入 OpenAI 是因为它是一个非营利组织,我可以在那里专注于 AI 安全研究。但随着时间的推移,我逐渐发现这种模式并不完全适合我,这也迫使我做出了一些艰难的决定。在这个过程中,我非常信任 Dario 和 Daniela 的判断,但我并不想离开。因为我认为增加更多的 AI 实验室未必对世界有利,这让我对离开感到非常猶豫。」

当我們最終決定離開時,我對創辦一家公司仍然持保留態度。我曾經主張,我們應該成立一個非營利組織,專注於安全研究。但最終務實的態度和對現實限制的坦承讓我們意識到,創辦 Anthropic 是實現我們目標的最佳方式。

Dario Amodei:「我們早期學到的一個重要教訓是:少做承諾,多兌現承諾。保持現實,直面權衡取捨,因為信任和信譽比任何具體的政策都更加重要。」

Daniela Amodei:Anthropic 的一個獨特之處在於團隊的高度信任和統一性。例如,當我看到 Mike Krieger 因安全原因堅持不發布某些產品時,同時看到 Vinay 在討論如何平衡業務需求以推動項目完成時,我感到非常特別。此外,技術安全團隊、推理團隊的工程師也在討論如何確保產品既安全又實用。這種統一的目標和務實的態度,是 Anthropic 工作環境中最吸引人的地方之一。」

Dario Amodei:一個健康的組織文化在於,每個人都能夠理解並接受共同面臨的權衡取捨。我們生活的世界並不完美,每個決策都需要在不同的利益之間找到平衡,而這種平衡往往不可能完全令人滿意。然而只要整個團隊都能在統一的目標下,共同面對這些權衡,並從各自的崗位出發為整體目標貢獻力量,這才是一個健康的生態系統。」

Sam McCandlish:「從某種意義上來說,這是一場「向上的競賽」。是的,這確實是一場「向上的競賽」。儘管這並不是一個完全沒有風險的選擇,事情可能會出錯,但我們都一致認為:「這就是我們所做的選擇。」」

競逐 AI 的巔峰

Jack Clark:「但市場本質上是務實的,因此,Anthropic 作為一家公司越成功,其他人就越有動力去效法那些讓我們取得成功的做法。而且,當我們的成功與我們在安全領域的實際工作緊密相關時,這種成功會在行業內形成一種『引力』,促使其他公司也參與到這場競爭中。就像我們開發了安全帶,其他公司也可以效法,這是一個健康的生態。」

Dario Amodei:「但是,如果你說:『我們不會開發這項技術,而你也無法比其他人做得更好。』這種方式是行不通的,因為你沒有證明從現狀到未來的路徑是可行的。世界需要的是,無論是行業還是某一家公司,都需要找到一種方法,讓社會能夠從『技術不存在』過渡到『技術以強大的形式存在,並且被社會有效地管理』。我認為,唯一能夠實現這一目標的方式,是在單個公司層面,甚至最終在整個行業層面,直面這些權衡。」

你需要找到一種方法,既能保持競爭力,甚至在某些領域引領行業,同時又能確保技術的安全性。如果你能夠做到這一點,那麼你對行業的吸引力將會非常強大。從監管環境,到希望加入不同公司的優秀人才,甚至到客戶的看法,所有這些因素都會推動行業朝著同樣的方向發展。如果你能夠證明,在不牺牲競爭力的情況下也能實現安全性,也就是說找到那些雙贏的解決方案,那麼其他公司也會受到激勵,效法這種做法。

Jared Kaplan:「我認為,這就是為什麼像 RSP 這樣的機制如此重要的原因。我們能夠清晰地看到技術的發展方向,並意識到需要對某些問題保持高度警惕,但同時我們也必須避免發出『狼來了』的錯誤警報,不能簡單地說:『創新應該在這裡停止。』我們需要找到一種方法,使 AI 技術能夠為客戶帶來有用、創新且令人愉悅的體驗,同時明確我們必須堅持的約束條件,這些條件既能確保系統的安全性,也能讓其他公司相信,他們也可以在安全的前提下實現成功,並與我們競爭。」

Dario Amodei:「幾個月後,隨著我們推出 RSP,三家最知名的 AI 公司也紛紛推出了類似的機制。可解釋性研究是我們另一個取得突破的領域。此外,我們還與 AI 安全研究機構展開合作,這種整體對安全的關注正在產生深遠的影響。」

Jack Clark:「是的,Frontier Red Team 几乎立刻被其他公司模仿了。这是好事,我们希望所有实验室都能测试那些潛在的高風險安全隱患。」

Daniela Amodei:「Jack 之前也提到過,客戶也非常關心安全問題。客戶不希望模型產生虛假資訊,也不希望模型容易被繞過安全限制。他們希望模型是有用且無害的,我們經常在客戶溝通中聽到他們說:「我們選擇 Claude,因為我們知道它更安全。」我認為,這對市場的影響是巨大的。我們能夠提供值得信賴和可靠的模型,這也給競爭對手帶來了不小的市場壓力。」

Chris Olah:「或許可以進一步展開 Dario 剛才的觀點。有一種說法認為,最道德的行為是「高尚的失敗」。也就是說,你應該為了安全而犧牲其他目標,甚至以一種不切實際的方式去行動,以此來展示自己對事業的純粹性。但我認為,這種方式實際上是自我挫敗的。」

首先,這種方式會導致決策權落入那些不重視安全、不優先考慮安全的人手中。而另一方面,如果你努力尋找一種方法,將激勵機制對齊,將艱難的決策放在最有力量支持正確決策的地方,並以最有力的證據為基礎,那麼你就可以觸發 Dario 所描述的「向上的競賽」。在這場競賽中,不是關心安全的人被邊緣化,而是其他人被迫跟隨你的步伐,加入到這場競賽中。

展望人工智慧的未來

Jack Clark:「那麼,對於我們接下來要做的事情,你們都感到興奮的是什麼呢?」

Chris Olah:「我覺得有很多理由可以讓人對可解釋性感到興奮。一個顯然是出於安全的考慮,但還有另一個原因,我覺得在情感層面上,這同樣讓我感到興奮或意義非凡,那就是我認為神經網路非常美妙,而且其中有許多我們還沒有看到的美。我們總是把神經網路當作一個黑盒子,對它的內部結構並不特別感興趣,但當你開始深入研究它們時,會發現它們內部充滿了令人驚嘆的結構。」

這有點像人們看待生物學時的態度,有些人可能會覺得,「進化很無聊,它只是一個簡單的過程,運行了很長時間,然後創造了動物。」但實際上,進化所創造的每一個動物都充滿了令人難以置信的複雜性和結構。而我認為,進化是一種優化過程,就像訓練一個神經網路一樣。神經網路內部也有整個類似於「人工生物學」的複雜結構。如果你願意深入研究它們,你會發現其中有許多令人驚嘆的東西。

我覺得,我們才剛剛開始慢慢揭開它的面紗。它是如此的令人難以置信,裡面有太多東西等待我們去發現。我們才剛剛開始打開它的大門,我覺得接下來的發現會非常精彩和美妙。有時候我會想像,十年後走進一家書店,買一本關於神經網路可解釋性的教科書,或者一本真正講述神經網路「生物學」的書,書中會有各種令人驚嘆的內容。我相信,在未來十年,甚至未來幾年,我們會開始真正地發現這些東西,這將是一次瘋狂而令人驚嘆的旅程。

Jack Clark:「幾年前,如果有人說:「政府將會設立新的機構來測試和評估 AI 系統,而且這些機構會非常專業並發揮作用。」你可能不會相信這是真的。但這已經發生了。可以說,政府已經建立了應對這一新型技術類別的「新大使館」,我很期待看到這會走向何方。我認為,這實際上意味著國家有能力應對這樣的社會轉型,而不僅僅是依靠企業,我很高興能夠參與其中。」

Daniela Amodei:「我現在已經對這一點感到興奮了,但我覺得,僅僅想象一下未來 AI 能夠為人類做些什麼,就很難不感到激動。即使是現在 Claude 能夠幫助開發疫苗、進行癌症研究和生物學研究的跡象,也已經令人感到不可思議。看到它現在能做的事情已經很驚人了,而當我展望未來三到五年時,想象 Claude 能夠真正解決許多我們人類面臨的根本性問題,尤其是在健康領域,也讓我感到非常興奮。回想起我曾經從事國際發展工作的日子,如果當時 Claude 能夠幫助完成我那時效率低下的工作,那將是多麼令人驚嘆的事情。」

Tom Brown:「我想,從個人角度來說,我非常喜歡在工作中使用 Claude。所以,最近我在家裡也經常用 Claude 和它聊一些事情,最近最大的變化是程式碼。六個月前,我還沒有用 Claude 來處理任何編程相關的工作,我們的團隊當時也很少用 Claude 來寫程式,但現在這種情況已經發生了顯著變化。比如,上週我在 Y Combinator 舉辦的一次活動上做了一個演講。剛開始時,我問大家:「現在有多少人用 Claude 來編程?」結果幾乎 95% 的人都舉起了手。幾乎全場的人都舉手了,這和四個月前的情況完全不同。」

Dario Amodei:「當我思考讓我感到興奮的事情時,我會想到比如我之前提到的似乎已經達成共識,但實際上這種共識即將被打破的地方,其中之一就是可解釋性。我認為,可解釋性不僅是引導和確保 AI 系統安全的關鍵,它還包含了關於智能優化問題和人類大腦工作原理的深刻見解,我曾說過 Chris Olah 將來會獲得諾貝爾醫學獎。」

因為我曾經是一名神經科學家,而許多我們尚未解決的心理疾病,比如精神分裂症或情緒障礙,我懷疑它們與某種更高層次的系統問題有關。然而,由於人腦的複雜性和難以直接研究的特性,這些問題很難被完全理解。而神經網路雖然不是一個完美的類比,但它們不像人腦那麼難以解析和互動。隨著時間的推移,神經網路將成為一個更好的類比工具。

另一個相關的領域是 AI 在生物學中的應用。生物學是一個極其複雜的問題,出於多種原因人們對它仍然持懷疑態度,但我認為這種懷疑的共識開始瓦解了。我們已經看到化學領域的諾貝爾獎授予了 AlphaFold,這是一個了不起的成就,我們應該努力開發能夠幫助我們創造出數百個「AlphaFold」的工具。

最後一點是,利用 AI 來增強民主。我們擔心如果 AI 被錯誤地開發,它可能會成為獨裁主義的工具。那麼,如何讓 AI 成為促進自由和自決的工具?我認為,這一領域的發展可能比前兩個領域要早一些,但它的重要性絲毫不亞於前兩者。

Jared Kaplan:「我想至少有兩點可以呼應你之前的觀點。一點是,我覺得很多人之所以加入 Anthropic,是因為他們對 AI 科學抱有極大的好奇心。隨著 AI 技術的進步,他們逐漸認同了我們不僅需要推動技術發展,還需要更深入地理解它,並確保它的安全性。我覺得能夠和越來越多對 AI 發展和責任感有共同願景的人一起工作,是一件令人興奮的事情,而且我覺得過去一年中發生的許多技術進步,確實推動了這種共識的形成。」

另一個方面是,回到實際問題上,我覺得我們在 AI 安全方面已經做了很多工作。但隨著最近的一些發展,我們開始對那些非常高級的系統可能帶來的風險有了一些初步的認識。這使得我們可以通過可解釋性研究和其他類型的安全機制,直接研究並調查這些風險。

通過這種方式,我們能夠更清晰地了解高級 AI 系統可能帶來的風險,這將使我們能夠以更加科學和實證的方式推進我們的使命。因此,我對接下來六個月感到非常興奮,我們將利用對高級系統潛在問題的理解,進一步研究並找到避免這些陷阱的方法。

原視頻鏈接

猜你喜歡

# 大規模駭客攻擊揭露 Drip Protocol 的中央化風險

關鍵要點 Drift Protocol 遭受 2 億 7 千萬美元的駭客攻擊,成為 Solana 生態系統歷史上第二大攻擊事件。 Hayden Adams 指出,所謂去中心化金融(DeFi)若具備集中的控制鍵,事實上即為中心化金融(CeFi)。 Omer Goldberg 說明 Drift Protocol…

## Detailed Outline

H1: 惡意攻擊奪取 Drift Protocol 控制權 H2: 發現攻擊事件經過 H3: 攻擊者的策略與方法 – H4: 利用耐久性隨機數的新型攻擊手法 – H4: 多重簽名交易和社交工程的結合 H3: 受影響的資產 –…

# 文章大綱

H1: Upbit與Bithumb將DRIFT列為交易警報資產 H2: 事件背景 H3: 交易警報標註的啟示 H3: DRIFT交易警報的原因 H2: 影響及措施 H3: 交易所暫停DRIFT存取款服務 H3: 未來的服務恢復計劃 H2: Upbit與Bithumb概覽 H3: Upbit的市場地位…

## Key Takeaways

Outline H1: 巨額以太坊槓桿多單命懸一線 – H2: Key Takeaways – H2: 分析借鑑—巨額槓桿和清算風險 – H3: 槓桿交易的背後 – H3: 多頭倉位的危險境地 – H2:…

## Outline

介紹與背景 – H1: Solana的Drift協議攻擊事件 – H2: 攻擊概述 – H2: 事件前後的市場反應 Wormhole在事件中的角色 – H2: Wormhole如何保障用戶資產 – H3: 跨鏈橋的功能狀況 –…

## Outline

H1: Bitget Launchpool和MEZO項目高收益亮相 H2: Bitget Launchpool概述 – H3: Bitget Launchpool是什麼? – H4: 操作過程和用戶條款 – H3: 使用者如何參與? – H4:…

熱門幣種

最新加密貨幣要聞

閱讀更多