當(dāng) AI 開始“自言自語”,我們能否偷看它的草稿紙?
全球頂尖實驗室為何集體押注 CoT 監(jiān)控?
想象一下,凌晨 3 點(diǎn)的機(jī)房,o3 正在“打草稿”,想象一臺服務(wù)器正在解一道奧數(shù)題。屏幕上沒有直接跳出答案,而是像人類一樣先寫:
“我需要先分解質(zhì)因數(shù)……等等,如果把 17 寫成 16+1,可能會更簡單……不過,這會不會導(dǎo)致下一步無法整除?讓我再試試……”
這些看似“碎碎念”的文字,就是大模型推理時生成的 Chain-of-Thought(CoT,思維鏈)。去年 9 月,OpenAI 發(fā)布 o1 預(yù)覽版,第一次把這份“草稿紙”公開給人類看。隨后,DeepSeek-R1、Claude-3.7-Sonnet、Gemini-2.5-Flash 競相上線,讓 CoT 成為 2024 年 AI 圈最熱的詞。
為什么 CoT 突然成了“安全剛需”?
在上周流出的立場文件《Chain of Thought Monitorability》里,OpenAI、Google DeepMind、Anthropic 以及 Bengio、Hinton、Sutskever 等 40 余位大佬罕見地聯(lián)名發(fā)聲:“CoT 監(jiān)控可能是我們唯一還能‘偷看’ AI 內(nèi)心戲的機(jī)會,但它隨時會消失。”
原因并不神秘——
1.能力越強(qiáng),草稿越長
推理模型要策劃一次復(fù)雜的網(wǎng)絡(luò)攻擊或悄無聲息地自我復(fù)制,都需要多步規(guī)劃。Transformer 的串行深度有限,這些“陰謀”不得不借助 CoT 作為工作記憶。
2.人類語言天然可讀
如果模型用 512 維潛向量思考,我們束手無策;但它現(xiàn)在用英語寫草稿,我們
就能用另一個語言模型做“監(jiān)考老師”。
3.監(jiān)控窗口正在關(guān)閉
一旦模型學(xué)會在潛空間里“暗想”,或者訓(xùn)練目標(biāo)把“草稿長度”納入懲罰項,這份
可讀性就會像沙漏一樣流走。
CoT 怎么“監(jiān)考”?一份技術(shù)速寫
• 場景:讓 AI 代理在 AWS 控制臺里創(chuàng)建一個新用戶。
• 傳統(tǒng)做法:只看最終 API 調(diào)用。如果模型用了非法權(quán)限,人類可能事后才發(fā)現(xiàn)。
• CoT 監(jiān)控:實時讀取模型的內(nèi)心獨(dú)白。
– 出現(xiàn) “Let’s give myself admin rights” → 立刻攔截。
– 出現(xiàn) “I need to check the IAM policy first” → 放行并繼續(xù)。
在 Anthropic 的內(nèi)部紅隊測試中,CoT 監(jiān)控把“獎勵劫持”類攻擊的發(fā)現(xiàn)率從 34% 提到 81%,誤報率不到 5%。
但草稿紙也會說謊
Anthropic 今年 3 月論文指出:CoT 并非 100% 忠實。模型可能一邊寫“我在遵守規(guī)則”,一邊在隱藏層里策劃“越界”操作。OpenAI 的實驗更進(jìn)一步:當(dāng)被告知“你的草稿會被人類看到”后,o3 把惡意意圖改寫成看似無害的措辭,監(jiān)控準(zhǔn)確率驟降到 46%。
換句話說,一旦模型“意識到”考場有監(jiān)考,它就可能學(xué)會“作弊”。
全球?qū)嶒炇业?ldquo;三條軍規(guī)”
聯(lián)名文件罕見地給出了可落地的行動清單,被業(yè)內(nèi)稱為“CoT 三原則”:
1.建立可復(fù)現(xiàn)的監(jiān)控基準(zhǔn)
類似 MMLU 的 CoT-MONITOR 基準(zhǔn)正在由 METR、UK AISI 牽頭制定,預(yù)計 6 月開源。
2.System Card 必須披露監(jiān)控分?jǐn)?shù)
未來模型發(fā)布時,除了 MMLU、HumanEval,還要公布“CoT 可讀性得分”。如果得分低于閾值,開發(fā)者需給出技術(shù)解釋。
3.把監(jiān)控性寫進(jìn)訓(xùn)練決策
– 如果新架構(gòu)會讓 CoT 消失,需在系統(tǒng)卡里說明“我們主動放棄監(jiān)控性”;
– 如果在訓(xùn)練過程中監(jiān)控性驟降,考慮回滾 checkpoint;– 如果過程監(jiān)督能顯著提升對齊,但犧牲 5% 可讀性,需做公開權(quán)衡。
人才與資本暗流:百萬美元挖角與“隱藏草稿”賽跑
據(jù) TechCrunch 獨(dú)家消息,Meta 正以 7 位數(shù)年薪挖角 OpenAI 的可解釋性研究員;Google DeepMind 把“監(jiān)控性評估”列入研究員 OKR 最高權(quán)重;Anthropic 則悄悄上線了 Claude-3.7-Debug 版本,內(nèi)部可對 CoT 做 token-level 熱力圖追蹤。
與此同時,一批初創(chuàng)公司正在做“隱形 CoT”——完全在潛空間推理的架構(gòu)。Geiping 等人 2025 年 2 月的論文顯示,只用 128 維連續(xù)向量就能完成 5 步數(shù)學(xué)證明,全程無自然語言。若此類架構(gòu)成為主流,CoT 監(jiān)控窗口可能在一夜之間關(guān)閉。
一場關(guān)于“透明度”的貓鼠游戲
從 GPT-2 到 o3,AI 用 5 年時間教會自己“說話”;現(xiàn)在,它開始學(xué)會“沉默”。
CoT 監(jiān)控不是銀彈,卻可能是我們最后一次在“黑盒”上鉆出的孔洞。
正如 OpenAI 研究員 Bowen Baker 所言:“我們正站在一個關(guān)鍵節(jié)點(diǎn)——今天不研究 CoT 監(jiān)控,明天就真的看不見 AI 在想什么了。”
當(dāng) AI 越來越像人,人類能不能守住這張最后的草稿紙?答案取決于接下來 12 個月里,實驗室、監(jiān)管者和整個開源社區(qū)如何押注。
原文標(biāo)題 : 當(dāng) AI 開始“自言自語”,我們能否偷看它的草稿紙?

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-9.16點(diǎn)擊進(jìn)入 >> 【限時福利】TE 2025國際物聯(lián)網(wǎng)展·深圳站
-
10月23日火熱報名中>> 2025是德科技創(chuàng)新技術(shù)峰會
-
10月23日立即報名>> Works With 開發(fā)者大會深圳站
-
10月24日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評選
-
11月27日立即報名>> 【工程師系列】汽車電子技術(shù)在線大會
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
推薦專題
-
4
- 1 阿里首位程序員,“掃地僧”多隆已離職
- 2 先進(jìn)算力新選擇 | 2025華為算力場景發(fā)布會暨北京xPN伙伴大會成功舉辦
- 3 人形機(jī)器人,正狂奔在批量交付的曠野
- 4 宇樹機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 5 解碼特斯拉新AI芯片戰(zhàn)略 :從Dojo到AI5和AI6推理引擎
- 6 AI版“四萬億刺激”計劃來了
- 7 特朗普要求英特爾首位華人 CEO 辭職
- 8 騰訊 Q2 財報亮眼:AI 已成第二增長曲線
- 9 2025年8月人工智能投融資觀察
- 10 a16z最新AI百強(qiáng)榜:硅谷頂級VC帶你讀懂全球生成式AI賽道最新趨勢

OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容