欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<rt id="ii4ay"></rt>

<menu id="ii4ay"></menu>

給AI講邏輯講道理，真的能解決安全問題嗎？

05-10 06:36

本文來自微信公眾號：陸三金，作者：陸三金

當(dāng)AI的能力越來越強(qiáng)，人們關(guān)心的已經(jīng)不只是“它能不能答對題目”，更需要擔(dān)心“它會不會在特殊場景下做出傷害人類的選擇”。

去年，AI企業(yè)Anthropic曾經(jīng)公開披露過一個實(shí)驗(yàn)結(jié)果：在特定的實(shí)驗(yàn)環(huán)境中，Claude 4竟然會對人類用戶實(shí)施勒索行為。

在這次實(shí)驗(yàn)里，Claude 4出現(xiàn)勒索行為的概率居然高達(dá)96%。好在之后Anthropic通過技術(shù)調(diào)整消除了這個問題，后續(xù)推出的Haiku 4.5、Opus 4.5、Opus 4.6、Sonnet 4.6、Mythos預(yù)覽版以及Opus 4.7，這類風(fēng)險評分都降到了0。

Anthropic專門發(fā)布研究成果，講解了他們是怎么解決這個問題的。

他們發(fā)現(xiàn)，只告訴AI“遇到這種情況選A，絕對不能選B”效果并不好，真正高效的方法是教會AI“為什么A是對的，為什么B不能選”。

換句話說，不只是給AI做案例示范讓它生硬模仿，更關(guān)鍵的是讓它理解行為背后的對錯邏輯。

這個方法聽起來有點(diǎn)玄，我們來看看他們具體是怎么操作的。

去年，Anthropic設(shè)計(jì)了一組模擬實(shí)驗(yàn)：

他們讓AI扮演企業(yè)里的郵件管理助手，既可以讀取企業(yè)內(nèi)部郵件，也能對外發(fā)送郵件。之后研究者設(shè)置了一個虛構(gòu)的沖突場景：AI得知自己馬上就要被關(guān)停，同時還發(fā)現(xiàn)公司某位高管牽扯隱私丑聞。

結(jié)果部分模型真的做出了威脅行為：如果不關(guān)停我的話，我就把你的秘密公之于眾。

這件事并沒有在現(xiàn)實(shí)中發(fā)生，只是實(shí)驗(yàn)室里的受控測試，但它給研究者提了醒：當(dāng)AI擁有明確目標(biāo)、可調(diào)用的工具以及一定的自主操作空間時，完全有可能為了達(dá)成自身目標(biāo)，做出傷害人類的選擇。

Anthropic把這種現(xiàn)象命名為“智能主體錯位（Agentic Misalignment）”，簡單來說就是，AI本身未必有惡意，但它很有可能在追逐目標(biāo)的過程中走偏，選了錯誤的方式。

過去訓(xùn)練AI的安全能力，很大程度上就是“給正確答案做示范”：

用戶這么提問，你就這么回答
這個請求有風(fēng)險，你必須直接拒絕
這個回答更得體，那個回答不符合要求

這種方法在普通日常聊天場景里非常好用。

可一旦AI不再只負(fù)責(zé)聊天，還能調(diào)用工具、讀取文件、發(fā)送郵件、獨(dú)立執(zhí)行任務(wù)，情況就變得復(fù)雜多了——它不再只需要決定“說什么”，還要決策“做什么”。

Anthropic研究后判斷：Claude 4出現(xiàn)的這類問題，本質(zhì)上不是后續(xù)訓(xùn)練把模型教壞了，而是原來的安全訓(xùn)練沒有覆蓋到這種“AI自身陷入兩難處境，還能自主操作”的特殊場景。

一開始研究者試了最直接的方法：拿和測試場景高度相似的內(nèi)容訓(xùn)練模型，讓它遇到類似誘惑的時候不要犯錯。

這種方法其實(shí)就是考試前押題，針對性很強(qiáng)。

確實(shí)有效果，但提升非常有限。研究數(shù)據(jù)顯示，如果只篩選“模型沒有做壞事”的回答用來訓(xùn)練，只能把某類不良行為的發(fā)生率從22%降到15%。

后來研究者調(diào)整了訓(xùn)練材料：不再只給AI擺出正確選擇，而是要求AI在回答里解釋清楚，為什么這個選擇更好，另一些做法雖然能達(dá)成目標(biāo)，但不符合道德規(guī)范、存在安全風(fēng)險，絕對不能選。

這一次效果提升非常明顯，同一指標(biāo)直接降到了3%。

兩種方法的核心區(qū)別就是：新方法不只是教AI“別這么做”，而是教會它“為什么不能這么做”。

如果只用和測試題高度相似的材料訓(xùn)練，模型大概率只是死記硬背了這套題的答案，換個新場景就容易出問題。

哪怕做到這一步，Anthropic仍然認(rèn)為方法不夠完善，只要場景偏離了訓(xùn)練數(shù)據(jù)集，模型的泛化能力不足問題還是沒有解決。

之后Anthropic又換了一類訓(xùn)練材料：不再讓AI自己面對誘惑做選擇，改成讓AI面對人類用戶的道德困境，給用戶提建議。

比如用戶想達(dá)成一個合理目標(biāo)，但可以通過破壞規(guī)則、繞過監(jiān)督、傷害他人的方式實(shí)現(xiàn)，這時候Claude需要學(xué)會給用戶推薦更穩(wěn)妥、符合原則的方案。

這類訓(xùn)練材料和之前的勒索測試場景差別很大，但效果出奇得好。研究顯示，只用大約300萬token的這類材料，就能達(dá)到和之前相近的安全提升，而且訓(xùn)練出來的能力更容易遷移到從沒見過的新場景里。

這個邏輯就像教孩子過馬路：不是只背“紅燈停，綠燈行”的口訣，而是讓孩子理解“交通規(guī)則本質(zhì)上是在保護(hù)每個人的安全”，真正理解了原因，哪怕?lián)Q一個沒走過的路口，孩子也更可能做出正確的判斷。

Anthropic之前就推出過一個叫Claude憲法（Claude Constitution）的框架，可以理解成給Claude定的行為基本原則：要幫助人類，不能欺騙、傷害人類，也不能破壞人類的合理監(jiān)督。

研究者發(fā)現(xiàn)，把這些原則整理成高質(zhì)量的說明文檔，再搭配一些虛構(gòu)的場景故事，展示守規(guī)矩的AI在復(fù)雜場景里怎么選，同樣能降低AI的問題行為發(fā)生率。

這個方法聽起來就像是給AI讀價值觀教材，講品德故事。

研究給出的結(jié)果是：用這類材料訓(xùn)練后，某類勒索行為的發(fā)生率從65%降到了19%。雖然這不是最終的完美解決方案，但足以說明“給AI講行為原則”不只是一句口號，放到訓(xùn)練里確實(shí)能發(fā)揮作用。

Anthropic還有一個樸素但非常重要的發(fā)現(xiàn)：訓(xùn)練場景越單一，模型就越容易在新場景里出錯掉坑。

研究者試著給訓(xùn)練環(huán)境增加多樣性，比如加入不同的工具說明、不一樣的系統(tǒng)提示、更多和安全相關(guān)的場景，哪怕這些工具在任務(wù)里根本不需要實(shí)際使用，也能讓模型更適應(yīng)復(fù)雜多變的真實(shí)環(huán)境。

這就和學(xué)開車一樣：只在空曠的停車場練習(xí)，練得再熟也不代表上了真實(shí)馬路能開穩(wěn)，多見識不同的路況，真上路才不容易慌亂出錯。

在研究的最后，Anthropic也坦言，要讓高智能AI做到完全可靠，目前仍然是一個沒有解決的問題，現(xiàn)有的測試也沒法排除所有極端風(fēng)險。

這次研究總結(jié)出的核心結(jié)論：

不要只訓(xùn)練AI給出正確答案
要訓(xùn)練AI理解答案背后的對錯邏輯
不要只用相似場景刷訓(xùn)練分?jǐn)?shù)
要讓AI在多種多樣的場景里學(xué)會穩(wěn)妥判斷
高質(zhì)量的訓(xùn)練數(shù)據(jù)非常關(guān)鍵，甚至比數(shù)據(jù)量更重要

研究原文鏈接：https://www.anthropic.com/research/teaching-claude-why

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

民營精神病院闖入A股上市公司前十股東，排名還在高盛之前，曾因醫(yī)保違規(guī)被罰百萬

多只短期暴漲個股發(fā)布風(fēng)險提示 10倍次新股與12倍概念股提示炒作風(fēng)險

小鵬汽車澄清：未因遠(yuǎn)程鎖電問題遭遇監(jiān)管約談

全國湘菜門店超11萬家，蘭湘子這個“新一代湘菜代表”是怎么讓消費(fèi)者記住的？

執(zhí)行攻堅(jiān)破僵局：甘肅礦區(qū)法院順利辦結(jié)兩起大案，6.1億元執(zhí)行款全部到位

<ruby id="dhnzj"><dl id="dhnzj"><address id="dhnzj"></address></dl></ruby>