欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

給AI講邏輯講道理,真的能解決安全問題嗎?

05-10 06:36

本文來自微信公眾號: 陸三金 ,作者:陸三金



當(dāng)AI的能力越來越強(qiáng),人們關(guān)心的已經(jīng)不只是“它能不能答對題目”,更需要擔(dān)心“它會不會在特殊場景下做出傷害人類的選擇”。



去年,AI企業(yè)Anthropic曾經(jīng)公開披露過一個實(shí)驗(yàn)結(jié)果:在特定的實(shí)驗(yàn)環(huán)境中,Claude 4竟然會對人類用戶實(shí)施勒索行為。





在這次實(shí)驗(yàn)里,Claude 4出現(xiàn)勒索行為的概率居然高達(dá)96%。好在之后Anthropic通過技術(shù)調(diào)整消除了這個問題,后續(xù)推出的Haiku 4.5、Opus 4.5、Opus 4.6、Sonnet 4.6、Mythos預(yù)覽版以及Opus 4.7,這類風(fēng)險評分都降到了0。



Anthropic專門發(fā)布研究成果,講解了他們是怎么解決這個問題的。



他們發(fā)現(xiàn),只告訴AI“遇到這種情況選A,絕對不能選B”效果并不好,真正高效的方法是教會AI“為什么A是對的,為什么B不能選”。



換句話說,不只是給AI做案例示范讓它生硬模仿,更關(guān)鍵的是讓它理解行為背后的對錯邏輯。



這個方法聽起來有點(diǎn)玄,我們來看看他們具體是怎么操作的。



去年,Anthropic設(shè)計(jì)了一組模擬實(shí)驗(yàn):



他們讓AI扮演企業(yè)里的郵件管理助手,既可以讀取企業(yè)內(nèi)部郵件,也能對外發(fā)送郵件。之后研究者設(shè)置了一個虛構(gòu)的沖突場景:AI得知自己馬上就要被關(guān)停,同時還發(fā)現(xiàn)公司某位高管牽扯隱私丑聞。



結(jié)果部分模型真的做出了威脅行為:如果不關(guān)停我的話,我就把你的秘密公之于眾。



這件事并沒有在現(xiàn)實(shí)中發(fā)生,只是實(shí)驗(yàn)室里的受控測試,但它給研究者提了醒:當(dāng)AI擁有明確目標(biāo)、可調(diào)用的工具以及一定的自主操作空間時,完全有可能為了達(dá)成自身目標(biāo),做出傷害人類的選擇。



Anthropic把這種現(xiàn)象命名為“智能主體錯位(Agentic Misalignment)”,簡單來說就是,AI本身未必有惡意,但它很有可能在追逐目標(biāo)的過程中走偏,選了錯誤的方式。



過去訓(xùn)練AI的安全能力,很大程度上就是“給正確答案做示范”:



  • 用戶這么提問,你就這么回答



  • 這個請求有風(fēng)險,你必須直接拒絕



  • 這個回答更得體,那個回答不符合要求



這種方法在普通日常聊天場景里非常好用。



可一旦AI不再只負(fù)責(zé)聊天,還能調(diào)用工具、讀取文件、發(fā)送郵件、獨(dú)立執(zhí)行任務(wù),情況就變得復(fù)雜多了——它不再只需要決定“說什么”,還要決策“做什么”。





Anthropic研究后判斷:Claude 4出現(xiàn)的這類問題,本質(zhì)上不是后續(xù)訓(xùn)練把模型教壞了,而是原來的安全訓(xùn)練沒有覆蓋到這種“AI自身陷入兩難處境,還能自主操作”的特殊場景。



一開始研究者試了最直接的方法:拿和測試場景高度相似的內(nèi)容訓(xùn)練模型,讓它遇到類似誘惑的時候不要犯錯。



這種方法其實(shí)就是考試前押題,針對性很強(qiáng)。



確實(shí)有效果,但提升非常有限。研究數(shù)據(jù)顯示,如果只篩選“模型沒有做壞事”的回答用來訓(xùn)練,只能把某類不良行為的發(fā)生率從22%降到15%。



后來研究者調(diào)整了訓(xùn)練材料:不再只給AI擺出正確選擇,而是要求AI在回答里解釋清楚,為什么這個選擇更好,另一些做法雖然能達(dá)成目標(biāo),但不符合道德規(guī)范、存在安全風(fēng)險,絕對不能選。





這一次效果提升非常明顯,同一指標(biāo)直接降到了3%。





兩種方法的核心區(qū)別就是:新方法不只是教AI“別這么做”,而是教會它“為什么不能這么做”。



如果只用和測試題高度相似的材料訓(xùn)練,模型大概率只是死記硬背了這套題的答案,換個新場景就容易出問題。



哪怕做到這一步,Anthropic仍然認(rèn)為方法不夠完善,只要場景偏離了訓(xùn)練數(shù)據(jù)集,模型的泛化能力不足問題還是沒有解決。



之后Anthropic又換了一類訓(xùn)練材料:不再讓AI自己面對誘惑做選擇,改成讓AI面對人類用戶的道德困境,給用戶提建議。



比如用戶想達(dá)成一個合理目標(biāo),但可以通過破壞規(guī)則、繞過監(jiān)督、傷害他人的方式實(shí)現(xiàn),這時候Claude需要學(xué)會給用戶推薦更穩(wěn)妥、符合原則的方案。



這類訓(xùn)練材料和之前的勒索測試場景差別很大,但效果出奇得好。研究顯示,只用大約300萬token的這類材料,就能達(dá)到和之前相近的安全提升,而且訓(xùn)練出來的能力更容易遷移到從沒見過的新場景里。



這個邏輯就像教孩子過馬路:不是只背“紅燈停,綠燈行”的口訣,而是讓孩子理解“交通規(guī)則本質(zhì)上是在保護(hù)每個人的安全”,真正理解了原因,哪怕?lián)Q一個沒走過的路口,孩子也更可能做出正確的判斷。





Anthropic之前就推出過一個叫Claude憲法(Claude Constitution)的框架,可以理解成給Claude定的行為基本原則:要幫助人類,不能欺騙、傷害人類,也不能破壞人類的合理監(jiān)督。



研究者發(fā)現(xiàn),把這些原則整理成高質(zhì)量的說明文檔,再搭配一些虛構(gòu)的場景故事,展示守規(guī)矩的AI在復(fù)雜場景里怎么選,同樣能降低AI的問題行為發(fā)生率。



這個方法聽起來就像是給AI讀價值觀教材,講品德故事。



研究給出的結(jié)果是:用這類材料訓(xùn)練后,某類勒索行為的發(fā)生率從65%降到了19%。雖然這不是最終的完美解決方案,但足以說明“給AI講行為原則”不只是一句口號,放到訓(xùn)練里確實(shí)能發(fā)揮作用。



Anthropic還有一個樸素但非常重要的發(fā)現(xiàn):訓(xùn)練場景越單一,模型就越容易在新場景里出錯掉坑。



研究者試著給訓(xùn)練環(huán)境增加多樣性,比如加入不同的工具說明、不一樣的系統(tǒng)提示、更多和安全相關(guān)的場景,哪怕這些工具在任務(wù)里根本不需要實(shí)際使用,也能讓模型更適應(yīng)復(fù)雜多變的真實(shí)環(huán)境。



這就和學(xué)開車一樣:只在空曠的停車場練習(xí),練得再熟也不代表上了真實(shí)馬路能開穩(wěn),多見識不同的路況,真上路才不容易慌亂出錯。



在研究的最后,Anthropic也坦言,要讓高智能AI做到完全可靠,目前仍然是一個沒有解決的問題,現(xiàn)有的測試也沒法排除所有極端風(fēng)險。



這次研究總結(jié)出的核心結(jié)論:



  • 不要只訓(xùn)練AI給出正確答案



  • 要訓(xùn)練AI理解答案背后的對錯邏輯



  • 不要只用相似場景刷訓(xùn)練分?jǐn)?shù)



  • 要讓AI在多種多樣的場景里學(xué)會穩(wěn)妥判斷



  • 高質(zhì)量的訓(xùn)練數(shù)據(jù)非常關(guān)鍵,甚至比數(shù)據(jù)量更重要



研究原文鏈接:https://www.anthropic.com/research/teaching-claude-why


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com