DeepSeek V4評測曝光:距美國頂尖模型差距8個月,國產AI已迎來百花齊放
本文來自微信公眾號:特大號,作者:小黑羊
在DeepSeek發(fā)布全新V4版本模型后,美國官方AI評測與標準機構CAISI對外放出了一份針對性評測報告。
根據這份評測給出的結果,當前DeepSeek的能力,已經落后于美國頂尖閉源大模型大約8個月。

評測給出的這張趨勢圖其實很能說明問題:圖中橫軸是各個模型的發(fā)布時間,縱軸則是模型的綜合能力評分。
從圖中能很清楚看到,剛剛正式發(fā)布的DeepSeek V4 Pro,整體綜合能力只相當于美國去年8月推出的GPT5的水平。
更值得關注的是模型能力迭代曲線的斜率,美國頭部模型的曲線明顯更陡峭,這也意味著兩者之間的差距還在持續(xù)被拉大。
DeepSeek的差距到底出現在哪些地方?
看這份細分能力評分表就能一目了然。
DeepSeek在數學、自然科學、基礎代碼能力這些維度,其實和GPT、Claude等美國頂尖模型處于同一水平,但是在網絡安全、復雜工程落地、抽象推理這類領域,差距就非常明顯了。

所以也有人形容,DeepSeek更像是大家所說的「小鎮(zhèn)做題家」:理科基礎扎實、刷訓練數據效率高,基礎代碼編寫能力也不錯,但一進入復雜的真實實戰(zhàn)場景,能力短板就會凸顯出來。
而對企業(yè)級落地場景來說,不管是代碼開發(fā)還是智能體應用,想要真正投入使用,都非常依賴復雜軟件工程能力和抽象推理能力。
另外還有網絡安全能力,本身就非常依賴真實實戰(zhàn)積累,在這個領域DeepSeek的短板確實相當突出。
這些差距的形成,其實是多方面因素導致的↓
首先一點,我們必須承認,目前國內在訓練算力和硬件生態(tài)方面,確實和頭部水平存在代差。
就比如數學能力,完全可以通過高質量合成數據搭配強化學習快速提升,就像學生刷題一樣,只要多練、找對方法,很容易拿到好成績。
但復雜工程、網絡安全、智能體這類任務,不僅需要訓練模型本身,還要搭建大量真實運行環(huán)境、自動評測沙盒等配套設施,這就相當于實戰(zhàn)演練,早就脫離了書本課堂的范圍,也遠比刷題更消耗算力和工程資源。
第二點,缺少高質量的真實實戰(zhàn)數據積累。
數學題、競賽題、科學問答這類數據,本身很容易做標準化處理,獲取門檻不高。
但網絡安全和復雜軟件工程不一樣,這類領域需要大量真實代碼倉庫、項目issue、依賴運行環(huán)境、完整漏洞鏈路、實際調試過程這類數據,這種真實工作流程數據的積累,我們目前還差得比較多。
第三點,可以說成也MoE,敗也MoE。
MoE架構的模型確實有很多優(yōu)勢,比如同等參數量下性價比更高,但面對高度連續(xù)、長鏈路、跨領域的任務,MoE架構會面臨更大的挑戰(zhàn),輸出穩(wěn)定性不如稠密模型。
從某種程度上來說,傳統(tǒng)稠密模型的綜合能力會更強,而國內模型選擇MoE架構其實也和第一點原因息息相關——畢竟我們確實缺算力,MoE是更貼合現有條件的選擇。
第四點,開源其實是一把雙刃劍。
閉源模型的優(yōu)勢在于它是黑盒,可以把推理成本、系統(tǒng)復雜度、多模型組合方案、工具鏈、檢索系統(tǒng)、隱藏推理策略這些優(yōu)化都放在API后端,用戶看不到。
甚至說不定當用戶提出安全需求的時候,閉源模型背后還有專業(yè)的人工安全專家提供支持。
簡單來說,閉源黑盒的內部可以隱藏很多外人不知道的組合優(yōu)化手段,比如多模型路由調度、工具執(zhí)行器、安全過濾模塊等等。
但像DeepSeek這種開放權重的開源模型,幾乎是把所有能力明明白白擺出來,大家能直接接觸到的基本上就是原生裸模型的能力,沒辦法像閉源模型那樣,把大量后端優(yōu)化方案打包進去提升表現。
這也就導致,在智能體、網絡安全、復雜工程這類任務上,閉源黑盒模型天然就更容易拿到更高的評測分數。
最后還有兩點需要理清↓
第一,我們不需要過度盲從這份報告的結論,還要看評測機構的立場和評測維度偏向。
CAISI的這份評測本身就帶有比較明顯的美式敘事偏向,更側重網絡安全、軟件工程、抽象推理這些領域。
如果換一個評測維度,看中文場景適配、企業(yè)私有化部署、低成本推理、國產硬件適配、開源生態(tài)價值這些方向,DeepSeek的優(yōu)勢會立刻顯現出來。
第二,不用只把目光盯在DeepSeek身上,現在能代表國產AI力量的大模型,已經可以組團出戰(zhàn)了。
過去一年里,DeepSeek是國產開源大模型的一面旗幟,吸引了所有人的目光,也扛著「國產模型不能輸、開源模型不能輸」的壓力,負擔實在太重了。
但進入今年之后,DeepSeek肩上的重擔其實可以慢慢卸下來了,一大批國產大模型已經開始接棒,共同扛起國產AI發(fā)展的大旗。
Kimi2.6、GLM5.1、Mimo2.5、Minimax2.7、Qwen3.6…越來越多的國產模型已經成長起來。
國產開源大模型也從之前DeepSeek一枝獨秀的階段,走到了現在百花齊放的新階段,各個模型都有自己的特色和優(yōu)勢。
而且這一波國產模型的集體成長,和2024年的百模大戰(zhàn)不一樣,經過洗牌留下來的這些模型,每一個都有過硬的實力,不管是實戰(zhàn)表現還是市場口碑,都不輸給DeepSeek。
比如在Artificial Analysis的模型性能總榜單里,DeepSeek V4 Pro僅僅排在國產開源模型的第四位,Kimi k2.6、Mimo-V2.5、Qwen3.6的排名都在它前面。

再看另一份LmArena的代碼模型榜單,DeepSeek V4 Pro也只排在總榜的第15名。
國產模型里GLM-5.1排在第5、Kimi-k2.6排在第7、小米2.5 Pro排在第11、Qwen3.6-Plus排在第12,表現都比DeepSeek V4 Pro更好。

這也讓人想起DeepSeek V4發(fā)布時,官方在公告結尾引用的荀子名句↓
「不誘于譽,不恐于誹,率道而行,端然正己?!?/p>
當DeepSeek慢慢走出被神化的位置時,恰恰就是國產大模型各自突破、集體向前邁進的時候。
靜水流深,未來可期!
本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。
免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com







