欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<rt id="ii4ay"></rt>

<menu id="ii4ay"></menu>

<dfn id="6ntxy"></dfn>

DeepSeek V4評測曝光：距美國頂尖模型差距8個月，國產AI已迎來百花齊放

05-03 06:33

本文來自微信公眾號：特大號，作者：小黑羊

在DeepSeek發(fā)布全新V4版本模型后，美國官方AI評測與標準機構CAISI對外放出了一份針對性評測報告。

根據這份評測給出的結果，當前DeepSeek的能力，已經落后于美國頂尖閉源大模型大約8個月。

評測給出的這張趨勢圖其實很能說明問題：圖中橫軸是各個模型的發(fā)布時間，縱軸則是模型的綜合能力評分。

從圖中能很清楚看到，剛剛正式發(fā)布的DeepSeek V4 Pro，整體綜合能力只相當于美國去年8月推出的GPT5的水平。

更值得關注的是模型能力迭代曲線的斜率，美國頭部模型的曲線明顯更陡峭，這也意味著兩者之間的差距還在持續(xù)被拉大。

DeepSeek的差距到底出現在哪些地方？

看這份細分能力評分表就能一目了然。

DeepSeek在數學、自然科學、基礎代碼能力這些維度，其實和GPT、Claude等美國頂尖模型處于同一水平，但是在網絡安全、復雜工程落地、抽象推理這類領域，差距就非常明顯了。

所以也有人形容，DeepSeek更像是大家所說的「小鎮(zhèn)做題家」：理科基礎扎實、刷訓練數據效率高，基礎代碼編寫能力也不錯，但一進入復雜的真實實戰(zhàn)場景，能力短板就會凸顯出來。

而對企業(yè)級落地場景來說，不管是代碼開發(fā)還是智能體應用，想要真正投入使用，都非常依賴復雜軟件工程能力和抽象推理能力。

另外還有網絡安全能力，本身就非常依賴真實實戰(zhàn)積累，在這個領域DeepSeek的短板確實相當突出。

這些差距的形成，其實是多方面因素導致的↓

首先一點，我們必須承認，目前國內在訓練算力和硬件生態(tài)方面，確實和頭部水平存在代差。

就比如數學能力，完全可以通過高質量合成數據搭配強化學習快速提升，就像學生刷題一樣，只要多練、找對方法，很容易拿到好成績。

但復雜工程、網絡安全、智能體這類任務，不僅需要訓練模型本身，還要搭建大量真實運行環(huán)境、自動評測沙盒等配套設施，這就相當于實戰(zhàn)演練，早就脫離了書本課堂的范圍，也遠比刷題更消耗算力和工程資源。

第二點，缺少高質量的真實實戰(zhàn)數據積累。

數學題、競賽題、科學問答這類數據，本身很容易做標準化處理，獲取門檻不高。

但網絡安全和復雜軟件工程不一樣，這類領域需要大量真實代碼倉庫、項目issue、依賴運行環(huán)境、完整漏洞鏈路、實際調試過程這類數據，這種真實工作流程數據的積累，我們目前還差得比較多。

第三點，可以說成也MoE，敗也MoE。

MoE架構的模型確實有很多優(yōu)勢，比如同等參數量下性價比更高，但面對高度連續(xù)、長鏈路、跨領域的任務，MoE架構會面臨更大的挑戰(zhàn)，輸出穩(wěn)定性不如稠密模型。

從某種程度上來說，傳統(tǒng)稠密模型的綜合能力會更強，而國內模型選擇MoE架構其實也和第一點原因息息相關——畢竟我們確實缺算力，MoE是更貼合現有條件的選擇。

第四點，開源其實是一把雙刃劍。

閉源模型的優(yōu)勢在于它是黑盒，可以把推理成本、系統(tǒng)復雜度、多模型組合方案、工具鏈、檢索系統(tǒng)、隱藏推理策略這些優(yōu)化都放在API后端，用戶看不到。

甚至說不定當用戶提出安全需求的時候，閉源模型背后還有專業(yè)的人工安全專家提供支持。

簡單來說，閉源黑盒的內部可以隱藏很多外人不知道的組合優(yōu)化手段，比如多模型路由調度、工具執(zhí)行器、安全過濾模塊等等。

但像DeepSeek這種開放權重的開源模型，幾乎是把所有能力明明白白擺出來，大家能直接接觸到的基本上就是原生裸模型的能力，沒辦法像閉源模型那樣，把大量后端優(yōu)化方案打包進去提升表現。

這也就導致，在智能體、網絡安全、復雜工程這類任務上，閉源黑盒模型天然就更容易拿到更高的評測分數。

最后還有兩點需要理清↓

第一，我們不需要過度盲從這份報告的結論，還要看評測機構的立場和評測維度偏向。

CAISI的這份評測本身就帶有比較明顯的美式敘事偏向，更側重網絡安全、軟件工程、抽象推理這些領域。

如果換一個評測維度，看中文場景適配、企業(yè)私有化部署、低成本推理、國產硬件適配、開源生態(tài)價值這些方向，DeepSeek的優(yōu)勢會立刻顯現出來。

第二，不用只把目光盯在DeepSeek身上，現在能代表國產AI力量的大模型，已經可以組團出戰(zhàn)了。

過去一年里，DeepSeek是國產開源大模型的一面旗幟，吸引了所有人的目光，也扛著「國產模型不能輸、開源模型不能輸」的壓力，負擔實在太重了。

但進入今年之后，DeepSeek肩上的重擔其實可以慢慢卸下來了，一大批國產大模型已經開始接棒，共同扛起國產AI發(fā)展的大旗。

Kimi2.6、GLM5.1、Mimo2.5、Minimax2.7、Qwen3.6…越來越多的國產模型已經成長起來。

國產開源大模型也從之前DeepSeek一枝獨秀的階段，走到了現在百花齊放的新階段，各個模型都有自己的特色和優(yōu)勢。

而且這一波國產模型的集體成長，和2024年的百模大戰(zhàn)不一樣，經過洗牌留下來的這些模型，每一個都有過硬的實力，不管是實戰(zhàn)表現還是市場口碑，都不輸給DeepSeek。

比如在Artificial Analysis的模型性能總榜單里，DeepSeek V4 Pro僅僅排在國產開源模型的第四位，Kimi k2.6、Mimo-V2.5、Qwen3.6的排名都在它前面。

再看另一份LmArena的代碼模型榜單，DeepSeek V4 Pro也只排在總榜的第15名。

國產模型里GLM-5.1排在第5、Kimi-k2.6排在第7、小米2.5 Pro排在第11、Qwen3.6-Plus排在第12，表現都比DeepSeek V4 Pro更好。

這也讓人想起DeepSeek V4發(fā)布時，官方在公告結尾引用的荀子名句↓

「不誘于譽，不恐于誹，率道而行，端然正己?！?/p>

當DeepSeek慢慢走出被神化的位置時，恰恰就是國產大模型各自突破、集體向前邁進的時候。

靜水流深，未來可期！

本文僅代表作者觀點，版權歸原創(chuàng)者所有，如需轉載請在文中注明來源及作者名字。

免責聲明：本文系轉載編輯文章，僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布，請及時與我們聯(lián)系進行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

景區(qū)NPC互動擦邊引爭議：低俗博眼球難長久，文化內核才是長久之道

復盤八個季度增速變化：白酒行業(yè)進入慢筑底新階段

電腦漲價幅度超黃金！半年漲幅最高達3800元，等等黨徹底失算了

歐盟牽手印度：全球貿易棋局正發(fā)生靜悄悄的變化

豬價十日反彈超16%，底部信號明確，新一輪豬周期要開啟了嗎？

項目推薦

康老板 · 氧療堂

<nobr id="5bqx0"></nobr>

<em id="5bqx0"></em>

<strike id="5bqx0"><pre id="5bqx0"><pre id="5bqx0"></pre></pre></strike><em id="5bqx0"></em>