Token工業(yè)化競(jìng)爭(zhēng):成本賬本重構(gòu)下的新戰(zhàn)局
本文來(lái)自微信公眾號(hào): 未盡研究 ,作者:未盡研究
硅谷現(xiàn)在突然開(kāi)始嫌Token太貴了。
有很長(zhǎng)一段時(shí)間,整個(gè)AI行業(yè)都沉浸在智能體會(huì)遞歸進(jìn)化到通用人工智能(AGI)的樂(lè)觀(guān)情緒里。在A(yíng)nthropic打造的行業(yè)敘事中,性能更強(qiáng)的高價(jià)Token永遠(yuǎn)有它的存在價(jià)值。但就在過(guò)去一周,三個(gè)幾乎同時(shí)出現(xiàn)的行業(yè)信號(hào),撕開(kāi)了表層樂(lè)觀(guān)敘事下,另一個(gè)完全不同的行業(yè)現(xiàn)實(shí)。
第一個(gè)信號(hào),微軟內(nèi)部開(kāi)始大規(guī)模限制Claude Code的使用。原因很簡(jiǎn)單:它用起來(lái)太貴了。微軟旗下負(fù)責(zé)Windows、Microsoft 365、Outlook、Teams和Surface的“體驗(yàn)+設(shè)備”部門(mén),要求必須在6月底之前停用Claude Code,把所有開(kāi)發(fā)工作流遷移到微軟自家的GitHub Copilot CLI上。
但這件事很難簡(jiǎn)單歸結(jié)為內(nèi)部產(chǎn)品和外部產(chǎn)品的競(jìng)爭(zhēng)。據(jù)業(yè)內(nèi)消息,這次停用決策里,財(cái)務(wù)部門(mén)起到了關(guān)鍵作用。雖然開(kāi)發(fā)團(tuán)隊(duì)用得順手,一致反饋Claude Code能大幅提升開(kāi)發(fā)生產(chǎn)力;但管預(yù)算的高管們,并沒(méi)有看到代碼規(guī)模增長(zhǎng),給對(duì)應(yīng)軟件帶來(lái)收入暴漲——你到處都能看到AI的影子,唯獨(dú)在公司的營(yíng)收?qǐng)?bào)表上看不到。
更值得玩味的是,就在上個(gè)月,微軟面向外部客戶(hù)的GitHub Copilot,剛剛宣布全面改成按量計(jì)費(fèi)模式。智能體在持續(xù)不斷消耗Token,哪怕是微軟面對(duì)自己的外部客戶(hù),也不想白白被“薅羊毛”。對(duì)內(nèi)“停用”是節(jié)流,對(duì)客戶(hù)“調(diào)價(jià)”是開(kāi)源,本質(zhì)上都是為了重新對(duì)齊成本和價(jià)值的賬本。在智能體主導(dǎo)的Token消耗浪潮面前,哪怕是微軟這樣資金雄厚的科技巨頭,也已經(jīng)感受到了壓力,AI成本已經(jīng)正式進(jìn)入企業(yè)的預(yù)算約束范圍。
現(xiàn)在行業(yè)里有兩個(gè)明確趨勢(shì):一方面,前沿大模型的單位Token價(jià)格正在持續(xù)上漲。硅谷三大巨頭都在試探API客戶(hù)的價(jià)格承受力。谷歌最新發(fā)布的Gemini-3.5-Flash,價(jià)格明顯上漲,是同類(lèi)產(chǎn)品Gemini-3.1-Flash-Lite的6倍,已經(jīng)接近Gemini-3.1-Pro的價(jià)格;OpenAI的GPT-5.5價(jià)格是GPT-5.4的兩倍;如果考慮新分詞器的影響,Claude-Opus-4.7的價(jià)格大約是Opus-4.6的1.46倍。
另一方面,智能體及其配套框架正在重塑Token經(jīng)濟(jì)學(xué)。智能體追求更高性能、更快響應(yīng)速度,這本身就意味著更高的單位Token成本;而且Token越來(lái)越多地承擔(dān)系統(tǒng)控制功能,代價(jià)就是額外的調(diào)度復(fù)雜度、Token消耗和延遲累積,顯著推高了整體消耗。在用戶(hù)開(kāi)始輸入提示詞之前,智能體就會(huì)提前預(yù)加載很多內(nèi)容,現(xiàn)在智能體單次任務(wù)的Token負(fù)載中位數(shù),已經(jīng)來(lái)到了10萬(wàn)Token的量級(jí)。

現(xiàn)在,所有大模型廠(chǎng)商都在向智能體廠(chǎng)商轉(zhuǎn)型。OpenAI聯(lián)合創(chuàng)始人Greg Brockman就認(rèn)為,單單一個(gè)模型,已經(jīng)不能構(gòu)成完整的產(chǎn)品了。未來(lái)的Token經(jīng)濟(jì)學(xué),就會(huì)在這個(gè)轉(zhuǎn)型趨勢(shì)下展開(kāi)。
第二個(gè)信號(hào),是DeepSeek宣布V4-Pro永久降價(jià)75%。這不是短期促銷(xiāo),不是新用戶(hù)補(bǔ)貼,也不是互聯(lián)網(wǎng)行業(yè)常見(jiàn)的燒錢(qián)換規(guī)模。這次降價(jià)意味著DeepSeek已經(jīng)跑通了某種結(jié)構(gòu)性的成本優(yōu)勢(shì)。硅谷風(fēng)投YCombinator的合伙人非常好奇,模型優(yōu)化和芯片協(xié)同,在這個(gè)成本優(yōu)勢(shì)里起到了多大作用。
根據(jù)Artficial Intellgence的統(tǒng)計(jì),運(yùn)行指定測(cè)評(píng)任務(wù)時(shí),DeepSeek V4 Pro的成本僅約為Gemini-3.1-Pro-Preview的三分之一,GPT-5.5的十二分之一,Claude-Opus-4.7的十九分之一。
今年年初,DeepSeek在DualPath論文中披露,在A(yíng)gentic AI場(chǎng)景下,它的KV緩存命中率可以高達(dá)95%。壓縮和管理KV緩存,不只是降低單位Token成本的關(guān)鍵,還把AI的成本函數(shù)從“和上下文長(zhǎng)度線(xiàn)性相關(guān)”重構(gòu)為“僅和新增決策相關(guān)”。這就讓智能體可以在長(zhǎng)時(shí)間、多輪交互中持續(xù)運(yùn)行,不會(huì)因?yàn)闅v史上下文膨脹導(dǎo)致成本失控,也把AI從“被調(diào)用的工具”變成了“持續(xù)運(yùn)行的進(jìn)程”。
DeepSeek的深度推理創(chuàng)新,用DualPath為智能體壓榨帶寬|筆記
2026/02/27完整閱讀>
這也會(huì)影響模型下游的產(chǎn)品設(shè)計(jì)。雖然DeepSeek的模型性能,仍然比硅谷頂尖模型落后半年左右,但它依然在快速搶占市場(chǎng)。在OpenRouter平臺(tái)上,調(diào)用V4-Flash模型的請(qǐng)求一直在增長(zhǎng),甚至已經(jīng)出現(xiàn)了基于V4的“原生”智能體產(chǎn)品。Reasonix就專(zhuān)門(mén)針對(duì)DeepSeek的緩存機(jī)制,打造了一套智能體框架,核心目標(biāo)就是“節(jié)省Token成本”?,F(xiàn)在DeepSeek還在招募框架工程師,未來(lái)它很可能成為這個(gè)新領(lǐng)域的“價(jià)格屠夫”。

第三個(gè)信號(hào),是華為對(duì)“韜(τ)定律”的探索和落地。在這個(gè)技術(shù)框架下,當(dāng)晶體管密度提升遇到瓶頸時(shí),華為開(kāi)始從底層器件、電路、芯片到系統(tǒng)層面,同步壓縮數(shù)據(jù)傳輸?shù)臅r(shí)間和能耗。華為已經(jīng)圍繞超節(jié)點(diǎn),同步推進(jìn)統(tǒng)一總線(xiàn)UB-Mesh、Hi-ONE近封裝光學(xué)、背面供電以及近存計(jì)算等技術(shù),還在嘗試把鯤鵬和昇騰做“邏輯折疊”,在單位算力的Token吞吐量上實(shí)現(xiàn)“時(shí)間擴(kuò)展”。
如何理解華為的韜定律與時(shí)間擴(kuò)展定律
2026/05/26完整閱讀>
是邏輯折疊,而不是簡(jiǎn)單堆疊。這意味著它和當(dāng)前行業(yè)常見(jiàn)的2.5D封裝不同,是在Z軸方向、單元層面完成邏輯和計(jì)算拓?fù)涞闹貥?gòu)。不管是半導(dǎo)體專(zhuān)家還是金融分析師,美國(guó)都非常關(guān)注華為這次戰(zhàn)略方向選擇。Bernstein直接評(píng)價(jià)這是又一個(gè)“DeepSeek時(shí)刻”。

在近期IEEE中國(guó)的直播活動(dòng)中,華為進(jìn)一步介紹,鯤鵬950是第一代折疊技術(shù)打造的“超級(jí)CPU”。在其他條件基本不變的情況下,鯤鵬950通過(guò)重新組織CPU核和互聯(lián)結(jié)構(gòu),讓關(guān)鍵路徑長(zhǎng)度明顯縮短。垂直折疊之后,微架構(gòu)投影面積減少了大約40%,平均線(xiàn)延遲下降約8%,僅這一項(xiàng)就帶來(lái)了約468MHz的頻率增益;而時(shí)鐘樹(shù)縮短和時(shí)鐘偏差優(yōu)化,又進(jìn)一步貢獻(xiàn)了接近100MHz的額外提升。最終,這顆原本運(yùn)行在2.6GHz的CPU核,被直接提升到了3.2GHz,同時(shí)能效提升超過(guò)10%。華為已經(jīng)在規(guī)劃鯤鵬960,升級(jí)會(huì)更加激進(jìn),CPU內(nèi)核會(huì)直接參與邏輯折疊。
除此之外,最近華為還展示了基于自研板上裸片封裝(DoB)技術(shù)的大容量SSD系列,目前已經(jīng)量產(chǎn)61.44TB和122.88TB兩款產(chǎn)品,245TB版本也在規(guī)劃當(dāng)中。華為還有自研的高帶寬內(nèi)存HiBL 1.0。
這不由得讓人聯(lián)想,DeepSeek已經(jīng)深度適配了昇騰950,未來(lái)也會(huì)受益于整個(gè)超節(jié)點(diǎn)體系的“時(shí)間擴(kuò)展”效應(yīng)。DeepSeek的降價(jià),或許已經(jīng)暗示了中國(guó)本土AI算力生態(tài)的推進(jìn)進(jìn)度。在這次的V4版本里,DeepSeek還沒(méi)有把Engram等技術(shù)融入模型,融入后就能更高效地把“記憶”按照訪(fǎng)問(wèn)頻次依次卸載到對(duì)應(yīng)存儲(chǔ)層級(jí)。外界甚至傳言V4.1很快就會(huì)推出。
從DSA到Engram,一年來(lái)DeepSeek層層勾勒V4架構(gòu)創(chuàng)新
2026/01/14完整閱讀>
三條線(xiàn)索匯總到一起,指向了一場(chǎng)更深層次的行業(yè)競(jìng)爭(zhēng):Token正在從一個(gè)“技術(shù)單元”轉(zhuǎn)變?yōu)椤吧a(chǎn)要素”,它的成本邏輯,正在被納入工業(yè)化的競(jìng)爭(zhēng)框架。
在這場(chǎng)競(jìng)爭(zhēng)中,本質(zhì)上有兩條同步推進(jìn)的效率邊界。一條在A(yíng)I算力工廠(chǎng)內(nèi)部,圍繞吞吐量、延遲和成本的三角尋找最優(yōu)解;另一條在工廠(chǎng)之外,在“更貴但更強(qiáng)”和“夠用但廉價(jià)”之間爭(zhēng)奪市場(chǎng)的最優(yōu)點(diǎn)。
第一條,是AI工廠(chǎng)自身的效率邊界。在黃仁勛的框架里,推理階段的Token經(jīng)濟(jì)學(xué),是一條在吞吐量(TPS/兆瓦)和交互性(TPS/用戶(hù))之間展開(kāi)的價(jià)值曲線(xiàn)。吞吐量越高,能響應(yīng)的用戶(hù)越多,單位Token價(jià)格就越低,但響應(yīng)速度也就越慢;而對(duì)延遲要求極高的高價(jià)值場(chǎng)景,硬件成本就需要分?jǐn)偨o更少的并發(fā)用戶(hù),單價(jià)自然更高。
在固定算力和能源約束下,同時(shí)實(shí)現(xiàn)更大的Token吞吐量、更低的推理延遲和更低的單位成本,是一個(gè)“不可能三角”。整個(gè)行業(yè)都在努力拓展帕累托最優(yōu)的邊界,也就是把整體瓶頸往上推,然后再在三者之間做新一輪權(quán)衡。這也是為什么,在財(cái)報(bào)電話(huà)會(huì)議上,黃仁勛越來(lái)越多地談?wù)揋roq LPU與Vera CPU;他也非常擔(dān)心華為這個(gè)擁有完整垂直整合能力的競(jìng)爭(zhēng)對(duì)手。
第二條邊界,存在于A(yíng)I供給和市場(chǎng)需求之間。更高智能、更高成本的模型,和“足夠智能、足夠便宜”的模型之間,存在一個(gè)不斷移動(dòng)的市場(chǎng)最優(yōu)點(diǎn)。雖然高價(jià)值Token對(duì)應(yīng)著更快的產(chǎn)品迭代速度,但能承受這個(gè)預(yù)算的客戶(hù),規(guī)模并非沒(méi)有上限;而大量低價(jià)Token服務(wù)于更廣泛的市場(chǎng),反而會(huì)創(chuàng)造出總量更大的市場(chǎng)空間。
昂貴的Token,仍然需要在A(yíng)I應(yīng)用的最后一環(huán)證明自己的價(jià)值。如果AI真的能創(chuàng)造規(guī)模增量市場(chǎng),那么科技巨頭更可能在保持原有員工規(guī)模大致不變的基礎(chǔ)上,借助AI大幅擴(kuò)張市場(chǎng),而不是大規(guī)模裁員,或是為AI轉(zhuǎn)型騰挪預(yù)算和編制。用AI替代員工,在很大程度上只能說(shuō)明,整個(gè)需求市場(chǎng)并沒(méi)有對(duì)應(yīng)Token成本的大幅擴(kuò)張。
AI三巨頭的萬(wàn)億IPO前夜,應(yīng)用與技術(shù)債務(wù)
2026/05/22完整閱讀>
DeepSeek真正的市場(chǎng)競(jìng)爭(zhēng)力,在于它在中國(guó)建立起了一套可復(fù)制、可擴(kuò)展的“AI工廠(chǎng)”路線(xiàn)圖,把“有效智能”拉到了工業(yè)化產(chǎn)品的價(jià)格區(qū)間里。編碼軟件公司Replit的首席執(zhí)行官也說(shuō),中國(guó)研究者實(shí)際上公開(kāi)分享了真正的人工智能突破,讓所有人都受益,包括美國(guó)的小型甚至大型實(shí)驗(yàn)室。幾十年來(lái),很多“低技術(shù)”實(shí)體經(jīng)濟(jì)沒(méi)辦法完成有意義的數(shù)字化,不是不想做,而是行業(yè)利潤(rùn)率承受不住對(duì)應(yīng)的AI成本。
杰文斯悖論成立的前提,是成本不斷下降。但硅谷現(xiàn)在發(fā)生的一切,并不是這樣。行業(yè)價(jià)值主要沿著前沿模型廠(chǎng)商、云巨頭、芯片巨頭、能源巨頭集中,也向和監(jiān)管深度綁定的平臺(tái)集中;現(xiàn)在全球萬(wàn)億美元市值上市公司已經(jīng)有12家,其中9家都是在2023年之后躋身這個(gè)俱樂(lè)部的。它們幾乎都受益于這一輪AI浪潮,但AI之外的其他行業(yè),都被擠到了這場(chǎng)盛宴之外。
黃仁勛在電話(huà)會(huì)議上,把ACIE業(yè)務(wù)的市場(chǎng)錨定在全球工業(yè)和企業(yè)經(jīng)濟(jì)活動(dòng)約50-80萬(wàn)億美元的宏觀(guān)底盤(pán)上;馬斯克在SpaceX招股書(shū)中,把AI企業(yè)服務(wù)的可觸達(dá)市場(chǎng)空間鎖定在約22.7萬(wàn)億美元;中國(guó)在“人工智能+”行動(dòng)中,把2030年新一代智能終端、智能體等應(yīng)用的普及率目標(biāo)設(shè)定在90%以上。這些數(shù)字指向的,正是Token經(jīng)濟(jì)學(xué)工業(yè)化競(jìng)爭(zhēng)的未來(lái)。
本文僅代表作者觀(guān)點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com






