Redis創(chuàng)始人親自出手,為DeepSeek V4打造專屬M(fèi)ac推理引擎
henry 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI
DeepSeek V4問(wèn)世后,已經(jīng)讓海外頂級(jí)開(kāi)發(fā)者專門(mén)為它搭建了專屬優(yōu)化的推理通道。
從V4發(fā)布到現(xiàn)在才過(guò)去兩周,開(kāi)源社區(qū)就已經(jīng)出現(xiàn)了第一批原生適配V4的基礎(chǔ)工具。
而且這次的作品,完全不是在現(xiàn)有框架上簡(jiǎn)單改改的小項(xiàng)目。
它既不是通用的GGUF加載工具,也不是llama.cpp的包裝,甚至從設(shè)計(jì)開(kāi)始就不打算支持其他模型。
它只做一件事:
讓DeepSeek V4 Flash在Mac設(shè)備上跑出極限性能。

這個(gè)專屬推理引擎名叫ds4.c,而打造它的開(kāi)發(fā)者,身份相當(dāng)有分量——
Salvatore Sanfilippo,也就是程序員圈子里大家更熟悉的antirez,Redis的創(chuàng)始人。
他一手創(chuàng)造了GitHub收獲7.4萬(wàn)星標(biāo)的Redis,并且親手主導(dǎo)這個(gè)全球最流行的內(nèi)存數(shù)據(jù)庫(kù)長(zhǎng)達(dá)11年。
而這次他的新項(xiàng)目ds4.c,就是一個(gè)專門(mén)為DeepSeek V4 Flash開(kāi)發(fā)的本地推理引擎。
目前已經(jīng)有網(wǎng)友在128GB內(nèi)存的Mac設(shè)備上成功跑通了這個(gè)引擎。

可以說(shuō),這波操作又會(huì)讓一批Mac設(shè)備被AI發(fā)燒友們列入入手清單了。
DeepSeek這條大模型“鯨魚(yú)”,確實(shí)值得開(kāi)發(fā)者這么折騰。
專為DeepSeek V4 Flash量身定制的本地推理引擎
今年4月24日,DeepSeek正式推出V4系列模型,其中V4 Flash是主打效率的版本:總參數(shù)284B,激活參數(shù)13B,支持100萬(wàn)token的上下文窗口。
這樣的模型規(guī)模,在過(guò)去基本只能在云端服務(wù)器運(yùn)行。
而antirez的目標(biāo),就是把這個(gè)大模型塞進(jìn)普通Mac設(shè)備里,ds4.c也就因此誕生了。

這是一個(gè)完全用C語(yǔ)言+Metal從頭編寫(xiě)的推理引擎。
整個(gè)項(xiàng)目代碼文件很少,其中C語(yǔ)言占比55.4%,Objective-C占30.2%,Metal占13.8%。它只使用Metal,沒(méi)有額外運(yùn)行時(shí),沒(méi)有第三方框架依賴,也沒(méi)有多余的抽象層。
完全基于Metal開(kāi)發(fā)。
Metal是蘋(píng)果官方推出的圖形與計(jì)算API,在Mac、iPhone、iPad等設(shè)備上調(diào)用GPU算力都要依靠它,相當(dāng)于蘋(píng)果生態(tài)里的CUDA。
ds4只支持Metal,也就意味著這個(gè)引擎只能在Apple Silicon芯片的蘋(píng)果設(shè)備上運(yùn)行,不兼容Nvidia和AMD的獨(dú)立顯卡。
整個(gè)項(xiàng)目只有一個(gè)核心目標(biāo):
讓V4 Flash不只是勉強(qiáng)能在本地蘋(píng)果設(shè)備運(yùn)行,而是真正達(dá)到可以日常使用的流暢度。
目前的測(cè)試結(jié)果已經(jīng)相當(dāng)出色:
在搭載128GB內(nèi)存的MacBook Pro M3 Max上,使用2-bit量化、32K上下文,短prompt預(yù)填充速度可以達(dá)到58.52 token/s,生成速度達(dá)到26.68 token/s。
換成搭載512GB內(nèi)存的Mac Studio M3 Ultra,處理11709 token的長(zhǎng)prompt預(yù)填充速度能到468.03 token/s,生成速度也有27.39 token/s。
對(duì)于一個(gè)總參數(shù)284B的MoE大模型來(lái)說(shuō),這樣的本地運(yùn)行速度已經(jīng)完全滿足日常使用需求。
性能優(yōu)化是怎么實(shí)現(xiàn)的?
核心優(yōu)化點(diǎn)主要在三個(gè)方面。
第一,非對(duì)稱量化策略。
ds4并沒(méi)有把模型所有參數(shù)都?jí)嚎s到2-bit,只對(duì)MoE模型的路由專家層做量化:up/gate層使用IQ2_XXS量化,down層使用Q2_K量化,而這些層本身就占據(jù)了模型絕大部分存儲(chǔ)空間。
模型的其他組件,包括共享專家層、投影層、路由層,全部保留Q8精度不做壓縮。
antirez在項(xiàng)目README里直接寫(xiě)道:
這里的2-bit量化不是瞎搞,量化后的模型在智能編碼代理里表現(xiàn)很好,也能穩(wěn)定調(diào)用工具。
第二,KV緩存存儲(chǔ)到本地硬盤(pán)。
現(xiàn)在大語(yǔ)言模型代理客戶端大多是無(wú)狀態(tài)設(shè)計(jì),每次請(qǐng)求都會(huì)把整段對(duì)話重新發(fā)送一遍。
通用推理引擎的做法是每次都重新做預(yù)填充。
而ds4的做法是把KV狀態(tài)寫(xiě)入本地磁盤(pán),下次請(qǐng)求到來(lái)時(shí)匹配token前綴,命中就直接從磁盤(pán)加載緩存,跳過(guò)預(yù)填充步驟。
緩存的key使用token ID序列的SHA1哈希值生成。
這種優(yōu)化對(duì)于Claude Code這類每次啟動(dòng)都會(huì)發(fā)送25K token初始prompt的代理場(chǎng)景尤其實(shí)用,第一次完成預(yù)填充后,后續(xù)對(duì)話直接從磁盤(pán)恢復(fù)狀態(tài)就能用。
第三,內(nèi)置OpenAI和Anthropic兩套API兼容層。
/v1/chat/completions接口走OpenAI協(xié)議,/v1/messages接口走Anthropic協(xié)議,工具調(diào)用也做了適配。README里直接給出了opencode、Pi、Claude Code三種代理客戶端的配置示例,用戶可以直接拿來(lái)用。
談到為什么要做這個(gè)項(xiàng)目,antirez給出了自己的想法:本地推理領(lǐng)域已經(jīng)有很多不錯(cuò)的項(xiàng)目,但新模型發(fā)布越來(lái)越快,大家的注意力很快就會(huì)被下一個(gè)需要適配的模型吸走。
通用引擎為了兼容所有模型,必須做多層抽象,而抽象就意味著要做出性能妥協(xié)。他想做的就是一條 deliberately narrow path,一次只聚焦一個(gè)模型,用官方logits做驗(yàn)證,做足長(zhǎng)上下文測(cè)試,完成足夠多的代理集成,確保它真的能用。
項(xiàng)目發(fā)布之后,已經(jīng)有不少網(wǎng)友反饋成功在Mac上跑起來(lái)了。



你準(zhǔn)備好在本地Mac上跑DeepSeek V4了嗎?
一個(gè)模型配一個(gè)專屬推理框架?
這件事也在開(kāi)發(fā)者圈子里引發(fā)了更廣泛的討論:
未來(lái)本地推理會(huì)不會(huì)走向「一個(gè)模型配一個(gè)專屬推理框架」的路線?
Hacker News上有一條高贊評(píng)論提出了這個(gè)方向:如果我們開(kāi)始針對(duì)特定GPU加特定模型的組合構(gòu)建極致優(yōu)化的推理引擎,會(huì)怎么樣?
現(xiàn)在GPU成本越來(lái)越高,如果去掉多余的抽象層,直接針對(duì)具體硬件和模型編寫(xiě)代碼,能挖出不少性能空間。
但這條路的缺陷也很明顯,這條高贊評(píng)論也提到,一旦模型迭代過(guò)時(shí),之前做的所有優(yōu)化就都要推倒重來(lái)。

antirez自己也承認(rèn)這個(gè)問(wèn)題,他表示ds4目前押注的是DeepSeek V4 Flash,但未來(lái)模型肯定會(huì)更新迭代。
不變的要求是,本地推理要能在高端個(gè)人電腦或者M(jìn)ac Studio上穩(wěn)定流暢運(yùn)行,起步需要128GB內(nèi)存。
關(guān)于項(xiàng)目未來(lái),他在README里留下了伏筆。
目前只支持Metal,未來(lái)可能會(huì)添加CUDA支持,但他寫(xiě)得很謹(jǐn)慎:也許會(huì)加,僅此而已。這個(gè)項(xiàng)目從設(shè)計(jì)開(kāi)始就刻意保持小巧、快速、專注的特點(diǎn)。

更值得關(guān)注的是他在README里提出的一個(gè)觀點(diǎn):本地推理應(yīng)該把三件事一起做好,做到開(kāi)箱就能用。
一個(gè)帶HTTP API的推理引擎,一份專門(mén)針對(duì)這個(gè)引擎和場(chǎng)景優(yōu)化的GGUF,一套對(duì)接編碼代理的測(cè)試驗(yàn)證。
這是一種全棧本地推理的思路,不是簡(jiǎn)單把零散組件拼起來(lái),而是把整個(gè)推理鏈路當(dāng)成一個(gè)完整產(chǎn)品來(lái)設(shè)計(jì)。
如果這條路走通,很可能會(huì)改變本地推理的現(xiàn)有玩法。
以后模型廠商發(fā)布新模型的同時(shí),社區(qū)里就會(huì)有人出來(lái)做專屬引擎、做專屬量化、做專屬代理接入,每一代模型都能有自己的專屬優(yōu)化者。
ds4還有一個(gè)很坦率的細(xì)節(jié):README里明確聲明,這個(gè)軟件是在GPT 5.5的大力協(xié)助下開(kāi)發(fā)的,人類只負(fù)責(zé)提出想法、做測(cè)試和調(diào)試。
antirez直接說(shuō)如果你不能接受AI輔助開(kāi)發(fā)的代碼,這個(gè)項(xiàng)目不適合你。

從fork適配llama.cpp到從頭寫(xiě)一個(gè)專屬引擎,只花了兩周時(shí)間,離不開(kāi)AI輔助開(kāi)發(fā)。這件事本身,可能比ds4這個(gè)項(xiàng)目更值得關(guān)注。
關(guān)于開(kāi)發(fā)者antirez
最后再介紹一下antirez這個(gè)人。

他本名Salvatore Sanfilippo,1977年出生在西西里島。2009年創(chuàng)造了Redis,主導(dǎo)這個(gè)項(xiàng)目十一年,2020年離開(kāi)核心開(kāi)發(fā)崗位。

離開(kāi)的時(shí)候他曾經(jīng)寫(xiě)過(guò)一段話,說(shuō)自己寫(xiě)代碼是為了表達(dá)自我,代碼是一件創(chuàng)作的作品,不只是有用的工具。他寧可被記住是一個(gè)糟糕的藝術(shù)家,也不想被記住是一個(gè)好程序員。
2024年底他重新回到Redis,擔(dān)任布道師角色。
除了Redis之外,他還開(kāi)發(fā)過(guò)Kilo(不到1000行C代碼的文本編輯器)、dump1090(航空ADS-B信號(hào)解碼器)、linenoise(readline的輕量替代方案)。
他還在玩Flipper Zero,專門(mén)寫(xiě)過(guò)RF協(xié)議分析工具,還把經(jīng)典游戲Asteroids移植到了這個(gè)設(shè)備上。2022年他還出版了一本科幻小說(shuō)《WOHPE》,主題圍繞AI、氣候變化、程序員,以及人類和技術(shù)的互動(dòng)展開(kāi)。
他個(gè)人主頁(yè)第一行就寫(xiě)著:「我把大部分專業(yè)時(shí)間都花在寫(xiě)代碼和寫(xiě)小說(shuō)上。」

關(guān)于Redis的誕生,他在個(gè)人主頁(yè)里寫(xiě)了一段趣事:
我老婆說(shuō),Redis剛誕生的那幾年,我大部分代碼都是坐在馬桶上,用一臺(tái)11寸的MacBook Air寫(xiě)出來(lái)的。我真的很想反駁她,但她說(shuō)的完全沒(méi)錯(cuò)。
這種開(kāi)發(fā)調(diào)性貫穿了他做的所有項(xiàng)目:小巧、精準(zhǔn)、自成一體。
ds4.c也完全是同一個(gè)路子。
看他在ds4 README里關(guān)于macOS bug的那段備注,就能立刻感受到他的風(fēng)格:
ds4本來(lái)留了一條CPU推理路徑用來(lái)驗(yàn)證正確性,但當(dāng)前版本的macOS在虛擬內(nèi)存實(shí)現(xiàn)上有bug,跑CPU推理會(huì)導(dǎo)致內(nèi)核崩潰。
他寫(xiě)道:記住了嗎?所有軟件都爛透了。我沒(méi)辦法修復(fù)CPU推理來(lái)避免崩潰,因?yàn)槊看螠y(cè)試都得重啟電腦,一點(diǎn)都不好玩。
然后加了一句:如果你膽子大,那就來(lái)幫我們修。
他還在個(gè)人主頁(yè)里留下了這樣一句話:
現(xiàn)代編程正變得越來(lái)越復(fù)雜無(wú)趣,到處都是需要粘合的分層。它已經(jīng)失去了大部分美感。大多數(shù)程序員既接觸不到編程的藝術(shù)性,也碰不到編程的高級(jí)工程性。
從創(chuàng)造Redis到推出ds4.c,十五年過(guò)去了,antirez還是那個(gè)antirez。
只不過(guò)這一次,他開(kāi)始給AI模型修專用的“高速公路”了。
參考鏈接[1]http://invece.org/[2]https://github.com/antirez/ds4[3]https://news.ycombinator.com/item?id=48050751
本文來(lái)自微信公眾號(hào)“量子位”,作者:量子位,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com







