欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

Redis之父下場,給DeepSeek V4單獨造了一臺推理引擎

大廠動態(tài)
05-09 16:30

Mac上能跑DeepSeek V4了

henry 發(fā)自 凹非寺量子位 | 公眾號 QbitAI

 

DeepSeek V4,已經(jīng)開始逼著海外開發(fā)者為它修專屬高速公路了。

 

發(fā)布才兩周,開源圈里,第一批V4原生基礎(chǔ)設(shè)施已經(jīng)冒了出來。

 

而且,不是那種在現(xiàn)有框架上套一層殼的“小修小補”。

 

不是通用GGUF加載器;不是llama.cpp的wrapper;甚至壓根不支持別的模型。

 

它只干一件事:

 

把DeepSeek V4 Flash,在Mac上跑到極致。

 

 

這條“專屬高速公路”,叫ds4.c。而把修出來的人,分量有點嚇人——

 

Salvatore Sanfilippo,程序員圈更熟悉他的另一個名字:antirez。

 

他一手創(chuàng)造了 Redis(GitHub 7.4 萬 Star),并親自主導(dǎo)這個全球最流行的內(nèi)存數(shù)據(jù)庫整整 11 年。

 

而現(xiàn)在,他的新項目ds4.c,是一個專門為DeepSeek V4 Flash打造的本地推理引擎。

 

時間線上,已經(jīng)有網(wǎng)友在128GB Mac上把它跑了起來。

 

 

可以說,這波,Mac庫存又被DeepSeek清了一遍。

 

鯨魚,確實值得。

 

專為V4 Flash打造的本地推理引擎

 

4月24日,DeepSeek發(fā)布V4系列。其中,V4 Flash是效率型號:284B總參數(shù)、13B激活參數(shù)、100萬token上下文。

 

這樣的體量,過去幾乎默認(rèn)屬于云端。

 

而antirez想做的,是把它塞進(jìn)一臺Mac。于是,ds4.c誕生了。

 

 

這是一個用C + Metal從頭寫出來的推理引擎。

 

整個項目就幾個文件,C占55.4%,Objective-C 30.2%,Metal 13.8%。Metal-only,沒有運行時,沒有框架依賴,沒有抽象層。

 

Metal-only。

 

Metal是蘋果自家的圖形和計算API,在Mac、iPhone、iPad上調(diào)用GPU都靠它,相當(dāng)于蘋果生態(tài)里的CUDA。

 

ds4只用Metal的意思是,這個引擎只在Apple Silicon上跑,不管Nvidia顯卡,也不管AMD。

 

整個項目只有一個目標(biāo):

 

讓V4 Flash在本地的蘋果機器上,不只是“能跑”,而是真正“能用”。

 

目前測試結(jié)果已經(jīng)相當(dāng)夸張:

 

在128GB內(nèi)存的MacBook Pro M3 Max上,2-bit量化、32K上下文,短prompt預(yù)填充58.52 token/s,生成26.68 token/s。

 

換成512GB的Mac Studio M3 Ultra,長prompt(11709 token)預(yù)填充能到468.03 token/s,生成27.39 token/s。

 

對一個284B參數(shù)的MoE模型來說,這個速度在本地機器上是可用的。

 

怎么做到的?

 

關(guān)鍵在三件事。

 

第一,非對稱量化。

 

ds4并不會把所有參數(shù)都壓到2-bit,而是只量化路由的MoE專家層,up/gate用IQ2_XXS,down用Q2_K,這些層占了模型空間的絕大部分。

 

其他組件,共享專家層、投影層、路由層,全部保留Q8精度不動。

 

antirez在README里寫了一句很直接的話:

 

這些2-bit量化不是開玩笑,它們在coding agent下表現(xiàn)良好,能可靠地調(diào)用工具。

 

 

第二,KV緩存搬到硬盤上。

 

現(xiàn)在的LLM agent客戶端都是無狀態(tài)的,每次請求把整段對話重新發(fā)一遍。

 

通用引擎的做法是每次重新做prefill。

 

ds4的做法是把KV狀態(tài)寫到磁盤上,下次請求過來匹配token前綴,命中了就直接從磁盤加載,跳過prefill。

 

緩存的key是token ID序列的SHA1哈希值。

 

這對Claude Code這種每次啟動會發(fā)25K token初始prompt的agent場景尤其有用,第一次prefill完成后,后續(xù)會話直接從磁盤恢復(fù)。

 

第三,內(nèi)置OpenAI和Anthropic兩套API兼容層。

 

/v1/chat/completions走OpenAI協(xié)議,/v1/messages走Anthropic協(xié)議。tool calling也做了適配。README里直接給了opencode、Pi、Claude Code三種agent客戶端的配置示例。

 

關(guān)于為什么要做這件事。

 

antirez的回答是,本地推理領(lǐng)域有很多優(yōu)秀項目,但新模型不斷發(fā)布,注意力立刻被下一個要實現(xiàn)的模型吸走。

 

通用引擎為了兼容所有模型,必須做抽象。抽象意味著妥協(xié)。他想做的是一條刻意的窄路,一次只賭一個模型,用官方logits做驗證,做長上下文測試,做足夠的agent集成來確認(rèn)它真的能用。

 

框架一經(jīng)發(fā)布,就有網(wǎng)友不少網(wǎng)友反饋,已經(jīng)在Mac上跑起來了。

 

 

 

 

你準(zhǔn)備好在本地跑V4了嗎?

 

一個模型一個推理框架

 

這件事,也在開發(fā)者圈炸出了一個更大的討論:

 

未來會不會變成——一個模型,一個推理框架?

 

Hacker News上一條高贊評論提了一個有意思的方向,如果開始針對精確的GPU加模型組合構(gòu)建超優(yōu)化推理引擎呢?

 

GPU越來越貴,如果去掉足夠多的抽象層,直接針對精確的硬件和模型編碼,可能能優(yōu)化很多。

 

這條路的代價也很明顯。同一條評論指出,一旦模型過時,一切從頭來過。

 

 

antirez自己也承認(rèn)了這個問題。他說ds4當(dāng)前賭的是DeepSeek V4 Flash,但模型可能會換。

 

不變的約束是,本地推理要在高端個人機器或Mac Studio上跑得靠譜,起步128GB內(nèi)存。

 

未來會怎樣,README里留了個伏筆。

 

當(dāng)前是Metal-only,未來可能會做CUDA支持。但他寫得很謹(jǐn)慎,也許會,但僅此而已。這個項目刻意保持小、快、專注。

 

 

更值得關(guān)注的是他在README里拋出的一個觀點,本地推理應(yīng)該是三件事一起做好,開箱即用。

 

一個有HTTP API的推理引擎,一份針對這個引擎和這套假設(shè)特別打造的GGUF,一套和coding agent對接的測試和驗證。

 

這是一種全棧本地推理的思路,不是把組件拼起來,是把鏈路當(dāng)成一個產(chǎn)品來設(shè)計。

 

如果這條路走通了,它可能改變本地推理的玩法。

 

模型廠商發(fā)布新模型的同時,社區(qū)里就會有人跳出來給它做專屬引擎,做專屬量化,做專屬agent接入。每一代模型都有一個自己的「antirez」。

 

ds4還有一個很坦率的細(xì)節(jié)。README里有一段聲明,這個軟件是在GPT 5.5的「強力輔助」下開發(fā)的,人類負(fù)責(zé)想法、測試和調(diào)試。

 

antirez說如果你不接受AI輔助開發(fā)的代碼,這個軟件不適合你。

 

 

兩周時間,從fork llama.cpp做適配,到從頭寫一個專用引擎,離不開AI輔助。這件事本身可能比ds4還更值得關(guān)注。

 

One more thing

 

最后說一下antirez這個人。

 

 

真名Salvatore Sanfilippo,1977年出生于西西里島。2009年創(chuàng)建Redis,主導(dǎo)這個項目十一年,2020年離開。

 

 

離開時他寫過一段話,說自己寫代碼是為了表達(dá)自己,代碼是一件制品而不只是有用的工具。他寧可被記住為一個糟糕的藝術(shù)家,也不愿被記住為一個好程序員。

 

2024年底他回到Redis,擔(dān)任evangelist角色。

 

除了Redis之外,他還寫過Kilo(不到1000行C代碼的文本編輯器)、dump1090(航空ADS-B信號解碼器)、linenoise(readline的微型替代品)。

 

他還在玩Flipper Zero,寫了RF協(xié)議分析工具,把Asteroids移植到上面。2022年他出了一本科幻小說《WOHPE》,主題是AI、氣候變化、程序員,以及人類和技術(shù)的互動。

 

他個人主頁第一行寫的是,「我把大部分專業(yè)時間花在寫代碼和寫小說上?!?/p>

 

 

關(guān)于Redis的誕生,他在個人主頁里寫了一段:

 

我老婆說,Redis的前幾年我大部分代碼都是坐在馬桶上寫的,用一臺MacBook Air 11寸。我真希望能說她錯了,但她正好說得完全對。

 

 

這種調(diào)性貫穿了他做的所有項目。小、精確、自成一體。

 

ds4.c也是同一個路子。

 

看一下他在ds4 README里關(guān)于macOS bug的那段備注,能立刻感覺到這個人的味道。

 

ds4有一個CPU推理路徑用于正確性驗證,但當(dāng)前版本的macOS在虛擬內(nèi)存實現(xiàn)上有一個bug,跑CPU推理會導(dǎo)致內(nèi)核崩潰。

 

他寫道,記住了嗎?軟件都很爛。我沒法修復(fù)CPU推理來避免崩潰,因為每次都得重啟電腦,一點都不好玩。

 

然后加了一句,如果你有膽量,來幫我們。

 

他在個人主頁里還留了一句話:

 

現(xiàn)代編程正變得復(fù)雜、無趣,全是要粘合的層。它正失去大部分美感。大多數(shù)程序員既不在面對編程的藝術(shù)面,也不在面對編程的高級工程面。

 

 

從Redis到ds4.c,十五年過去,antirez還是那個antirez。

本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com