原文地址:https://semianalysis.com/2025/01/31/deepseek-debates/
深度求索的故事席捲全球深度求索(DeepSeek)的故事在全球引起了轟動。在過去的一周里,深度求索成了全球各界唯一的熱議話題。
但對於密切關注這一領域的人來說,這其實並非什麼「新鮮事」,令人矚目的是人們對它的瘋狂炒作。長期以來,SemiAnalysis一直認為深度求索極具天賦,但美國大眾此前並不關注。當全世界終於開始關注時,卻陷入了一種脫離現實的瘋狂炒作。幾個月來,我們一直在談論深度求索(每個鏈接都是例證)。這家公司並不新。
我們想強調的是,輿論風向與上個月相比發生了逆轉。上個月,當規模定律被打破時,有人認為這對英偉達(Nvidia)和 GPU不利;如今,又有人說演算法改進速度過快。我們已經破除了這些謬論。
如今的輿論認為,深度求索效率極高,我們不再需要更多計算資源,而且由於模型的變化,現在一切都存在大量過剩產能。雖然傑文斯悖論(Jevons paradox)也被過度炒作了,但它更接近現實情況。這些模型已經對 H100和 H200的定價產生了實際影響,刺激了需求。
深度求索與 High-Flyer(幻方)High-Flyer是一家中國對沖基金,也是將人工智慧應用於交易演算法的早期 adopters。他們很早就意識到了人工智慧在金融領域之外的潛力,以及規模化的關鍵意義。因此,他們不斷增加 GPU的儲備。在使用數千個 GPU集群對模型進行試驗后,High-Flyer在2021年出口限制實施前投資購買了10000個 A100 GPU,這一舉措取得了回報。隨著 High-Flyer的發展,他們在2023年5月決定分拆出「深度求索」,目標是更專註地追求人工智慧能力的進一步提升。當時,由於缺乏商業模式,外部投資者對人工智慧興趣寥寥,High-Flyer便自行出資成立了這家公司。如今,High-Flyer和深度求索經常共享人力和計算資源。
深度求索如今已發展成為一項認真且協同的事業,絕非許多媒體聲稱的「副業」。我們確信,即便考慮到出口管制因素,他們在 GPU上的投資也超過5億美元。
我們認為深度求索擁有約10000個 H800和10000個 H100。此外,他們還訂購了更多 H20。在過去9個月里,英偉達生產了超過100萬個專供中國的 GPU。這些 GPU由 High-Flyer和深度求索共享,並在一定程度上進行了地理分佈。它們被用於交易、推理、訓練和研究。如需更具體的詳細分析,請參考我們的《加速器模型》。
深度求索人工智慧的總擁有成本我們的分析顯示,深度求索的伺服器總資本支出接近13億美元,運營這些集群的成本高達7.15億美元。同樣,所有人工智慧實驗室和超大規模數據中心為了各種任務(包括研究和訓練),擁有的 GPU數量比單次訓練所需的更多,因為資源集中存在一定挑戰。X.AI作為一個人工智慧實驗室比較獨特,它所有的 GPU都集中在一個地方。
深度求索只從中國招聘人才,不看重過往資歷,高度關注能力和求知慾。他們經常在北京大學和浙江大學等頂尖大學舉辦招聘活動,招聘廣告中甚至吹噓員工能無限制使用數萬個 GPU。他們極具競爭力,據說為有潛力的候選人提供超過130萬美元的年薪,遠超中國其他大型科技公司和人工智慧實驗室,如 Moonshot。他們目前約有150名員工,且規模還在迅速擴大。崗位角色不一定預先設定,招聘人員有一定靈活性。
歷史表明,資金充足且專註的小型初創公司往往能突破極限。深度求索不像谷歌那樣官僚主義,由於是自籌資金,他們能迅速將想法付諸實踐。不過,和谷歌一樣,深度求索(在很大程度上)運營自己的數據中心,不依賴外部機構或供應商。這為實驗開闢了更多空間,使他們能夠在整個技術棧上進行創新。
我們認為他們是目前最好的「開放權重」實驗室,超過了 Meta的 Llama項目、Mistral等。
深度求索的成本與性能本周,深度求索的價格和效率引發了熱潮,主要焦點是深度求索 V3的「600萬美元」訓練成本。但這是錯誤的。這就好比只看產品物料清單上的某一部分,卻將其視為整個產品的成本。預訓練成本只是總成本中很小的一部分。
訓練成本我們認為預訓練成本遠非該模型的實際投入。我們確信,在公司發展歷程中,他們在硬體上的花費遠高於5億美元。為了開發新的架構創新,在模型開發過程中,需要投入大量資金來測試新想法、新架構思路,並進行消融實驗。開發和實現這些想法需要整個團隊投入大量人力和 GPU計算時間。深度求索的關鍵創新——多頭潛在注意力機制(Multi-Head Latent Attention),就耗費了數月時間。
論文中提到的600萬美元成本僅指預訓練運行的 GPU成本,這隻是模型總成本的一部分。研發費用和硬體本身的總擁有成本等重要部分並未計算在內。參考一下,Claude3.5 Sonnet的訓練成本高達數千萬美元,如果這就是 Anthropic所需的全部成本,他們就不會從谷歌籌集數十億美元,也不會從亞馬遜籌集數百億美元了。這是因為他們必須進行實驗、提出新架構、收集和清理數據、支付員工工資等等。
那麼深度求索是如何擁有如此龐大的集群的呢?出口管制的滯后是關鍵,下面在出口管制部分會詳細討論。
縮小差距——V3的性能V3無疑是一款令人印象深刻的模型,但值得注意的是,要明確它是相對於什麼而言令人印象深刻。許多人將 V3與 GPT-4o進行比較,並強調 V3如何超越4o的性能。這確實沒錯,但 GPT-4o於2024年5月發布。人工智慧發展迅速,從演算法改進的角度來看,2024年5月恍如隔世。而且,經過一段時間后,用更少的計算資源實現相當或更強的能力,這並不令人意外。推理成本的下降是人工智慧進步的一個標誌。
來源:傅里葉的貓/基本常識
深度求索 V3的競爭分析
到目前為止,我們從這種模式中看到,人工智慧實驗室為了獲得更高的智能水平,在絕對金額上的投入越來越多。據估計,演算法的進步意味著每年實現相同能力所需的計算資源減少4倍。Anthropic的首席執行官 Dario認為,演算法定價在朝著 GPT-3質量發展,成本已下降1200倍。就推理而言,甚至可以實現10倍的改進。
在研究 GPT-4的成本時,我們也看到了類似的成本下降趨勢,不過處於曲線的更早期階段。雖然隨著時間推移成本差異的縮小,不能像上面的圖表那樣通過保持能力不變來解釋。在這種情況下,我們看到演算法改進和優化使成本降低了10倍,同時能力也有所提升。
另一方面,R1能夠取得與 o1相當的結果,而 o1直到9月才發布。深度求索是如何這麼快就追趕上的呢?
答案是,推理是一種新範式,與之前的預訓練範式相比,它的迭代速度更快,且更容易實現較小計算量下的顯著提升,而之前的預訓練範式成本越來越高,且難以取得穩健的進展。如我們在報告中所述,之前的範式依賴於規模定律。
新範式通過在現有模型的訓練后階段,利用合成數據生成和強化學習來提升推理能力,能夠以更低的成本實現更快的進步。較低的進入門檻和易於優化的特點,使得深度求索能夠比往常更快地複製 o1的方法。隨著參与者在這種新範式中找到更多擴展方法,我們預計實現相同能力所需的時間差距將會擴大。
需要注意的是,R1的論文中並未提及所使用的計算資源。這並非偶然——為訓練后的 R1生成合成數據需要大量計算資源,更不用說強化學習了。我們並不否認 R1是一款非常優秀的模型,能如此迅速地在推理能力上追趕上令人欽佩。深度求索作為一家中國公司,用更少的資源實現了追趕,這更是令人讚歎。
但 R1提到的一些基準測試也具有誤導性。將 R1與 o1進行比較很棘手,因為 R1特別沒有提及那些自己不領先的基準測試。雖然 R1在推理性能上與 o1相當,但它並非在所有指標上都是明顯的贏家,在很多情況下甚至不如 o1。
我們還沒有提到 o3。o3的能力明顯高於 R1和 o1。事實上,OpenAI最近公布了 o3的結果,其基準測試成績直線上升。「深度學習遇到了瓶頸」,但卻是另一種情況。
谷歌的推理模型與 R1相當在人們為 R1瘋狂炒作時,一家市值2.5萬億美元的美國公司——谷歌,提前一個月發布了一款推理模型 Gemini Flash2.0 Thinking,且價格更低。這款模型可供使用,通過 API調用時,即使其上下文長度更長,價格也比 R1便宜得多。
在已公布的基準測試中,Flash2.0 Thinking的表現優於 R1,盡避基準測試並不能說明全部情況。谷歌只公布了3個基準測試結果,所以這隻是一個不完整的畫面。不過,我們認為谷歌的模型很可靠,在很多方面都能與 R1抗衡,卻沒有得到任何炒作。這可能是因為谷歌的市場推廣策略平淡無奇,用戶體驗也不佳,但也可能是因為 R1來自中國,令人感到意外。
技術成就深度求索已經找到了關鍵方法,實現了領先實驗室尚未取得的創新。我們預計,深度求索公布的任何改進,幾乎都會立即被西方實驗室效仿。
來源:傅里葉的貓/基本常識
訓練(預訓練和后訓練)深度求索 V3大規模應用了前所未有的多令牌預測(MTP)技術,它增加了注意力模塊,能夠預測接下來的幾個令牌,而非單個令牌。這一技術在訓練過程中提升了模型性能,且在推理時可捨棄。這是通過演算法創新實現低計算量下性能提升的一個範例。
訓練過程中還採用了 FP8精度等技術,不過美國的領先實驗室採用 FP8訓練已有一段時間。
深度求索 V3也是一個混合專家模型,即由多個擅長不同領域的小模型組成一個大型模型,這是一種新興的模型架構。混合專家模型面臨的一個難題是如何確定每個令牌該進入哪個子模型(即「專家」模型)。深度求索通過實施「門控網路」,以一種平衡的方式將令牌路由到合適的專家模型,且不影響模型性能。這意味著路由效率極高,在訓練過程中,相對於整個模型的規模,每個令牌僅需改變少量參數。這不僅提高了訓練效率,還降低了推理成本。
盡避有人擔憂混合專家模型(MoE)帶來的效率提升可能並不顯著,節省下來的成本會迅速被投入到構建更大規模的模型中,導致總體投入不會減少。但實際上,MoE提高的效率會加速人工智慧的規模化發展。企業都在專註于擴大模型的計算規模,並提升演算法效率。達里奧指出,更強大的人工智慧模型所帶來的經濟效益十分可觀。
就 R1而言,它極大地受益於強大的基礎模型(V3),部分原因在於強化學習(RL)。強化學習主要聚焦兩個方面:格式規範(確保輸出連貫)以及有用性和無害性(確保模型實用)。在基於合成數據集對模型進行微調的過程中,R1的推理能力得以提升,這與 o1的情況類似。需要注意的是,R1的論文中並未提及計算資源的使用情況,因為提及所用的計算資源會暴露他們實際擁有的 GPU數量比對外宣稱的更多。如此大規模的強化學習,尤其是在生成合成數據時,需要大量的計算資源,正如我們在關於規模定律的文章中所提到的。
此外,深度求索使用的部分數據似乎來自 OpenAI的模型,我們認為這可能會對輸出數據提取相關政策產生影響。從服務條款來看,這種數據提取行為已經屬於違規。未來,一種類似「了解你的客戶」(KYC)的機制可能會出現,以杜絕此類數據提取行為。
多頭潛在注意力機制(MLA)MLA是深度求索大幅降低推理成本的關鍵創新。它能將每次查詢所需的 KV緩存減少約90%(相較於標準注意力機制)。KV緩存是 Transformer模型中的一種內存機制,用於存儲對話上下文數據,減少不必要的計算。
正如我們在規模定律文章中所討論的,隨著對話上下文的增加,KV緩存也會增大,從而帶來顯著的內存限制問題。大幅減少每次查詢所需的 KV緩存,意味著每次查詢所需的硬體資源減少,進而降低成本。不過,我們認為深度求索以成本價提供推理服務是為了獲取市場份額,實際上並未盈利。谷歌的 Gemini Flash2.0 Thinking價格更低,而且谷歌不太可能以成本價提供服務。MLA尤其引起了美國許多領先實驗室的關注,它於2024年5月隨深度求索 V2發布。由於 H20相較於 H100具有更高的內存帶寬和容量,深度求索在使用 H20進行推理工作負載時效率更高。他們還宣布與華為建立合作關係,但目前在昇騰計算方面的合作成果尚不明顯。
我們認為,MLA對利潤率的影響最為值得關注,這對整個生態系統意義重大。以下是我們對未來人工智慧行業定價結構的展望,同時詳細闡述了為何認為深度求索在補貼價格,以及傑文斯悖論初現端倪的原因。此外,我們還將探討出口管制的影響、中國政府可能對深度求索日益增長的主導地位做出的反應等問題。
對利潤率的廣泛影響在利潤率方面,有一個關鍵發現:R1並非從技術層面削弱了 o1的進展,而是以更低的價格實現了相當的能力。這在本質上是合理的,現在我們引入一個關於未來定價機制的框架。
提升能力能夠帶來更高的利潤率。這與半導體製造行業的發展極為相似,台積電率先進入新節點(實現新能力)時,由於創造出了前所未有的產品,從而獲得了顯著的定價權。
其他落後的競爭對手(如三星、英特爾)為了在性價比上達到平衡,會以低於領先者的價格提供產品。對晶元製造商(在此類比為人工智慧實驗室)而言,幸運的是他們可以調整產能。如果在新模型上能夠實現更高的性價比,他們就可以將產能轉移到新模型的生產上。舊型號仍會得到支持,但供應量會減少。這與當前人工智慧實驗室的實際情況以及半導體製造行業的規律高度吻合。
能力的商品化與對更強能力的不懈追求這或許就是能力競爭的未來走向。率先達到新的能力層級,將獲得可觀的定價溢價;而那些迅速跟上的參与者,只能獲得微薄利潤。處於能力層級下游的產品,如果能滿足特定用例的需求,仍會繼續存在。每一代能夠追趕上領先能力的參与者將越來越少。
我們見證的是,R1達到了領先的能力水平,卻以零利潤率定價。這種巨大的價格差異引發了一個問題:為什麼 OpenAI的產品如此昂貴?這是因為他們基於最前沿的技術定價,並享受著前沿技術帶來的溢價。
我們認為,未來的發展將比領先的晶元製造動態更快。追逐最新的能力意味著持續的定價權(例如 ChatGPT Pro),而落後的能力則意味著更低的定價,此時利潤主要來源於為令牌服務的基礎設施。
鑒於我們正處於快速的技術周期中,為追求領先的能力,產品更新換代的速度也會加快。只要你能不斷拓展能力,開發出創造價值的新功能,就理應獲得定價權;否則,在開放模型市場中,你很快就會面臨產品同質化的問題。
我們認為,在這種背景下,人們對當前發生的事情存在根本性的誤解。我們所描述的情況類似於超高速發展的晶元製造行業,這是世界上資本密集度最高的行業。全球沒有哪個行業在研發上的投入比晶元製造行業更多,但與之最相似的現實情況卻被認為對支持模型公司的晶元產業不利。
將人工智慧令牌與傑文斯悖論相比較,會發現二者有著深刻的歷史相似性。起初,人們並不確定晶體管是否能夠不斷縮小尺寸;而當這一趨勢明確后,整個行業便致力於將互補金屬氧化物半導體(CMOS)技術的尺寸縮小到極致,並在此基礎上構建出各種重要功能。我們目前正處於整合多種思維鏈(CoT)模型和能力的初期階段,就像最初對晶體管進行規模化發展一樣。雖然從技術進步的角度來看,這可能是一個動蕩時期,但對英偉達來說卻是有利的。
深度求索補貼推理利潤率實際情況是,市場在尋找一個理由,而他們選擇了這一點。如果深度求索願意接受零利潤率甚至負利潤率,那麼他們的產品價格可能會如此之低,但顯然,提供前沿令牌服務的價格彈性點要高得多。考慮到深度求索正在進行新一輪融資,他們有動機這樣做。
深度求索在推理領域的關鍵切入點上,打破了 OpenAI的領先利潤率。這種領先地位會持續下去嗎?我們認為不會——畢竟一個開放實驗室展示出了封閉實驗室的能力。盡避這一點至關重要,但我們仍需注意,深度求索是一個快速追隨者。
H100價格飆升——傑文斯悖論的體現我們已經看到了這一理論的早期跡象。自 V3和 R1發布以來,AWS多個地區的 H100 GPU價格上漲,H200也更難獲取。
V3發布后,H100價格大幅上漲,因為 GPU開始以更高的費率實現貨幣化。更低的成本實現更強的智能意味著更多的需求。這與前幾個月 H100現貨價格的低迷形成了鮮明對比。
出口管制的影響、深度求索與中國政府從地緣政治的角度來看,深度求索與西方實驗室在能力方面的對比,以及出口管制的影響,都值得深入思考。目前已經實施的人工智慧擴散管制措施,我們認為不會取消。有消息稱,出口管制因深度求索的發展而失敗,但這是對出口管制機制的誤解。最初,H100被禁止出口,而計算能力相近(但帶寬受限)的 H800被允許出口;隨後,H800也被禁止,現在僅允許 H20出口。我們在《加速器模型》中提到,盡避需求巨大,但英偉達在1月份取消了大量 H20訂單,這可能預示著美國即將出台新的禁令。
在這些法律的實施過程中存在寬限期,深度求索很可能在這段時間內大量囤積所需晶元。需要注意的是,H100自發布以來就被禁止出口。從這個角度來看,出口管制未能完全限制高性能晶元的供應。出口管制的目的並非完全切斷中國獲取晶元的渠道,而是對整個生態系統進行嚴格限制,意味著限制數十萬甚至數百萬晶元的供應,而不僅僅是數萬個。
然而,我們預計未來 H20也將被禁止出口,這將進一步限制深度求索獲取晶元的能力。
而他們對晶元的需求十分迫切。
深度求索的產能限制深度求索難以滿足急劇增長的需求。盡避他們擁有世界上最出色的推理技術之一,但進行架構研發、訓練模型,與為數千萬用戶提供可靠服務是截然不同的挑戰。深度求索的註冊服務時常關閉,即便開放註冊時,R1的響應速度也極慢(不過巧妙的用戶體驗設計掩蓋了這一問題)。
我們本月看到的模型受之前出口管制的影響,存在一定滯后性。隨著時間推移,深度求索在擴展模型和服務能力方面將面臨越來越大的困難。擴展能力迫在眉睫,中國也深知這一點。
在與深度求索的首席執行官兼創始人會面后的第二天,中國銀行宣布未來5年將為人工智慧產業鏈提供1400億美元(1萬億元人民幣)的補貼。該補貼的明確目標是助力中國在科技領域實現完全自主,涵蓋基礎研究、產業應用和開發等方面。人工智慧與機器人、生物技術和新材料是重點關注領域。此外,補貼還包括計算基礎設施和數據中心建設,以及為第一代技術設備提供保險和風險管理支持。
我們認為,未來出口管制的影響將更加顯著:演算法和硬體都將不斷進步,美國的實驗室能夠利用這些創新成果進行擴展,達到中國難以企及的高度。雖然中國可能仍會推出與美國實驗室相媲美的模型,但將繼續處於追趕地位。
我們也認為,從長期來看,深度求索有可能不再開源模型,尤其是在中國政府對其工作給予更多關注,並致力於保護演算法創新的情況下。
來源:傅里葉的貓/基本常識