來(lái)源:華爾街見(jiàn)聞
Anthropic CEO阿莫迪認(rèn)為DeepSeek的訓(xùn)練成本降低符合行業(yè)趨勢(shì),并不代表突破性的技術(shù)成就:假設(shè)AI訓(xùn)練成本的下降趨勢(shì)是每年4 倍,如果DeepSeek-V3的訓(xùn)練成本比一年前開(kāi)發(fā)的美國(guó)當(dāng)前模型低約8倍,那其實(shí)完全符合正常趨勢(shì)......即使接受 DeepSeek 的訓(xùn)練成本數(shù)據(jù),他們也只是處于趨勢(shì)線上,甚至可能還未完全達(dá)到。
DeepSeek R1的橫空出世給全球AI行業(yè)帶來(lái)了新的變數(shù)。面對(duì)沖擊,美國(guó)兩大AI巨頭Anthropic與OpenAI迅速做出回應(yīng),試圖淡化市場(chǎng)對(duì)其技術(shù)領(lǐng)先地位的擔(dān)憂。
周三,Anthropic 首席執(zhí)行官達(dá)里奧·阿莫迪 (Dario Amodei) 發(fā)布了一篇長(zhǎng)文討論了DeepSeek的進(jìn)展,他指出DeepSeek 并沒(méi)有“用 600 萬(wàn)美元做到美國(guó) AI 公司花費(fèi)數(shù)十億美元才能實(shí)現(xiàn)的事情”。以 Anthropic 為例,Claude 3.5 Sonnet 是一個(gè)中等規(guī)模的模型,訓(xùn)練成本達(dá)數(shù)千萬(wàn)美元,遠(yuǎn)不是數(shù)十億美元級(jí)別。
他認(rèn)為DeepSeek的訓(xùn)練成本降低符合行業(yè)趨勢(shì),并不代表突破性的技術(shù)成就:
如果 AI 訓(xùn)練成本的下降趨勢(shì)是 每年 4 倍,如果 DeepSeek-V3 的訓(xùn)練成本比一年前開(kāi)發(fā)的美國(guó)當(dāng)前模型低約 8 倍,那其實(shí)完全符合正常趨勢(shì)......即使接受 DeepSeek 的訓(xùn)練成本數(shù)據(jù),他們也只是處于趨勢(shì)線上,甚至可能還未完全達(dá)到。
此前一天,OpenAI首席研究員Mark Chen也對(duì)DeepSeek R1做出回應(yīng),其態(tài)度既肯定又帶有一絲微妙。
Chen承認(rèn)DeepSeek"獨(dú)立發(fā)現(xiàn)了OpenAI在o1模型研發(fā)過(guò)程中的一些核心理念",然而,Chen隨即將焦點(diǎn)轉(zhuǎn)移到成本問(wèn)題上,認(rèn)為"外界對(duì)成本優(yōu)勢(shì)的解讀有些過(guò)頭"。
但紐約大學(xué)教授、AI專家Gary Marcus認(rèn)為,DeepSeek對(duì)OpenAI的影響可能比想象中更大。
Anthropic CEO:DeepSeek并未打破行業(yè)趨勢(shì)
阿莫迪先系統(tǒng)拆解了AI發(fā)展的三大定律:
AI 的一個(gè)核心特性是 規(guī)模驅(qū)動(dòng)性能提升。我和我的聯(lián)合創(chuàng)始人在 OpenAI 工作時(shí),曾是最早記錄這一特性的人之一。在其他條件相同的情況下,訓(xùn)練規(guī)模越大,AI 在一系列認(rèn)知任務(wù)上的表現(xiàn)越穩(wěn)定、越出色。例如,100 萬(wàn)美元訓(xùn)練的模型可能能解決 20% 的關(guān)鍵編碼任務(wù),而 1000 萬(wàn)美元的模型可能達(dá)到 40%,1 億美元的模型則可能提高到 60%。這種差距往往極具實(shí)際影響——再增加 10 倍的計(jì)算量,可能意味著從本科生的水平躍升至博士生的能力。因此,各公司正投入巨額資金訓(xùn)練更大規(guī)模的模型。
AI 領(lǐng)域不斷涌現(xiàn)新的優(yōu)化思路,使模型訓(xùn)練更高效。這可能是架構(gòu)上的改進(jìn)(例如對(duì) Transformer 的優(yōu)化),也可能是底層硬件的效率提升。這些創(chuàng)新會(huì) 降低訓(xùn)練成本:如果某項(xiàng)技術(shù)創(chuàng)新帶來(lái) 2 倍的計(jì)算效率提升,那么本需要 1000 萬(wàn)美元的訓(xùn)練任務(wù),如今只需 500 萬(wàn)美元即可完成。
每家前沿 AI 公司都在不斷發(fā)現(xiàn)這樣的優(yōu)化方案,通常提升幅度為 1.2 倍,有時(shí)是 2 倍,偶爾甚至能達(dá)到 10 倍。由于更智能的 AI 價(jià)值極高,成本效率的提升幾乎總是被用于訓(xùn)練更強(qiáng)的模型,而不是降低總支出——換句話說(shuō),公司只會(huì)在更大的規(guī)模上投入更多資源。
從歷史趨勢(shì)來(lái)看,由于算法和硬件的改進(jìn),AI 訓(xùn)練的計(jì)算成本 每年下降約 4 倍。這意味著,僅靠行業(yè)的正常發(fā)展,2024 年訓(xùn)練一個(gè)模型的成本,理應(yīng)比 2023 年低 3 到 4 倍。
同時(shí),訓(xùn)練成本的下降也帶動(dòng)了推理成本的下降。比如,Claude 3.5 Sonnet 相較 GPT-4 晚了 15 個(gè)月發(fā)布,但幾乎在所有基準(zhǔn)測(cè)試中都勝出,同時(shí) API 價(jià)格也下降了 約 10 倍。
AI 訓(xùn)練方法也在不斷演變。從 2020 年到 2023 年,行業(yè)的主要擴(kuò)展方式是增加預(yù)訓(xùn)練規(guī)模,即在海量互聯(lián)網(wǎng)文本上訓(xùn)練模型,然后輔以少量額外訓(xùn)練。而 2024 年,強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練 成為了新的關(guān)鍵突破口。這一方法顯著提升了 AI 在數(shù)學(xué)、編程競(jìng)賽等推理任務(wù)上的表現(xiàn)。例如,OpenAI 在 9 月發(fā)布的 o1-preview 模型,就采用了這一技術(shù)。
我們?nèi)蕴幱?RL 訓(xùn)練擴(kuò)展的早期階段。現(xiàn)階段,即便只額外投入 100 萬(wàn)美元進(jìn)行 RL 訓(xùn)練,也能帶來(lái)巨大收益。公司們正加速擴(kuò)大 RL 訓(xùn)練規(guī)模,但目前 AI 仍處于一個(gè)獨(dú)特的拐點(diǎn)——這意味著只要起點(diǎn)足夠強(qiáng),短期內(nèi)多個(gè)公司都能推出性能相近的模型。
阿莫迪指出以上三點(diǎn)有助于理解 DeepSeek 最近的發(fā)布。大約一個(gè)月前,DeepSeek 推出了 DeepSeek-V3,一個(gè)僅進(jìn)行預(yù)訓(xùn)練的模型。隨后,上周他們發(fā)布了 R1,加入了第二階段的強(qiáng)化學(xué)習(xí)訓(xùn)練。
阿莫迪表示,DeepSeek-V3 其實(shí)是一個(gè)值得關(guān)注的創(chuàng)新。作為預(yù)訓(xùn)練模型,它在某些任務(wù)上接近了美國(guó)最先進(jìn)模型的性能,同時(shí)訓(xùn)練成本顯著降低,盡管在現(xiàn)實(shí)世界任務(wù),如編碼能力等方面,Claude 3.5 Sonnet 仍遙遙領(lǐng)先。DeepSeek 團(tuán)隊(duì)在鍵值緩存管理和專家混合架構(gòu)等方面做出了一些真正出色的工程優(yōu)化。
但阿莫迪認(rèn)為,有幾點(diǎn)需要澄清:
DeepSeek 并沒(méi)有“用 600 萬(wàn)美元做到美國(guó) AI 公司花費(fèi)數(shù)十億美元才能實(shí)現(xiàn)的事情”。以 Anthropic 為例,Claude 3.5 Sonnet 是一個(gè)中等規(guī)模的模型,訓(xùn)練成本達(dá) 數(shù)千萬(wàn)美元,遠(yuǎn)不是數(shù)十億美元級(jí)別。并且,Claude 3.5 Sonnet 訓(xùn)練于 9-12 個(gè)月前,而 DeepSeek 的模型訓(xùn)練于 2023 年 11 月至 12 月,即便如此,Claude 3.5 Sonnet 在多個(gè)關(guān)鍵評(píng)估中仍明顯領(lǐng)先。
DeepSeek 的訓(xùn)練成本并未突破行業(yè)趨勢(shì)。如果成本曲線下降的歷史趨勢(shì)是每年約 4 倍,那么按照正常業(yè)務(wù)發(fā)展——即 2023 年和 2024 年的成本下降趨勢(shì)——我們現(xiàn)在應(yīng)該會(huì)看到一個(gè)比 3.5 Sonnet/GPT-4 便宜 3 到 4 倍的模型。然而,DeepSeek-V3 的性能比這些美國(guó)前沿模型差一些——假設(shè)在擴(kuò)展曲線上差約 2 倍,這已經(jīng)是對(duì) DeepSeek-V3 相當(dāng)慷慨的估計(jì)了——這意味著,如果 DeepSeek-V3 的訓(xùn)練成本比一年前開(kāi)發(fā)的美國(guó)當(dāng)前模型低約 8 倍,那其實(shí)完全符合正常趨勢(shì)。我雖不便給出確切數(shù)字,但從前面的分析可以看出,即使接受 DeepSeek 的訓(xùn)練成本數(shù)據(jù),他們也只是處于趨勢(shì)線上,甚至可能還未完全達(dá)到。比如,這比原始 GPT-4 到 Claude 3.5 Sonnet 的推理價(jià)格差異(10 倍)要小,而且 3.5 Sonnet 本身也是一個(gè)比 GPT-4 更好的模型。這些都表明,DeepSeek-V3 并非獨(dú)特的突破,也沒(méi)有從根本上改變 LLM 的經(jīng)濟(jì)性,它只是持續(xù)成本降低曲線上一個(gè)預(yù)期的點(diǎn)。不同的是,這次第一個(gè)展示預(yù)期成本降低的公司是中國(guó)的,這在以往從未有過(guò),具有重大的地緣政治意義。不過(guò),美國(guó)公司很快也會(huì)跟上這一趨勢(shì)——他們不會(huì)通過(guò)抄襲 DeepSeek 來(lái)實(shí)現(xiàn)成本降低,而是因?yàn)樗麄冏陨硪苍谘刂R?guī)的成本降低趨勢(shì)發(fā)展。
DeepSeek 不是第一個(gè)實(shí)現(xiàn)成本優(yōu)化的公司,但它是第一個(gè)來(lái)自中國(guó)的公司。這一點(diǎn)在地緣政治上意義重大。但同樣,美國(guó) AI 公司也會(huì)很快跟進(jìn)——并不是通過(guò)抄襲 DeepSeek,而是因?yàn)樗鼈儽揪脱刂瑯拥募夹g(shù)路線前進(jìn)。
此外,阿莫迪指出,DeepSeek 擁有50000 顆 Hopper 代 GPU,估值約 10 億美元,與主要美國(guó) AI 公司持有的芯片規(guī)模相差 2-3 倍。這意味著 DeepSeek 的整體投入并不比美國(guó) AI 實(shí)驗(yàn)室少太多。
阿莫迪表示,上周發(fā)布的 R1 之所以引發(fā)關(guān)注(甚至導(dǎo)致英偉達(dá)股價(jià)下跌 17%),并不是因?yàn)樗诩夹g(shù)上比 V3 更具創(chuàng)新性。它的強(qiáng)化學(xué)習(xí)訓(xùn)練本質(zhì)上只是復(fù)制了 OpenAI 在 o1-preview 模型中的做法。由于 AI 訓(xùn)練仍處于 RL 擴(kuò)展的早期,幾家公司目前能產(chǎn)出相似水平的模型,但這一狀況不會(huì)持續(xù)太久,隨著擴(kuò)展規(guī)模的擴(kuò)大,領(lǐng)先者很快會(huì)拉開(kāi)差距
OpenAI高管:外界對(duì)成本優(yōu)勢(shì)的解讀有些過(guò)頭
OpenAI首席研究員Mark Chen在社交媒體上對(duì)DeepSeek的成就表示祝賀:
“祝賀DeepSeek成功研發(fā)出o1級(jí)推理模型!他們的研究論文表明,他們獨(dú)立發(fā)現(xiàn)了我們?cè)趯?shí)現(xiàn)o1過(guò)程中所采用的一些核心思想”
但Chen隨即將焦點(diǎn)轉(zhuǎn)移到成本問(wèn)題上,認(rèn)為"外界對(duì)成本優(yōu)勢(shì)的解讀有些過(guò)頭"。他提出了"雙軸優(yōu)化"(pre-training and reasoning)的概念,暗示OpenAI在成本控制方面同樣有能力。
Chen還提到了"蒸餾技術(shù)"的成熟和"成本與能力解耦"的趨勢(shì),強(qiáng)調(diào)OpenAI在模型壓縮和優(yōu)化技術(shù)方面的探索。他特別指出,"低成本服務(wù)模型(尤其是在較高延遲下)并不意味著擁有更強(qiáng)的模型能力"。
最后,Chen表示OpenAI將繼續(xù)在"降低成本"和"提升能力"兩個(gè)方向上"雙管齊下",并承諾"今年會(huì)發(fā)布更優(yōu)秀的模型"。
AI專家:DeepSeek對(duì)OpenAI構(gòu)成威脅
紐約大學(xué)教授、AI專家Gary Marcus則認(rèn)為,DeepSeek的出現(xiàn)對(duì)OpenAI構(gòu)成了實(shí)質(zhì)性威脅。
他指出,"DeepSeek基本上免費(fèi)提供了OpenAI想要收費(fèi)的東西。"Marcus認(rèn)為,這可能會(huì)嚴(yán)重影響OpenAI的商業(yè)模式。
Marcus還強(qiáng)調(diào),DeepSeek比OpenAI更開(kāi)放,這將吸引更多人才。他質(zhì)疑OpenAI 1570億美元的估值,認(rèn)為在每年損失約50億美元的情況下,這一估值難以證明合理性。
風(fēng)險(xiǎn)提示及免責(zé)條款
市場(chǎng)有風(fēng)險(xiǎn),投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議,也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見(jiàn)、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)。
DeepSeek刺激人工智能之憂 美國(guó)股市在科技巨頭拖累下慘遭拋售
超越OpenAI o1! DeepSeek-R1升至全球風(fēng)格控制類第一,“中國(guó)模型”震動(dòng)華爾街
中國(guó)大模型掀起滔天巨浪!華爾街頂級(jí)風(fēng)投:“DeepSeek是AI的斯普特尼克時(shí)刻”
特朗普拒絕全球稅改協(xié)議,美國(guó)稅收新政影響不可低估
光大證券宏觀:為什么我們認(rèn)為美國(guó)通脹將低于預(yù)期?
遠(yuǎn)不止科技股!德銀:DeepSeek將影響美聯(lián)儲(chǔ)、美國(guó)經(jīng)濟(jì),長(zhǎng)期利空美元
美國(guó)銀行業(yè)業(yè)績(jī)強(qiáng)勁“爆棚” 美銀向全球員工發(fā)放10億美元股票激勵(lì)