來源:中信建投證券研究
中國DeepSeek爆火全球,為AI行業(yè)的發(fā)展注入了嶄新的活力,全面引領(lǐng)AI浪潮。
近期DeepSeek多款模型上線并完全開源,其中R1在推理任務(wù)上基本實現(xiàn)于o1相當(dāng)?shù)男阅埽琂anus-Pro 在多模態(tài)理解和生成方面表現(xiàn)較好。受春節(jié)信息傳播下沉促進,DeepSeek出圈并成為全球增速最快的 AI 原生應(yīng)用,日活躍用戶數(shù)在2月1日突破3000萬大關(guān)。此外,DeepSeek通過算法迭代、架構(gòu)升級,使通用及推理模型成本相較于OpenAI同類模型下降至數(shù)十分之一以下。
中信建投證券計算機、人工智能、通信、傳媒、策略研究團隊推出【DeepSeek產(chǎn)業(yè)鏈投資機遇】:
01?DeepSeek核心十問十答
DeepSeek-R1模型發(fā)布,具有高性能、低算力需求的特性,帶動小模型推理能力的提升,引發(fā)全球開發(fā)者及用戶關(guān)注。R1作為開源模型性能接近頭部閉源模型o1,一定程度上已經(jīng)反映了AI平權(quán),同時純強化學(xué)習(xí)對推理能力的提升帶來RL范式泛化可能,預(yù)計后續(xù)基模的持續(xù)迭代,有望推動AI全產(chǎn)業(yè)鏈持續(xù)保持高景氣和高關(guān)注度,關(guān)注算力、應(yīng)用、端側(cè)、數(shù)據(jù)等核心投資機會。
DeepSeek模型密集更新,高性能+低成本促進用戶數(shù)高增
近期DeepSeek多款模型上線并完全開源,其中R1在推理任務(wù)上基本實現(xiàn)于o1相當(dāng)?shù)男阅埽琂anus-Pro 在多模態(tài)理解和生成方面表現(xiàn)較好。受春節(jié)信息傳播下沉促進,DeepSeek出圈并成為全球增速最快的 AI 原生應(yīng)用,第18天達(dá)到1500萬日活。此外,DeepSeek通過算法迭代、架構(gòu)升級,使通用及推理模型成本相較于OpenAI同類模型下降至數(shù)十分之一以下。
技術(shù)不斷革新,大模型Scaling Law仍有效
DeepSeek通過多頭潛在注意力、MoE、多token預(yù)測等架構(gòu)和基礎(chǔ)設(shè)施創(chuàng)新實現(xiàn)了高效訓(xùn)練,并在R1-Zero模型驗證了純強化學(xué)習(xí)對推理能力的提升。盡管Pre-Training Scaling面臨技術(shù)、算力、數(shù)據(jù)的制約,但強化學(xué)習(xí)帶來了規(guī)模化擴張新方向,預(yù)計各廠商將陸續(xù)跟進,持續(xù)優(yōu)化模型架構(gòu)。
DeepSeek-R1促進AI平權(quán),產(chǎn)業(yè)鏈享受發(fā)展紅利
R1作為開源模型性能接近頭部閉源模型o1,一定程度上已經(jīng)反映了AI平權(quán)。同時,R1使小模型具備推理能力成為可能,更低的成本將更有利于開發(fā)者探索AI的實際落地。
一、DeepSeek模型密集更新,高性能+低成本促進用戶數(shù)高增
1.1 第一問:DeepSeek的用戶量趨勢?
DeepSeek堅定開源路線,密集更新MoE、推理、多模態(tài)模型。近期,DeepSeek連續(xù)發(fā)布并開源多個大模型,其低成本、高性能的特性迅速引發(fā)全球用戶的關(guān)注。其中,2024年12月26日發(fā)布的DeepSeek-V3為671B參數(shù)的自研 MoE 模型,運行時僅需激活37B,在 14.8T token 的數(shù)據(jù)上進行了預(yù)訓(xùn)練;2025年1月20日發(fā)布的DeepSeek-R1為660B的高性能推理模型,對用戶開放思維鏈輸出,允許用戶通過蒸餾技術(shù)借助 R1 訓(xùn)練其他模型;2025年1月27日,DeepSeek在Hugging Face平臺上傳了視覺模型 Janus-Pro和多模態(tài)理解模型JanusFlow -1.3B,進一步在圖像領(lǐng)域發(fā)力。
DeepSeek Web端與APP端訪問量持續(xù)增長,春節(jié)信息傳播下沉加速產(chǎn)品關(guān)注度裂變。Web端,2024年10月至2024年12月DeepSeek訪問量分別為245/422/1101萬,其中11月和12月分別同比增長72.24%/160.90%,12月受全新開源模型V3促進訪問量大幅增長;APP端,DeepSeek 2025年1月10日(官方公眾號1月15日正式發(fā)文)在iOS/Android上線官方APP,而后受益于1月20日發(fā)布R1模型的高性能、低成本,疊加春節(jié)期間信息傳播下沉,產(chǎn)品關(guān)注度呈裂變式增長。具體而言,DeepSeek APP安卓/iOS端國區(qū)單日下載量均于1月26日前后迎來陡增,至1月29日單日下載量分別達(dá)到784.15/29.92萬;同時,DeepSeek 安卓端在華為應(yīng)用商店下載排行中位列第四,iOS端則霸榜全球173個地區(qū)中160/162/171個總榜(免費)/應(yīng)用(免費)/效率(免費)第一;此外,從產(chǎn)品發(fā)布日起日活用戶看,DeepSeek第5天超過 ChatGPT,第15天以259萬日活達(dá)到 ChatGPT 的2倍,亦為全球增速最快的 AI 原生應(yīng)用,第18天達(dá)到1500萬日活,而ChatGPT上線第244天才達(dá)到1500萬DAU。
我們認(rèn)為,DeepSeek用戶數(shù)將持續(xù)高速增長。一方面DeepSeek作為開源路線的堅定踐行者,有望受到全球開發(fā)者的高度關(guān)注;另一方面受益于春節(jié)期間信息傳播下沉,DeepSeek的國內(nèi)滲透率將持續(xù)提升。
1.2 第二問:R1和Janus-pro模型的性能如何?
DeepSeek-R1 在推理任務(wù)上基本實現(xiàn)與 OpenAI-o1相當(dāng)?shù)男阅埽^o3模型仍有差距。DeepSeek在R1模型的測試過程中,選取英文、中文、數(shù)學(xué)、代碼等基準(zhǔn)測試,與Claude-3.5、GPT-4o、DeepSeek-V3、OpenAI o1、OpenAI o1-mini等模型進行比較:
教育為導(dǎo)向的知識任務(wù):在以MMLU(R1 90.8分;V3 88.5分;o1 91.8分)和GPQA Diamond(R1 71.5分;V3 59.1分;o1 75.7分;o3 87.7分)為代表的知識基準(zhǔn)上,R1相比V3表現(xiàn)出更優(yōu)越的性能,主因大規(guī)模強化學(xué)習(xí)(RL)促進STEM相關(guān)問題上準(zhǔn)確性顯著進步;在依賴長上下文的FRAMES(R1 82.5分;V3 73.7分)基準(zhǔn),R1同樣展示了強大的文檔分析能力。
中英文搜索和數(shù)據(jù)分析任務(wù):在英文事實基準(zhǔn)測試SimpleQA(R1 30.1分;V3 24.9分;o1 47.0分)上,R1優(yōu)于V3,展現(xiàn)了模型基于事實的查詢能力;而在中文事實基準(zhǔn)測試C-SimpleQA(R1 63.7分;V3 68.0分)上,R1表現(xiàn)不如V3,主要系安全強化學(xué)習(xí)后模型傾向于拒絕回答某些查詢。如果沒有安全RL, R1的準(zhǔn)確率可以超過70%。此外,R1模型在IF-Eval(R1 83.3分;V3 86.1分)、AlpacaEval2.0(R1 87.6分;V3 70.0分)和ArenaHard(R1 92.3分;V3 85.5分)等基準(zhǔn)測試中同樣表現(xiàn)較好,展現(xiàn)了模型在遵循格式指令、寫作任務(wù)和開放域問答上的能力。
數(shù)學(xué)任務(wù):在數(shù)學(xué)任務(wù)上, R1 表現(xiàn)出與 o1相當(dāng)?shù)男阅埽瑑?yōu)于其他非推理模型,突出了推理模型在數(shù)學(xué)測試中的主導(dǎo)地位。例如在AIME 2024基準(zhǔn)上,R1/V3/o1/o3分別得分79.8/39.2/79.2/96.7分;在Math-500基準(zhǔn)上,R1/V3/o1分別得分97.3/90.2/96.4分。
編碼任務(wù):推理模型在數(shù)學(xué)測試中同樣表現(xiàn)更佳,例如在Codeforces基準(zhǔn)上,R1/V3/o1/o3分別得分2029/1134/2061/2727分,分別超過96.3%/58.7%/96.6%/99.9%的人類參賽者;在SWE-bench Verified基準(zhǔn)上,R1/V3/o1/o3分別得分49.2/42.0/48.9/71.7分。
蒸餾技術(shù)能顯著提升小模型推理能力。通過向更高效的小模型蒸餾DeepSeek-R1的輸出,能夠顯著提升小模型推理能力。例如,向Qwen2.5-Math-7B蒸餾R1模型得到的DeepSeek-R1-Distill-Qwen-7B(簡稱R1-7B,下同),全面超越非推理模型如GPT-4o;向Qwen2.5-14B蒸餾得到R1-14B在所有評估指標(biāo)上均超過了QwQ-32B-Preview;而向Qwen2.5-32B和Llama-3.3-70B-Instruct蒸餾得到的R1-32B和R1-70B在大多數(shù)基準(zhǔn)測試中顯著超越了o1-mini。
Janus-Pro 在多模態(tài)理解和生成方面優(yōu)于統(tǒng)一模型和單一功能模型。Janus-pro主要延續(xù)Janus通過解耦多模態(tài)理解和生成的研究思路,通過優(yōu)化訓(xùn)練策略、擴展訓(xùn)練數(shù)據(jù)和模型規(guī)模等方面提高模型性能:
多模態(tài)理解:在Janus測試過程中選取POPE、MME-P、MMB、SEED、MMMU、MM-Vet等廣泛認(rèn)可的圖像視覺語言基準(zhǔn)測試,同時包括了一種用于真實世界視覺推理和組合式問答的新數(shù)據(jù)集GQA。與其他前沿圖像理解生成統(tǒng)一模型和僅用于理解的模型相比,Janus-Pro 取得了總體最佳的結(jié)果,例如Janus-Pro-7B在多模態(tài)理解基準(zhǔn)MMBench上得分79.2,超越了包括Janus(69.4)、TokenFlow(68.9)和MetaMorph(75.2)等,主因其將多模態(tài)理解和生成的視覺編碼解耦,緩解了這兩個任務(wù)之間的沖突。此外,Janus-Pro與規(guī)模更大的模型相比仍具競爭力,例如Janus-Pro-7B在除GQA外的其他基準(zhǔn)測試上的表現(xiàn)都優(yōu)于 TokenFlow-XL(13B)。
文本-圖像生成:為評估Janus視覺生成能力,DeepSeek采用 GenEval(文本到圖像構(gòu)圖能力基準(zhǔn)測試)和 DPG-Bench(密集提示圖基準(zhǔn)測試)兩個工具進行測試。Janus-Pro-7B 在 GenEval 上的總體準(zhǔn)確率達(dá)到 80%,超過了所有其他統(tǒng)一模型或僅用于生成的模型,包括Transfusion(63%)、SD3-Medium(74%)和 DALL-E 3(67%),反映Janus-Pro具有更好的指令跟隨能力。同時,Janus-Pro 在 DPG-Bench 上的得分為 84.19,超過了所有其他方法,表明 Janus-Pro 在遵循用于文本到圖像生成的密集指令方面表現(xiàn)出色。
我們認(rèn)為,DeepSeek-R1性能已基本達(dá)到OpenAI-o1水平,較o3模型基準(zhǔn)測試表現(xiàn)仍有不小差距,隨著DeepSeek在MoE架構(gòu)、強化學(xué)習(xí)等技術(shù)上進一步迭代,推理模型性能表現(xiàn)有望持續(xù)增長;Janus-Pro在多模態(tài)理解和生成方面則相對表現(xiàn)較好,一定程度驗證了圖像理解和生成解耦思路的可行性。
1.3 第三問:如何看待DeepSeek-V3模型的訓(xùn)練成本?
DeepSeek通用及推理模型成本相較于OpenAI同類模型下降至數(shù)十分之一以下:
通用模型方面,2024年12月26日DeepSeek-V3更新上線,模型API服務(wù)定價調(diào)整為每百萬輸入tokens 0.5元(緩存命中)/ 2元(緩存未命中),每百萬輸出tokens 8元。此外,V3模型設(shè)置長達(dá)45天的優(yōu)惠價格體驗期:2025年2月8日前,V3的API服務(wù)價格仍保持每百萬輸入tokens 0.1元(緩存命中)/ 1元(緩存未命中),每百萬輸出tokens 2元。與此同時,OpenAI GPT-4o的API服務(wù)定價為每百萬輸入tokens 1.25美元(緩存命中)/ 2.5美元(緩存未命中),每百萬輸出tokens 10美元。
推理模型方面,DeepSeek-R1 API 服務(wù)定價為每百萬輸入 tokens 1元(緩存命中)/ 4元(緩存未命中),每百萬輸出 tokens 16元。而OpenAI o1的API 服務(wù)定價為每百萬輸入 tokens 7.5美元(緩存命中)/ 15美元(緩存未命中),每百萬輸出 tokens 60美元。
需要注意的是,不同模型token切分方法可能不同,通常1 token可對應(yīng)1-2個中文漢字,或?qū)?yīng)3-4個英文字符,或0.75個英文單詞。
DeepSeek-V3(R1的基礎(chǔ)模型)總訓(xùn)練成本僅為 557.6 萬美元,但不包括架構(gòu)、算法等成本。以H800算力計算,DeepSeek-V3預(yù)訓(xùn)練階段在不到兩個月的時間內(nèi)完成,耗費266.4萬個GPU小時,加上上下文長度擴展所需的11.9萬個GPU小時和后訓(xùn)練階段的0.5萬個GPU小時,DeepSeek-V3的完整訓(xùn)練僅需 278.8 萬個 GPU 小時;假設(shè) H800 GPU 的租用價格為每 GPU 小時 2 美元,我們的總訓(xùn)練成本僅為 557.6 萬美元。需要注意的是,上述成本僅包括 DeepSeek-V3 的正式訓(xùn)練成本,不包括與架構(gòu)、算法或數(shù)據(jù)的前期研究及消融實驗相關(guān)的成本。
根據(jù)我們測算,GPT-4需要2.5萬張A100訓(xùn)練95天(5700萬A100 GPU小時),OpenAI o1需要用3.2萬張H100訓(xùn)練90天(6912萬H100 SXM GPU小時):1)GPT-4由16個111B的MoE模型構(gòu)成,其中兩個用于向前傳播,另有55B被用做注意力機制的共享,則GPT-4的激活參數(shù)量約為280B,我們假定o1模型激活參數(shù)量是GPT-4的兩倍,達(dá)到560B;2)GPT-4的預(yù)訓(xùn)練數(shù)據(jù)集token量為13B,我們假定o1模型接近其兩倍,達(dá)到25B;3)GPT-4的訓(xùn)練時間約為90-100天,我們?nèi)≈虚g值95天,并假定o1的訓(xùn)練周期為90天;4)GPT-4的GPU利用率在32%到36%之間,我們?nèi)≈虚g值34%,并假定o1 GPU利用率也為34%;5)根據(jù)OpenAI在Scaling Laws 論文中給出的經(jīng)驗公式計算(C = rT ≈ 6*P*D,P為模型參數(shù)量,D為訓(xùn)練集token大小,r為訓(xùn)練集群硬件FLOPS總吞吐),則OpenAI o1預(yù)訓(xùn)練需要用3.2萬張H100。
算法迭代、架構(gòu)升級促進DeepSeek-V3模型訓(xùn)練成本降低,符合產(chǎn)業(yè)趨勢。相較于GPT-4和o1模型,DeepSeek-R1的基礎(chǔ)模型DeepSeek-V3訓(xùn)練成本明顯更低,結(jié)合V3技術(shù)報告和上述計算過程,我們認(rèn)為成本優(yōu)化主要緣于:1)V3模型通過DeepSeekMoE架構(gòu)(3.1中將進一步說明),使用更細(xì)粒度專家模型,同時隔離部分共享專家,提高計算資源利用率,激活參數(shù)少(僅37B),算力消耗低;2)V3模型采用MLA算法(3.1中將進一步說明),通過低秩聯(lián)合壓縮注意力鍵值,減少推理時的鍵值(KV)緩存,降低計算量;3)Dual Pipe框架實現(xiàn)高效流水線并行,或顯著提高GPU利用率;4)DeepSeek提出了一種利用FP8數(shù)據(jù)格式進行訓(xùn)練的細(xì)粒度混合精度框架,通過低精度訓(xùn)練優(yōu)化訓(xùn)練效率。
二、技術(shù)不斷革新,大模型Scaling Law仍有效
2.1 第四問:DeepSeek-V3/R1技術(shù)革新有哪些?
通過架構(gòu)和基礎(chǔ)設(shè)施創(chuàng)新,DeepSeek-V3實現(xiàn)了高效訓(xùn)練,奠定R1模型優(yōu)化基礎(chǔ)。架構(gòu)方面,DeepSeek-V3延續(xù)了V2模型的MLA和DeepSeek MoE架構(gòu),同時進一步開創(chuàng)了無輔助損失的負(fù)載均衡策略,并設(shè)定了多token預(yù)測(MTP)訓(xùn)練目標(biāo)以增強性能:
多頭潛在注意力(MLA):LLM的核心機制是自注意力(Self-Attention),其要求模型在生成每個token時考慮之前所有詞的關(guān)系,則假設(shè)文本長度n時總體復(fù)雜度為〖O(n〗^3)=O(Σn^2);過去的研究提出了KV Cache方法,利用鍵值對(KV)存儲已計算的注意力信息,此時總體復(fù)雜度降低為O(n^2);而MLA則進一步通過投影的方式,將token的相異信息通過投影矩陣存儲,在幾乎不損失信息的情況下減少鍵值的緩存需求。
DeepSeekMoE:專家混合模型(MoE)是當(dāng)前大模型技術(shù)中對前饋神經(jīng)網(wǎng)絡(luò)(FNN)的一種替代方案。不同于FNN需要全部權(quán)重參與計算,MoE利用門控機制判斷輸入數(shù)據(jù)需要由哪些專家模型參與處理。相較于主流MoE模型,DeepSeekMoE使用更細(xì)粒度的專家,并隔離一些模型作為共享專家,進一步優(yōu)化了激活參數(shù)。此外,為解決專家負(fù)載不平衡導(dǎo)致的路由崩潰和計算效率降低,DeepSeek提出無輔助損失負(fù)載均衡策略,為每個專家模型添加可動態(tài)調(diào)整的偏差項,確保訓(xùn)練過程中專家負(fù)載平衡、提高模型性能。
多token預(yù)測(MTP):主流大模型token-by-token生成序列,而每次token生成需要頻繁與訪存交互,從而因為訪存效率形成訓(xùn)練或推理的瓶頸。MTP方法主要將單token的生成,轉(zhuǎn)變成多token的生成,提升訓(xùn)練和推理的性能。DeepSeek主要對過往MTP算法進行了一定優(yōu)化,順序預(yù)測額外token,并在每個預(yù)測深度保持完整的因果鏈。
除了基礎(chǔ)架構(gòu),DeepSeek還在基礎(chǔ)設(shè)施方面進行了一定優(yōu)化。例如設(shè)計了一種創(chuàng)新的管道并行算法 DualPipe,在每一對前向和后向塊內(nèi)重疊計算和通信,提高通信效率、加速了模型訓(xùn)練;提出了一種用于 FP8 訓(xùn)練的混合精度框架,其中大多數(shù)計算密集型操作在 FP8 精度下進行,而一些關(guān)鍵操作則戰(zhàn)略性地保持在原始數(shù)據(jù)格式以平衡訓(xùn)練效率和數(shù)值穩(wěn)定性;訓(xùn)練過程中,采用英偉達(dá) PTX(并行線程執(zhí)行)匯編級編程替代標(biāo)準(zhǔn) CUDA 方案,實現(xiàn)了硬件級深度優(yōu)化,減少了計算冗余,提高了推理速度。
R1-Zero驗證純強化學(xué)習(xí)(RL)對推理能力的提升,R1則強調(diào)冷啟動和多階段訓(xùn)練的平衡。R1-Zero的特別之處在于,其無需任何監(jiān)督微調(diào)數(shù)據(jù)即可獲得強大的推理能力,反映了模型僅通過強化學(xué)習(xí)就能有效學(xué)習(xí)和泛化的能力。具體而言,R1-Zero模型在RL過程中延續(xù)了DeepSeek-V3組相對策略優(yōu)化算法(GRPO),通過組內(nèi)獎勵對比優(yōu)化策略,而不需要額外的判別器,最終實現(xiàn)訓(xùn)練集上的平均響應(yīng)長度持續(xù)提升,自然地學(xué)會了通過更多的思考時間來解決推理任務(wù);此外,R1-Zero訓(xùn)練過程自然地涌現(xiàn)出“思考能力”,即模型自發(fā)學(xué)會了重新評估其初始回答,并為問題分配更多的思考時間,這種“反思”的特性能夠一定程度解決大模型幻覺問題(大模型逐token輸出,過去沒有機制去糾正已經(jīng)輸出的錯誤,反而會繼續(xù)用錯誤掩蓋先前的問題,帶來幻覺問題)。
盡管R1-Zero模型展現(xiàn)了強大的推理能力,但仍面臨可讀性差和語言混合等挑戰(zhàn),R1模型則通過冷啟動和多階段訓(xùn)練解決了上述問題。R1同樣從DeepSeek-V3-Base基礎(chǔ)模型出發(fā),經(jīng)過數(shù)千條優(yōu)質(zhì)長鏈思維(CoT)數(shù)據(jù)微調(diào)(SFT)作為冷啟動,使模型輸出更符合要求、可讀性更強;而后,針對微調(diào)后的模型采用與R1-Zero相同的大規(guī)模強化學(xué)習(xí),并引入語言一致性獎勵,直至模型在推理任務(wù)上達(dá)到收斂;面向推理的強化學(xué)習(xí)收斂后,利用生成的檢查點收集新的SFT數(shù)據(jù),從而融入來自其他領(lǐng)域的數(shù)據(jù),以增強模型在寫作、角色扮演和其他通用任務(wù)中的能力;最后,為了進一步使模型與人類偏好保持一致,實施次級RL階段,旨在提高模型的有用性和無害性、精煉其推理能力。通過冷啟動和多階段訓(xùn)練,R1模型最終具備較強的推理性能,同時在可讀性上表現(xiàn)較好。
R1系列模型提供了RL Scaling Law的可行方向。實際上,在OpenAI推出o1模型時即發(fā)現(xiàn)了推理性能隨著訓(xùn)練時間和測試時間計算而平穩(wěn)提升的“RL Scaling law”,但業(yè)內(nèi)尚未通過過程獎勵模型(PRM)和蒙特卡洛樹搜索(MCTS)等方法做出較好的效果,R1的技術(shù)報告更是提到PRM和MCTS存在難以規(guī)模化拓展、獎勵欺騙等問題。R1模型的技術(shù)報告提供了一種多階段訓(xùn)練的方式,其中在第一階段RL過程中,研究人員可以通過擴大RL訓(xùn)練集的方式提升模型性能,或為一種可以驗證的“RL Scaling law”方向;OpenAI首席研究官Mark Chen也承認(rèn),“DeepSeek的確獨立發(fā)現(xiàn)了一些o1的核心思路”。
蒸餾使小模型具備較強邏輯推理能力的思路或與OpenAI o1-mini不同。據(jù)張俊林分析,o1系列模型更可能是重新訓(xùn)練的(OpenAI多次強調(diào)o1-mini邏輯推理能力強,但在世界知識方面弱;如果其基于GPT系列模型而來,世界知識應(yīng)該不會弱于GPT 4o-mini),而DeepSeek-R1則是在V3的基礎(chǔ)上通過強化學(xué)習(xí)訓(xùn)練得到。因此,DeepSeek通過向更高效的小模型蒸餾DeepSeek-R1的輸出,顯著提升小模型推理能力,更可能走出了與OpenAI o1-mini不同的道路,從而實際上打破了之前“小模型邏輯推理能力難以通過蒸餾提升”的研究結(jié)論。
此時,小模型有望通過“能力分治”(DCA)的模式將語言、世界知識及邏輯推理三個能力解耦,即語言能力靠小模型自身、邏輯推理靠RL+蒸餾,世界知識靠外掛RAG,從而具備目前最強大模型的能力,對于中小型開發(fā)者而言,部署模型也將更加友好。
我們認(rèn)為,DeepSeek-V3/R1系列模型的核心突破在于1)技術(shù)及架構(gòu)升級顯著優(yōu)化模型訓(xùn)練成本,即工程優(yōu)化了MoE模型架構(gòu),預(yù)計未來各廠商仍將圍繞MoE模型進行注意力頭的架構(gòu)優(yōu)化;2)組相對策略優(yōu)化算法(GRPO)實質(zhì)上僅依賴模型自身近些迭代,實現(xiàn)了“反思能力”;3)提供了一種具體可行的“RL Scaling law”方向,各廠商或?qū)⒏M并繼續(xù)探索其他方向;4)蒸餾使小模型具備較強邏輯推理能力,有望促進中小型開發(fā)者推出相關(guān)應(yīng)用。
2.2 第五問:Janus系列模型技術(shù)革新有哪些?
Janus系列模型緩解多模態(tài)理解和生成的沖突,提升模型能力表現(xiàn)。多模態(tài)理解與生成任務(wù)本身存在視覺編碼器需求的沖突,其中在理解任務(wù)中,視覺編碼器的目的是提取高層次的語義信息并進行表示;而生成任務(wù)則主要關(guān)注生成局部細(xì)節(jié)并在圖像中保持全局一致性,因此需要低維度編碼表示空間結(jié)構(gòu)和紋理細(xì)節(jié)。Janus系列模型的核心技術(shù)在于實現(xiàn)多模態(tài)理解與生成的解耦,通過2 個獨立的視覺編碼路徑,緩解多模態(tài)理解和生成的沖突,從而提高模型的能力表現(xiàn)和可擴展性。
多模態(tài)生成模型架構(gòu)尚無定論,自回歸和擴散模型持續(xù)發(fā)展。目前圖像生成模型主要包括以Transformer 為代表的自回歸生成、以 DDPM、LDM、DiT 為代表的擴散模型,以及 MaskGIT、MAR等掩碼自回歸圖像生成三類架構(gòu)。自回歸架構(gòu)通過算法逐個生成像素,DeepSeek的Janus系列模型為其中代表;掩碼自回歸則優(yōu)化了單次像素生成數(shù)量和順序,提高了自回歸模型的速度和表現(xiàn);擴散模型的代表包括Sora,其將圖像生成表示成噪聲圖像變化至目標(biāo)圖像的過程,輸入輸出自始至終都是完整圖像。目前,自回歸和擴散模型均有前沿技術(shù)持續(xù)性突破,帶來模型能力的持續(xù)提升。
我們認(rèn)為,多模態(tài)模型整體仍處于技術(shù)探索過程中,Janus系列核心在于提供了一種理解和生成解耦的架構(gòu),一定程度提升了模型表現(xiàn),后續(xù)自回歸和DiT技術(shù)將進一步發(fā)展,帶來多模態(tài)模型性能的持續(xù)優(yōu)化。
2.3 第六問:DeepSeek數(shù)據(jù)集的特點是什么?
合成(生成)數(shù)據(jù)在大模型訓(xùn)練過程中發(fā)揮著重要作用。在高質(zhì)量訓(xùn)練數(shù)據(jù)耗盡,以及互聯(lián)網(wǎng)中充斥大量噪聲數(shù)據(jù)的背景下,合成數(shù)據(jù)已成為大模型訓(xùn)練過程中數(shù)據(jù)集的重要來源, 截至 2024 年 9 月,在 Hugging Face 平臺上標(biāo)注為 “合成” 的數(shù)據(jù)集已超過 1000 個。具體而言,合成數(shù)據(jù)主要由算法、模型生成,為大模型訓(xùn)練提供更豐富且針對性強的信息,幫助拓展模型性能:
通用大模型:在通用大模型訓(xùn)練中,合成數(shù)據(jù)主要用于豐富數(shù)據(jù)集,提升模型性能。以 DeepSeek-V3 的訓(xùn)練為例,其在監(jiān)督微調(diào)階段借助 DeepSeek-R1 模型生成樣本數(shù)據(jù),經(jīng) RL 訓(xùn)練后用拒絕采樣篩選高質(zhì)量數(shù)據(jù)用于最終模型訓(xùn)練,有效提升了模型的推理能力。
推理模型:在推理模型訓(xùn)練中,合成數(shù)據(jù)主要用于優(yōu)化訓(xùn)練流程。例如,DeepSeek-R1在冷啟動階段利用R1-Zero生成+人工標(biāo)注數(shù)據(jù)進行微調(diào),并在監(jiān)督微調(diào)階段通過V3模型收集了約60萬條與推理相關(guān)的訓(xùn)練樣本,以及約20萬條與推理無關(guān)的訓(xùn)練樣本。此外,R1向小模型蒸餾的過程實際上也是通過R1生成數(shù)據(jù)對小模型進行監(jiān)督微調(diào)實現(xiàn)的。
多模態(tài)模型:多模態(tài)模型訓(xùn)練中,合成數(shù)據(jù)能改善數(shù)據(jù)質(zhì)量,顯著強化視覺生成能力。Janus - Pro 在預(yù)訓(xùn)練階段相較于 Janus 引入約 7200 萬個合成美學(xué)數(shù)據(jù)樣本,使真實數(shù)據(jù)與合成數(shù)據(jù)比例達(dá)到 1:1,從而加速了模型收斂速度,提升圖像生成質(zhì)量。而Kimi-1.5作為以強化學(xué)習(xí)方式訓(xùn)練的多模態(tài)大模型,分別在預(yù)訓(xùn)練階段通過合成數(shù)據(jù)強化了推理和基于知識任務(wù)的解答能力,在多模態(tài)訓(xùn)練階段合成了圖像文本交錯數(shù)據(jù)。
GRPO 算法在一定程度上使模型擺脫人類經(jīng)驗的束縛。如 2.1 所述,R1 - Zero 模型在 RL 過程中延續(xù)了 DeepSeek - V3 組的相對策略優(yōu)化算法(GRPO)。該算法通過組內(nèi)獎勵對比優(yōu)化策略,無需額外的判別器,最終實現(xiàn)了訓(xùn)練集上平均響應(yīng)長度的持續(xù)提升,使模型自然地學(xué)會通過更多思考時間來解決推理任務(wù)。實際上,GRPO 對于 RL 數(shù)據(jù)集的處理同樣具有重要意義。具體而言,PPO 算法需要依賴價值模型估計狀態(tài)價值,以幫助計算優(yōu)勢函數(shù);而 GRPO 算法只對輸出的語言內(nèi)容進行相對優(yōu)勢計算,不需要設(shè)計價值模型。價值模型的設(shè)定本身就包含了人類偏好,這種偏好通過人類經(jīng)驗限定了數(shù)據(jù)集的價值。而 GRPO 算法本質(zhì)上可看作模型生成內(nèi)容的自我博弈,它能讓模型擺脫人類經(jīng)驗的束縛,通過提升思考深度不斷拓展性能,最終甚至可能超越人類水平。
我們認(rèn)為,DeepSeek-V3/R1/Janus等模型對于合成數(shù)據(jù)的應(yīng)用符合大模型研究趨勢,而GRPO 算法則進一步使模型在RL過程中擺脫了人類經(jīng)驗的限制,從而能夠最大程度挖掘數(shù)據(jù)集的價值,向模型超越人類,最終實現(xiàn)AGI的道路進發(fā)。
2.3 第七問:Scaling Law到底是否有效?
訓(xùn)練側(cè)Scaling law推動模型能力持續(xù)提升,但仍面臨技術(shù)、算力、數(shù)據(jù)的制約。早在2020年,OpenAI即在論文中提出了“Scaling law”,其內(nèi)涵在于大模型的最終性能主要與計算量、模型參數(shù)量和訓(xùn)練數(shù)據(jù)量三者的大小相關(guān),而與模型的具體結(jié)構(gòu)(層數(shù)/深度/寬度)基本無關(guān)。在“Scaling law”的思路下,業(yè)內(nèi)追求在訓(xùn)練側(cè)用更多的高質(zhì)量數(shù)據(jù),訓(xùn)練更大參數(shù)規(guī)模的模型,尤其在MoE架構(gòu)并行計算的加持下,大模型參數(shù)甚至能夠提升至萬億以上,極大程度提高了模型的效果。
然而,受到技術(shù)、算力、數(shù)據(jù)的制約,訓(xùn)練側(cè)“Scaling law”正面臨瓶頸:1)更高參數(shù)規(guī)模的模型訓(xùn)練比較復(fù)雜:當(dāng)參數(shù)規(guī)模提升到萬億規(guī)模,模型進一步調(diào)整的技術(shù)方式仍待突破;2)算力規(guī)模一定程度制約了模型發(fā)展:英偉達(dá) H100目前可以做到單一集群 3.2 萬張卡充分互聯(lián),每2小時會出錯一次(Founder Park訪談拾象科技 CEO 李廣密)。一旦算力集群增加到10萬卡,可能每20-30分鐘即會出錯一次,對數(shù)據(jù)中心的運維能力要求較高,否則會導(dǎo)致算力利用率明顯下降。此時需要性能更強的算力卡出現(xiàn)。3)高質(zhì)量數(shù)據(jù)缺失:早有消息稱大模型訓(xùn)練已經(jīng)耗盡了高質(zhì)量數(shù)據(jù),因此如果只是簡單提升訓(xùn)練集規(guī)模,往往重復(fù)的數(shù)據(jù)占據(jù)了主要部分,從而對模型能力的提升有限。而數(shù)據(jù)合成的技術(shù)仍未能突破,同樣一定程度上制約了模型的發(fā)展。
思維鏈等方式打開推理側(cè)大模型能力提升空間。當(dāng)訓(xùn)練側(cè)“Scaling law”進度相對放緩,OpenAI于2024年9月發(fā)布了系列新模型o1,其利用強化學(xué)習(xí)技術(shù),通過提高推理側(cè)的思考時間,大幅優(yōu)化了模型表現(xiàn);還能夠在訓(xùn)練過程中生成高質(zhì)量數(shù)據(jù),解決天然數(shù)據(jù)缺失的問題。以思維鏈技術(shù)為例,其類比人類思考過程,使大模型在推理過程中把復(fù)雜問題拆解成若干簡單步驟,從用戶提出的問題出發(fā),逐步生成正確答案。OpenAI o1模型性能隨著訓(xùn)練時間和測試時間計算而平穩(wěn)提升,后訓(xùn)練及推理階段思考深度(時間)或?qū)⒊蔀?新的“Scaling law”;相較于OpenAI未開源推理算法,DeepSeek-R1系列模型提供了RL Scaling Law的可行方向,有望促進各廠商跟進并繼續(xù)探索其他推理側(cè)拓展方向。
Scaling law三條路徑齊頭并進,助力模型性能持續(xù)提升。正如英偉達(dá)CEO黃仁勛在CES 2025上的主題發(fā)言提到的,o1模型推出后,大模型Scaling law已經(jīng)實際上分為了三個路徑:
Pre-Training Scaling:對應(yīng)OpenAI 2020年提出的結(jié)論,訓(xùn)練數(shù)據(jù)規(guī)模越大、模型規(guī)模越大、計算資源投入越多,AI模型的性能就會相應(yīng)提升。盡管Pre-Training Scaling目前受技術(shù)、算力、數(shù)據(jù)影響遭遇瓶頸,但更強大的基礎(chǔ)模型仍然是各廠商追求的主要方向,DeepSeek-R1的技術(shù)報告同樣提出,“更大基礎(chǔ)模型發(fā)現(xiàn)的推理模式對于提升推理能力至關(guān)重要”。未來隨著MoE架構(gòu)、模型Infra等方面的優(yōu)化,Pre-Training Scaling有望持續(xù)發(fā)展。
Post-Training Scaling:包括強化學(xué)習(xí)和人類反饋等技術(shù),通過輸入大量優(yōu)質(zhì)的提示,優(yōu)化模型性能表現(xiàn)。實際上,受限于人類工作效率,原有的人類反饋強化學(xué)習(xí)(RLHF)存在難以規(guī)模化擴張的問題(例如人工標(biāo)注數(shù)據(jù)效率較低、不同標(biāo)注者標(biāo)準(zhǔn)不一致等),而DeepSeek-R1純RL的技術(shù)方案實際上打破了這種限制,為各廠商提供了Post-Training Scaling的可行方案。
Test-Time Scaling:強調(diào)重新調(diào)配資源,即在推理階段考慮投入多少算力,并利用思維鏈將問題分解成若干個小步驟逐一解決。通過在模型推理階段更加深入的思考,模型將具備更強勁的性能。
我們認(rèn)為,Scaling Law仍有效,同時RL技術(shù)的不斷迭代為模型能力的規(guī)模化擴張帶來了新的方向。特別是DeepSeek通過架構(gòu)和技術(shù)創(chuàng)新,提出了純RL和分階段的模型訓(xùn)練方法,并實現(xiàn)了較好的性能表現(xiàn)。預(yù)計各廠商將陸續(xù)跟進DeepSeek的算法方向,并不斷對架構(gòu)進行調(diào)整,以探索出更為理想的模型優(yōu)化方式。
三、DeepSeek-R1促進AI平權(quán),產(chǎn)業(yè)鏈享受發(fā)展紅利
3.1 第八問:R1是否意味著AI平權(quán)已經(jīng)實現(xiàn)?
DeepSeek-R1開源引發(fā)全球復(fù)現(xiàn)熱潮,小模型+RL實現(xiàn)“反思”涌現(xiàn)。在美國對中國實施 AI 芯片封鎖的背景下,DeepSeek以極低的成本成功訓(xùn)練出躋身全球第一梯隊的推理模型 R1。同時,DeepSeek 完全開源了模型權(quán)重,所遵循的 MIT License 開源協(xié)議極為寬松,允許其他開發(fā)者將模型用于商業(yè)用途并進行模型蒸餾,被Facebook首席人工智能科學(xué)家楊立昆譽為“開源模型對閉源模型的勝利”。
R1發(fā)布以來,全球前沿團隊積極復(fù)現(xiàn),目前已取得較好成效。其中,UC伯克利的團隊在CountDown游戲中復(fù)現(xiàn)了DeepSeek R1-Zero,以不到30美金的成本通過強化學(xué)習(xí),使3B的基礎(chǔ)語言模型完成自我驗證和搜索;港科大的團隊只用了8K個樣本,就在7B模型上復(fù)刻出了DeepSeek-R1-Zero和DeepSeek-R1的訓(xùn)練,使模型在復(fù)雜的數(shù)學(xué)推理上取得強勁的結(jié)果;甚至全球最大開源平臺HuggingFace團隊,也在1月26日官宣開始復(fù)刻DeepSeek-R1的所有pipeline,并將在復(fù)刻完成后,開源所有的訓(xùn)練數(shù)據(jù)和腳本。
全球大廠接連接入R1,DeepSeek沖擊下OpenAI戰(zhàn)略方向或?qū)⑥D(zhuǎn)向。盡管美國質(zhì)疑DeepSeek在安全性、隱私方面的問題,但英偉達(dá)、英特爾、亞馬遜、微軟、AMD等海外巨頭仍紛紛在自家產(chǎn)品中接入了DeepSeek;國內(nèi)硅基流動和華為云同樣聯(lián)合首發(fā)并上線了基于華為云昇騰云服務(wù)的DeepSeek R1/V3推理服務(wù)。受DeepSeek全球熱度沖擊,Sam Altman承認(rèn)在開源策略上“站在了歷史錯誤的一邊”,并表示正在討論開源部分模型。此外,OpenAI于2月1日緊急更新了o3-mini系列,即使是免費用戶也可以通過選擇“Search+Reason”來使用體驗o3-mini的搜索功能。然而,o3-mini模型當(dāng)前的定價為每百萬輸入 tokens 0.55美元(緩存命中)/ 1.1美元(緩存未命中),每百萬輸出 tokens 4.4美元,遠(yuǎn)高于R1模型。
參考安卓及iOS份額變化,開源生態(tài)有望為AI產(chǎn)業(yè)注入活力。在智能手機操作系統(tǒng)領(lǐng)域,安卓的開源與 iOS的封閉帶來了截然不同的生態(tài)模式:
安卓:Android公司成立于2003年,2005年被Google收購,并在2007年正式推出了Android操作系統(tǒng)。生態(tài)上,安卓系統(tǒng)開源開放,允許眾多手機廠商基于其底層架構(gòu)進行定制化開發(fā),使其市場份額從2008年的2.8%提升到2011年的48%,但同時也帶來了專利訴訟、軟件盜版和系統(tǒng)安全等一系列問題;2011年,Google 推出 Android 4,從此安卓設(shè)備逐步正規(guī)化、標(biāo)準(zhǔn)化,直至2024年12月,安卓操作系統(tǒng)市場份額已經(jīng)達(dá)到73.49%。
iOS:同樣在安卓系統(tǒng)正式發(fā)布的2007年,蘋果發(fā)布了搭載iOS系統(tǒng)的第一代iPhone,開啟了智能手機的新時代。相較于安卓的開放,蘋果iOS系統(tǒng)采用封閉式生態(tài),嚴(yán)格把控軟件審核環(huán)節(jié),一定程度限制了系統(tǒng)的靈活性,但為用戶提供了一致且高質(zhì)量的使用體驗。從市場份額看,近年來iOS系統(tǒng)的市占率相對穩(wěn)定,2024年12月市場份額為26.04%,低于2009年1月iOS的市場份額35.56%。
AI產(chǎn)業(yè):類比手機操作系統(tǒng)領(lǐng)域,當(dāng)前AI 產(chǎn)業(yè)同樣面臨開源和閉源之爭。參考安卓系統(tǒng)發(fā)展歷程,開源模式能夠吸引全球范圍的開發(fā)者參與AI技術(shù)創(chuàng)新,后來者能夠基于已有成果快速進行應(yīng)用開發(fā)與產(chǎn)品迭代,從而推動 AI 應(yīng)用的快速落地,推動AI產(chǎn)業(yè)加速發(fā)展。
我們認(rèn)為,DeepSeek-R1作為開源模型性能接近頭部閉源模型o1,一定程度上已經(jīng)反映了AI平權(quán)。實際上,過去OpenAI的領(lǐng)先更多基于先發(fā)優(yōu)勢,而當(dāng)開源模型的性能實現(xiàn)對閉源模型的追趕,全球的團隊的研發(fā)能力能夠使開源模型的性能始終位于前列。近期各研究團隊對R1模型的積極復(fù)現(xiàn)更是側(cè)面驗證了開源模式的優(yōu)勢。此外,DeepSeek-R1使小模型具備推理能力成為可能,更低的成本將更有利于開發(fā)者探索AI的實際落地,帶來更有價值的產(chǎn)品。
3.2 第九問:DeepSeek出圈對產(chǎn)業(yè)的影響有幾何?
DeepSeek以其低成本、高性能全面影響AI產(chǎn)業(yè)鏈。AI產(chǎn)業(yè)鏈大致可分為基礎(chǔ)層(算力、數(shù)據(jù)、技術(shù)等)、模型層(通用/行業(yè)大模型、開發(fā)平臺)和應(yīng)用層(通用/垂域應(yīng)用、Agent等)。盡管創(chuàng)始人梁文鋒稱DeepSeek技術(shù)突破只是“美國每天發(fā)生的大量創(chuàng)新里非常普通的一個”,但其低成本、高性能,以及為小模型帶來強大推理能力的蒸餾方式,仍對AI產(chǎn)業(yè)鏈產(chǎn)生了沖擊:
算力:DeepSeek的爆火使得“杰文斯悖論”這一經(jīng)濟學(xué)名詞受到關(guān)注,它是指“燃料效率的提高往往會增加燃料使用”。如果將該理論拓展到算力領(lǐng)域,模型對算力應(yīng)用效率的提升反而會帶來算力需求的增長。實際上,“杰文斯悖論”反映了簡單的經(jīng)濟學(xué)原理——當(dāng)需求價格彈性系數(shù)大于1,價格下降則會帶來銷售收入增加。因此,DeepSeek影響下算力需求是否增加的關(guān)鍵在于算力的價格彈性,而這又受到算力用途的影響(一般來說,商品用途多,需求彈性就越大)。
算力作為新一輪科技革命的底層基礎(chǔ),將會應(yīng)用于千行百業(yè),DeepSeek-R1使小模型能通過蒸餾具備較強邏輯推理能力,更進一步加速了下游應(yīng)用的產(chǎn)生,則算力的價格彈性更可能大于1,符合“杰文斯悖論”,從而持續(xù)保持旺盛的需求。此外,梁文鋒在訪談中提到高端芯片禁運或?qū)⒊蔀榭c,同樣反應(yīng)了算力芯片自主可控的重要性。
模型:DeepSeek-R1模型的突破實際上反映了中美在前沿大模型差距的縮小。以發(fā)布于2024年3月的GPT-4為例,2024年1月發(fā)布的智譜GLM-4才在部分benchmark上達(dá)到了其90%-100%的水平,模型差距在10個月以上;而2025年1月發(fā)布的R1已經(jīng)接近OpenAI 2024年9月發(fā)布的o1模型,模型差距縮短到4個月左右。而大模型本身及其對應(yīng)的Chat bot產(chǎn)品,用戶切換成本低,存在“贏者通吃”的現(xiàn)象,例如kimi 在2024年3月實現(xiàn)上下文無損輸入長度提升至200萬字,爆火出圈帶來流量的大幅上漲;2024年12月字節(jié)火山引擎熱度攀升,以及DeepSeek-V3的發(fā)布同樣帶來了流量的快速提升。在此背景下,預(yù)計大廠將跟進DeepSeek模型層的研發(fā),技術(shù)開源亦將促進大廠持續(xù)投入,形成正反饋。此外,DeepSeek通過純RL算法、架構(gòu)優(yōu)化等方式實現(xiàn)了模型性能的提升,或?qū)⒋龠M各廠商在相關(guān)領(lǐng)域進行更多的探索。
應(yīng)用:DeepSeek-V3/R1作為通用/推理方面的基礎(chǔ)模型,性能升級及在各類 Benchmark 跑分中的提高,本身就為應(yīng)用落地帶來了更大的可能性。然而,對于開發(fā)者而言,更關(guān)鍵的點在于模型能夠和應(yīng)用適配調(diào)優(yōu),提供穩(wěn)定性的API服務(wù),以及性價比更高的tokens成本。參考2024年5月DeepSeek-V2發(fā)布后帶來的大模型價格戰(zhàn),即使模型成本更高,字節(jié)、阿里等大廠亦按照燒錢補貼的邏輯大幅降價,本質(zhì)上是因為開發(fā)者價格敏感,大廠愿意虧錢搶占市場份額,培育開發(fā)者使用習(xí)慣。
考慮到DeepSeek-R1開發(fā)和調(diào)用成本本身較低,還通過蒸餾的方式帶來了小模型推理能力的提升,則應(yīng)用開發(fā)者能夠以更低的成本部署模型或調(diào)用API,并保持相對優(yōu)秀的性能。當(dāng)應(yīng)用開發(fā)門檻降低,預(yù)計會出現(xiàn)更多產(chǎn)品探索方向,直至出現(xiàn)具有突破性的 “killer”應(yīng)用。同時,DeepSeek-R1的低價,同樣有望帶來推理模型新一輪的價格戰(zhàn)(o3-mini的價格本身已經(jīng)驗證了這一觀點),為開發(fā)者帶來更多性價比之選。最后,當(dāng)DeepSeek模型的能力達(dá)到全球第一梯隊后,其作為國內(nèi)廠商能為國內(nèi)應(yīng)用開發(fā)者提供更穩(wěn)定的服務(wù)(調(diào)用GPT API可能會受到各種限制),亦將促進各類應(yīng)用產(chǎn)生。
數(shù)據(jù):DeepSeek 系列模型的訓(xùn)練過程仍凸顯了高質(zhì)量數(shù)據(jù)的重要性。例如V3模型訓(xùn)練時使用了14.8 萬億涵蓋多種領(lǐng)域和語言的token;R1通過精心篩選和處理的冷啟動數(shù)據(jù)提升了模型性能和可讀性;Janus-Pro 在訓(xùn)練時同樣較前代模型增加約 9000 萬用于多模態(tài)理解的樣本和約 7200 萬用于視覺生成的合成美學(xué)數(shù)據(jù)。結(jié)合RL范式的可能性,預(yù)計高質(zhì)量數(shù)據(jù)仍將在模型訓(xùn)練中具有重要意義。
四、投資建議
4.1 第十問:DeepSeek將帶來哪些投資機會?
算力:算力作為新一輪科技革命的底層基礎(chǔ),將持續(xù)受益于千行百業(yè)的應(yīng)用需求。疊加 DeepSeek - R1 為推理范式帶來泛化的可能性,預(yù)計各廠商技術(shù)探索下算力產(chǎn)業(yè)鏈持續(xù)高景氣。此外,中美AI競爭加劇,高端算力芯片禁售下自主可控重要性進一步凸顯。建議關(guān)注以國產(chǎn)算力和AI推理需求為核心的算力環(huán)節(jié),尤其是IDC、服務(wù)器、國產(chǎn)芯片等算力配套產(chǎn)業(yè)。
應(yīng)用:DeepSeek-R1有望引發(fā)新一輪大模型API降價,小模型通過蒸餾具備強勁推理能力,這也將促使開發(fā)者探索更多應(yīng)用落地的可能性。AI應(yīng)用作為新一代生產(chǎn)力工具,看多C端軟件的持續(xù)發(fā)展,B端應(yīng)用軟件商業(yè)化進展更快。建議關(guān)注B端Agent,其中OA+ERP作為核心入口,AI結(jié)合更易,有望率先商業(yè)化,其次關(guān)注用戶量多、生態(tài)好且可云化的軟件公司等。
端側(cè):小模型能力提升同樣促進了端側(cè)模型部署,我們看好AI終端作為新一代計算平臺爆發(fā)可能。首先,我們認(rèn)為AI+教育作為高頻應(yīng)用場景有望率先落地,特別教育部人工智能賦能教育行動陸續(xù)推進,有望帶動AI學(xué)習(xí)機、AI教育大屏等需求增加,推薦視源股份、科大訊飛等;其次,我們認(rèn)為AI眼鏡、AIPC、機器人等新終端的出貨量有望隨著模型升級后使用范圍的增加而增加,因此建議關(guān)注以AI眼鏡、PC、機器人為代表的終端供應(yīng)商或內(nèi)部核心軟件供應(yīng)商。
數(shù)據(jù) :高質(zhì)量數(shù)據(jù)仍然是大模型訓(xùn)練中不可或缺的一環(huán),B端 Agent落地亦需要行業(yè)know-how進行微調(diào)。建議關(guān)注向量數(shù)據(jù)庫相關(guān)公司、數(shù)據(jù)處理類企業(yè),以及具備行業(yè)側(cè)專業(yè)數(shù)據(jù)的廠商。
風(fēng)險提示:(1)AI產(chǎn)業(yè)商業(yè)化落地不及預(yù)期:目前各環(huán)節(jié)AI 產(chǎn)品的商業(yè)化模式尚處于探索階段,如果各環(huán)節(jié)產(chǎn)品的推進節(jié)奏不及預(yù)期,或?qū)ο嚓P(guān)企業(yè)業(yè)績造成不利影響;(2)市場競爭風(fēng)險:海外 AI 廠商憑借先發(fā)優(yōu)勢,以及較強的技術(shù)積累,在競爭中處于優(yōu)勢地位,如果國內(nèi) AI 廠商技術(shù)迭代不及預(yù)期,經(jīng)營狀況或?qū)⑹艿接绊懀煌瑫r,目前國內(nèi)已有眾多企業(yè)投入AI產(chǎn)品研發(fā),后續(xù)可能存在同質(zhì)化競爭風(fēng)險,進而影響相關(guān)企業(yè)的收入;(3)政策風(fēng)險:AI技術(shù)的發(fā)展直接受各國政策和監(jiān)管影響。隨著AI在各個領(lǐng)域的滲透,政府可能會進一步出臺相應(yīng)的監(jiān)管政策以規(guī)范其發(fā)展。如果企業(yè)未能及時適應(yīng)和遵守相關(guān)政策,可能面臨相應(yīng)處罰,甚至被迫調(diào)整業(yè)務(wù)策略。此外,政策的不確定性也可能導(dǎo)致企業(yè)戰(zhàn)略規(guī)劃和投資決策的錯誤,增加運營的不確定性;(4)地緣政治風(fēng)險:在全球地緣政治環(huán)境的波動下,尤其美國對中國的出口限制或?qū)⒅苯佑绊憞鴥?nèi)企業(yè)算力芯片的獲取,進而影響其產(chǎn)品研發(fā)和市場競爭力。同時,地緣政治風(fēng)險也可能導(dǎo)致 AI 產(chǎn)品開拓海外市場面臨障礙,影響相關(guān)企業(yè)的營收情況。?
報告來源
證券研究報告名稱:《DeepSeek核心十問十答》
對外發(fā)布時間:2025年2月4日
報告發(fā)布機構(gòu):中信建投證券股份有限公司?
本報告分析師:?
應(yīng)瑛 SAC 編號:S1440521100010
02?DeepSeek R1深度解析及算力影響幾何
Deepseek發(fā)布深度推理能力模型,性能和成本方面表現(xiàn)出色。Deepseek發(fā)布兩款具備深度推理能力的大模型R1-Zero和DeepSeek-R1。R1-Zero采用純粹的強化學(xué)習(xí)訓(xùn)練,模型效果逼近OpenAI o1模型,證明了大語言模型僅通過RL,無SFT,大模型也可以有強大的推理能力。但是R1-Zero也存在可讀性差和語言混合的問題,在進一步的優(yōu)化過程中,DeepSeek-V3-Base經(jīng)歷兩次微調(diào)和兩次強化學(xué)習(xí)得到R1模型,主要包括冷啟動階段、面向推理的強化學(xué)習(xí)、拒絕采樣與監(jiān)督微調(diào)、面向全場景的強化學(xué)習(xí)四個階段,R1在推理任務(wù)上表現(xiàn)出色,特別是在AIME 2024、MATH-500和Codeforces等任務(wù)上,取得了與OpenAI-o1-1217相媲美甚至超越的成績。
國產(chǎn)模型邁向深度推理,策略創(chuàng)新百花齊放。在Deepseek R1-Zero模型中,采用的強化學(xué)習(xí)策略是GRPO策略,取消價值網(wǎng)絡(luò),采用分組相對獎勵,專門優(yōu)化數(shù)學(xué)推理任務(wù),減少計算資源消耗;KIMI 1.5采用Partial rollout的強化學(xué)習(xí)策略,同時采用模型合并、最短拒絕采樣、DPO 和long2short RL策略實現(xiàn)短鏈推理;Qwen2.5擴大監(jiān)督微調(diào)數(shù)據(jù)范圍以及兩階段強化學(xué)習(xí),增強模型處理能力。
DeepSeek R1通過較少算力實現(xiàn)高性能模型表現(xiàn),主要原因是DeepSeek R1實現(xiàn)算法、框架和硬件的優(yōu)化協(xié)同。DeepSeek R1在諸多維度上進行了大量優(yōu)化,算法層面引入專家混合模型、多頭隱式注意力、多token預(yù)測,框架層面實現(xiàn)FP8混合精度訓(xùn)練,硬件層面采用優(yōu)化的流水線并行策略,同時高效配置專家分發(fā)與跨節(jié)點通信,實現(xiàn)最優(yōu)效率配置。當(dāng)前階段大模型行業(yè)正處于從傳統(tǒng)的生成式模型向深度推理模型過渡階段,算力的整體需求也從預(yù)訓(xùn)練階段逐步過渡向后訓(xùn)練和推理側(cè),通過大量協(xié)同優(yōu)化,DeepSeek R1在特定發(fā)展階段通過較少算力實現(xiàn)高性能模型表現(xiàn),算力行業(yè)的長期增長邏輯并未受到挑戰(zhàn)。過去的預(yù)訓(xùn)練側(cè)的scaling law正逐步邁向更廣闊的空間,在深度推理的階段,模型的未來算力需求依然會呈現(xiàn)爆發(fā)式上漲,充足的算力需求對于人工智能模型的性能進步依然至關(guān)重要。
風(fēng)險提示:
大模型技術(shù)發(fā)展不及預(yù)期:大模型屬于先進AI算法,若后續(xù)大模型算法更新迭代效果不及預(yù)期,則會影響大模型演進及拓展,進而會影響其商業(yè)化落地等;
商業(yè)化落地不及預(yù)期:大模型的商業(yè)落地模式在業(yè)界中普遍處于探索階段,用戶對于大模型的接受程度和商業(yè)化變現(xiàn)能力可能不及預(yù)期;
算力基礎(chǔ)設(shè)施支持不及預(yù)期:美國制裁中國高科技企業(yè),對中國形成芯片、算力的封鎖,大語言模型訓(xùn)練過程中需要大量算力資源,需要關(guān)注中美關(guān)系帶來的算力的壓力;
政策監(jiān)管力度不及預(yù)期:大語言模型帶來新的網(wǎng)絡(luò)生態(tài)商業(yè),尚屬于前期成長階段,政策監(jiān)管難度加大,相關(guān)法律法規(guī)尚不完善,政策監(jiān)管力度可能不及預(yù)期;
數(shù)據(jù)數(shù)量與數(shù)據(jù)質(zhì)量不及預(yù)期:大型語言模型需要大量的高質(zhì)量數(shù)據(jù)進行訓(xùn)練,若數(shù)據(jù)數(shù)量和質(zhì)量存在短板,則會影響大語言模型效果。
報告來源
證券研究報告名稱:《DeepSeek R1深度解析及算力影響幾何》
對外發(fā)布時間:2025年2月3日?
報告發(fā)布機構(gòu):中信建投證券股份有限公司?
本報告分析師:
于芳博 SAC 編號:S1440522030001
龐佳軍 SAC 編號:S1440524110001
辛俠平 SAC編號:S1440524070006
研究助理:孟龍飛
03?重點推薦端側(cè)AI產(chǎn)業(yè)
DeepSeek在保持模型優(yōu)異性能指標(biāo)的同時大幅降低訓(xùn)練和推理成本。2025年1月20日,DeepSeek-R1發(fā)布,以 DeepSeek-V3 模型為基礎(chǔ),通過結(jié)合大規(guī)模強化學(xué)習(xí)、專家模型架構(gòu)、FP8混合精度等技術(shù)手段降低訓(xùn)練成本,同時具備深度思考能力,在數(shù)學(xué)、代碼、自然語言推理等多個任務(wù)上性能比肩 OpenAI O-1217 模型。DeepSeek-R1發(fā)布后,在保持較為優(yōu)異的性能指標(biāo)基礎(chǔ)上,市場對于其在訓(xùn)練和推理端的低成本尤為重視。DeepSeek-V3 使用 2048 塊 H800 GPU 完成了 6710 億參數(shù)的訓(xùn)練,訓(xùn)練成本為 557.6 萬美元,DeepSeek-R1模型的每百萬輸出 tokens 為 16 元,均顯著低于同等水平的模型成本。
利用DeepSeek模型生成的數(shù)據(jù)樣本實現(xiàn)小參數(shù)量的模型蒸餾,提升模型性能。DeepSeek R1 生成 80 萬條高質(zhì)量推理數(shù)據(jù)樣本,使用這些推理數(shù)據(jù)對較小的基礎(chǔ)模型進行監(jiān)督微調(diào)(SFT),將 DeepSeek R1的知識和推理能力進行遷移。DeepSeek 團隊開源了多個基于不同規(guī)模的 Qwen 和 Llama 架構(gòu)的蒸餾模型,如 DeepSeek - R1 - Distill - Qwen - 1.5B、DeepSeek - R1 - Distill - Llama - 8B、DeepSeek - R1 - Distill - Llama - 70B 等。
高性能、輕量化、低成本的模型能力將顯著推動端側(cè)AI產(chǎn)業(yè)發(fā)展。端側(cè)硬件設(shè)備是將大模型能力進行實物化輸出落地的關(guān)鍵環(huán)節(jié),近日OpenAI 的 CEO Sam Altman 在接受媒體采訪時也透露 OpenAI 將開發(fā)可替代手機的生成式 AI 專用終端。國內(nèi)物聯(lián)網(wǎng)模組廠商在端側(cè)AI領(lǐng)域具備先發(fā)優(yōu)勢,并積極進行產(chǎn)業(yè)布局,如美格智能正加速開發(fā)DeepSeek-R1模型在端側(cè)落地應(yīng)用及端云結(jié)合整體方案,2025年將推出單顆模組算力達(dá)到100Tops的高階AI硬件,遠(yuǎn)期規(guī)劃AI模組算力超過200Tops。
風(fēng)險提示:國際環(huán)境變化對供應(yīng)鏈的安全和穩(wěn)定產(chǎn)生影響,對相關(guān)公司向海外拓展的進度產(chǎn)生影響;人工智能行業(yè)發(fā)展不及預(yù)期,影響云計算產(chǎn)業(yè)鏈相關(guān)公司的需求;市場競爭加劇,導(dǎo)致毛利率快速下滑;匯率波動影響外向型企業(yè)的匯兌收益與毛利率,包括ICT設(shè)備、光模塊/光器件板塊的企業(yè);數(shù)字經(jīng)濟和數(shù)字中國建設(shè)發(fā)展不及預(yù)期;電信運營商的云計算業(yè)務(wù)發(fā)展不及預(yù)期;運營商資本開支不及預(yù)期;云廠商資本開支不及預(yù)期;通信模組、智能控制器行業(yè)需求不及預(yù)期。
報告來源
證券研究報告名稱:《重點推薦端側(cè)AI產(chǎn)業(yè)》
對外發(fā)布時間:2025年2月5日?
報告發(fā)布機構(gòu):中信建投證券股份有限公司?
本報告分析師:
閻貴成 SAC 編號:S1440518040002
SFC 編號:BNS315
劉永旭 SAC 編號:S1440520070014
SFC 編號:BVF090
武超則 SAC 編號:S1440513090003
SFC 編號:BEM208
研究助理:朱源哲
04?DeepSeek激活創(chuàng)新競爭,AI應(yīng)用迎來“安卓時刻”
應(yīng)用開發(fā)迎來“安卓時刻”
回顧安卓與iOS應(yīng)用的發(fā)展,我們率先提出不應(yīng)只關(guān)注大模型本身的用戶數(shù)及活躍度,更應(yīng)該關(guān)注開發(fā)者,尤其是中小開發(fā)者的數(shù)量。據(jù)GitHub,在Llama比DeepSeek開源時間早1年半的情況下,目前DeepSeek R1在GitHub上的開發(fā)者點贊數(shù)量已經(jīng)達(dá)到約5.7萬,接近Llama。根據(jù)GitHub、Hugging Face社區(qū)上的開發(fā)者實測,經(jīng)過R1微調(diào)的80億參數(shù)小模型可以在個人筆記本中運行,本地化部署門檻顯著下降,應(yīng)用的開發(fā)將迎來百花齊放。
有用戶有產(chǎn)品能力的公司,仍將“贏在起跑線”
雖然春節(jié)期間Deepseek的關(guān)注度趕超字節(jié)豆包,但我們認(rèn)為以字節(jié)跳動為代表的中國頭部互聯(lián)網(wǎng)公司,手握高粘性+大DAU產(chǎn)品,疊加強產(chǎn)品能力。在第二階段的應(yīng)用、場景等領(lǐng)域,用戶數(shù)+產(chǎn)品力+商業(yè)變現(xiàn)能力,仍然將幫助他們在接下來的競爭中搶占先機。
目前豆包全球累計下載量(約9000萬)仍然明顯高于Deepseek(約2000萬),而其他擁有用戶基礎(chǔ)和產(chǎn)品能力的公司,也有機會迎頭趕上。
風(fēng)險提示:宏觀經(jīng)濟風(fēng)險,版權(quán)保護力度不及預(yù)期,知識產(chǎn)權(quán)未劃分明確的風(fēng)險,與IP或明星合作中斷的風(fēng)險,大眾審美取向發(fā)生轉(zhuǎn)變的風(fēng)險,競爭加劇的風(fēng)險,用戶付費意愿低的風(fēng)險,消費習(xí)慣難以改變的風(fēng)險,關(guān)聯(lián)公司公司治理風(fēng)險,內(nèi)容上線表現(xiàn)不及預(yù)期的風(fēng)險,生成式AI技術(shù)發(fā)展不及預(yù)期的風(fēng)險,產(chǎn)品研發(fā)難度大的風(fēng)險,產(chǎn)品上線延期的風(fēng)險,營銷買量成本上升風(fēng)險,人才流失的風(fēng)險,人力成本上升的風(fēng)險,政策監(jiān)管的風(fēng)險,商業(yè)化能力不及預(yù)期的風(fēng)險。
報告來源
證券研究報告名稱:《DeepSeek激活創(chuàng)新競爭,AI應(yīng)用迎來“安卓時刻”》
對外發(fā)布時間:2025年2月4日
報告發(fā)布機構(gòu):中信建投證券股份有限公司?
本報告分析師:
楊艾莉 SAC 編號:S1440519060002
SFC 編號:BQI330
楊曉瑋 SAC 編號:S1440523110001
05?DeepSeek本地部署與全球資產(chǎn)配置組合跟蹤
Deepseek介紹:DeepSeek,成立于2023年,是幻方量化的子公司,位于杭州的人工智能公司。它于2024年末推出DeepSeek-V3模型(671B參數(shù)),性能超越多種開源模型,并接近頂尖閉源模型。2025年1月,DeepSeek發(fā)布R1系列模型(660B參數(shù)),在多項任務(wù)上表現(xiàn)優(yōu)異,同時推出了幾個小模型對標(biāo)OpenAI的產(chǎn)品。DeepSeek通過其創(chuàng)新技術(shù)顯著提高了生成速度,并提供了具有競爭力的API服務(wù)定價。
Deepseek本地部署方法:Ollama是一個開源工具,用于在個人設(shè)備上高效運行大型語言模型(LLMs),無需依賴云端。DeepSeek-R1模型可通過Ollama實現(xiàn)本地部署:首先,從Ollama官網(wǎng)下載適合系統(tǒng)的Windows版本并安裝,完成后系統(tǒng)托盤會出現(xiàn)Ollama圖標(biāo)。其次,訪問“Models”頁面選擇DeepSeek-R1,并根據(jù)顯卡配置(如4090顯卡24G顯存)選擇32B版本,復(fù)制對應(yīng)的運行指令。然后,在命令行窗口中執(zhí)行該指令以下載和運行模型(32B版本約19GB)。為提升用戶體驗,可采用Docker+Open WebUI構(gòu)建圖文交互界面,甚至將DeepSeek-R1 32B集成到微信中作為智能體使用,享受其快速響應(yīng)和深度思考功能。
對AI領(lǐng)域投資的思考:通過DeepSeek官網(wǎng)與DeepSeek-V3對話,可以了解部署各版本模型對硬件的要求。普通筆記本和臺式機僅配備CPU,僅能勉強運行DeepSeek-R1-1.5B和7B,但響應(yīng)速度慢,缺乏實用性。英偉達(dá)RTX 4090可較快運行DeepSeek-R1-32B,但在處理70B版本時表現(xiàn)不佳。中小模型如1.5B、7B和14B適合簡單的微信交流場景,但無法解決復(fù)雜問題;32B模型具備深度思考能力,適用于服務(wù)客戶的微信交流。671B完整版及70B模型需要企業(yè)級顯卡如A100或H100支持,不適合消費級硬件。云端部署雖可行,但存在數(shù)據(jù)隱私問題。DeepSeek-R1及其開源的小型化模型的高性能,推動中小企業(yè)和個人開發(fā)智能助手,例如微信客服,這將顯著增加對算力的需求。
全球大類資產(chǎn)策略組合表現(xiàn):全球多資產(chǎn)配置絕對收益@低風(fēng)險組合,本年回報0.86%,相比中債總財富(總值)指數(shù)超額收益0.40%。全球多資產(chǎn)配置絕對收益@中高風(fēng)險:本年回報3.66%,相對萬得FOF指數(shù)超額收益3.61%。
風(fēng)險提示:
DeepSeek的本地部署算力要求來自DeepSeek-V3,AI搜索和分析結(jié)論可能會受到網(wǎng)絡(luò)資料的影響。
大類資產(chǎn)配置雖然能夠有效分散風(fēng)險,但在某些市場環(huán)境下或策略設(shè)計中也存在一些潛在的危險和局限性。以下是幾項主要危險和局限性:
1. 高相關(guān)性導(dǎo)致風(fēng)險分散效果降低:模型的核心思想是將投資組合的風(fēng)險平均分配到各資產(chǎn)中,追求各資產(chǎn)風(fēng)險貢獻(xiàn)相同。然而,當(dāng)某些資產(chǎn)之間的相關(guān)性較高時,協(xié)方差矩陣中的協(xié)方差項會較大,導(dǎo)致這些高相關(guān)性資產(chǎn)對組合的總風(fēng)險貢獻(xiàn)增大。這樣一來,投資組合的總風(fēng)險將更加依賴于這些高相關(guān)性資產(chǎn),從而降低了風(fēng)險平價模型的風(fēng)險分散效果。
2. 市場環(huán)境變化可能導(dǎo)致模型失效:量化模型的有效性基于歷史數(shù)據(jù)的回測,但未來市場環(huán)境的變化可能與歷史數(shù)據(jù)存在較大差異,導(dǎo)致模型失效。例如,市場的宏觀環(huán)境、投資者的交易行為或局部博弈的變化,都可能影響因子的實際表現(xiàn),進而使得風(fēng)險平價或最大多元化策略無法實現(xiàn)預(yù)期的效果。
3. 資產(chǎn)選擇的局限性:策略的效果在很大程度上取決于資產(chǎn)的選擇。資產(chǎn)的選擇和市場的波動性會對策略的表現(xiàn)產(chǎn)生重要影響。
投資者需要根據(jù)市場環(huán)境和自身的風(fēng)險偏好,靈活調(diào)整策略,并警惕模型失效的風(fēng)險。
新一輪信創(chuàng)開啟,產(chǎn)業(yè)鏈有望迎機遇!信創(chuàng)ETF基金(562030)一度漲超2.3%,中科曙光盤中觸板
DeepSeek驚艷世界,AI有望成為節(jié)后投資主線
DeepSeek引發(fā)科技投資熱潮!基金經(jīng)理調(diào)研忙不停
2024新質(zhì)生產(chǎn)力回眸:寧德時代新技術(shù)商用提速 產(chǎn)業(yè)鏈價值重構(gòu)投資布局優(yōu)化調(diào)整
視頻|華創(chuàng)證券董廣陽寄語2025:祝福投資者在新的一年里面甄別投資風(fēng)險,把握投資機遇