剛剛！DeepSeek重大發布！梁文鋒參與共創！

位晨陽 2025-02-19 滾動科技 5 次瀏覽 0個評論

　　每經編輯金冥羽????

　　2月18日，DeepSeek在海外社交平臺發布了一篇純技術論文報告，論文主要內容是關于NSA（Natively Sparse Attention，原生稀疏注意力）。

　　據介紹，NSA專為長文本訓練與推理設計，能利用動態分層稀疏策略等方法，通過針對現代硬件的優化設計，顯著優化傳統AI模型在訓練和推理過程中的表現，特別是提升長上下文的推理能力，在保證性能的同時提升了推理速度，并有效降低了預訓練成本。

　　在這篇名為《原生稀疏注意力：硬件對齊且可原生訓練的稀疏注意力機制》（Native Sparse Attention： Hardware-Aligned and Natively Trainable Sparse Attention）的論文署名中，DeepSeek創始人兼CEO梁文鋒也作為共創在列。

　　其他研究人員來自DeepSeek、北大和華盛頓大學，其中第一作者Jingyang Yuan（袁景陽）是在DeepSeek實習期間完成的這項研究。

　　值得一提的是，今日中午12點（太平洋時間17日晚8點），馬斯克旗下AI公司xAI發布了Grok 3及其精簡版Grok 3 mini。發布會采用視頻直播形式，觀看人數超過100萬人。

　　Grok 3是xAI對OpenAI的o3-mini和DeepSeek的R1等模型的回應，它可以分析圖像和回答問題，并為X上的許多功能提供支持。此前馬斯克在X上造勢稱，Grok 3是“地球上最聰明的人工智能”。

　　在此次直播中，馬斯克透露，實際上，到訓練進行到92天時，集群的規模已經擴大到了20萬塊GPU。

　　編輯|金冥羽?杜波

你可能想看：

加沙剛剛停火，以色列軍隊又在約旦河西岸發起重大行動

DeepSeek揭示硅谷人工智能戰略的重大盲區

進軍文生圖 DeepSeek發布多模態模型Janus-Pro

阿里巴巴漲近4% 公司發布AI模型聲稱超越DeepSeek

馬斯克，重大宣布！就在本周二發布，“地球上最聰明的AI”

短短2天，DeepSeek遭網攻烈度暴增百倍，至少2個僵尸網絡參與！美國會辦公室被要求禁用，多國設限