国产资源在线播放_在线黄色免费_欧美在线视频看看_亚洲国产欧美精品一区二区三区

英偉達這顆芯片,震驚所有人

英偉達這顆芯片,震驚所有人

令永波 2025-01-12 滾動科技 4 次瀏覽 0個評論

在 2025 年的 CES 活動上,Nvidia (NVDA.US)這宣布與聯發科合作開發了一款售價 3000 美元的新型臺式電腦,該電腦搭載了基于 Arm 的全新精簡版 Grace CPU 和 Blackwell GPU 超級芯片。新系統名為“Project DIGITS”(不要與 Nvidia 的深度學習 GPU 訓練系統:DIGITS混淆)。該平臺為 AI 和 HPC 市場提供了一系列新功能。

Project DIGITS 采用具有 20 個 Arm 核心的全新 Nvidia GB10 Grace Blackwell 超級芯片,旨在提供“千萬億次”(FP4 精度)的 GPU-AI 計算性能,用于原型設計、微調和運行大型 AI 模型。(強制性浮點解釋器可能在這里有所幫助。)

自 G8x 系列顯卡發布(2006 年)以來,Nvidia 一直致力于提供適用于整個 GPU 系列的 CUDA 工具和庫。能夠使用低成本客戶顯卡進行 CUDA 開發有助于創建充滿活力的應用程序生態系統。由于高性能 GPU 的成本和稀缺性,DIGITS 項目應該能夠實現更多基于 LLM 的軟件開發。與低成本 GPU 一樣,在桌面上運行、配置和微調開放式變壓器模型(例如 llama)的能力應該對開發人員具有吸引力。例如,通過提供 128GB 內存,DIGITS 系統將有助于克服許多低成本消費級顯卡上的 24GB 限制。

規格不足

新款 GB10 超級芯片采用 Nvidia Blackwell GPU,配備最新一代 CUDA 核心和第五代 Tensor 核心,通過 NVLink-C2C 芯片到芯片互連連接到高性能 Nvidia Grace 類 CPU,其中包括20 個節能的 Arm 核心(十個 Arm Cortex-X925 和十個 Cortex-A725 CPU 核心)。

雖然沒有可用的規格,但 GB10 的 GPU 端被認為提供的性能低于Grace-Blackwell GB200。需要明確的是;GB10 不是分檔或激光修剪的GB200。GB200超級芯片有 72 個 Arm Neoverse V2 核心和兩個 B200 Tensor Core GPU。

DIGITS 系統的定義特征是 CPU 和 GPU 之間統一、一致的內存 128GB(LPDDR5x)。這種內存大小在 GPU 上運行 AI 或 HPC 模型時打破了“GPU 內存障礙”;例如,80GB Nvidia A100 的當前市場價格從 18,000 美元到 20,000 美元不等。有了統一、一致的內存,CPU 和 GPU 之間的 PCIe 傳輸也被消除了。下圖中的渲染表明內存量是固定的,用戶無法擴展。該圖還表明ConnectX 網絡(以太網?)、Wifi、藍牙和 USB 連接可用。

該系統還提供高達 4TB 的 NVMe 存儲。在電源方面,Nvidia 提到了標準電源插座。沒有特定的電源要求,但尺寸和設計可能會提供一些線索。首先,與 Mac mini 系統一樣,小尺寸(見圖 2)表明產生的熱量一定不會那么高。其次,根據 CES 展廳的圖像,沒有風扇通風口或切口。機箱的正面和背面似乎有一種海綿狀的材料,可以提供氣流,并可能充當整個系統的過濾器。由于散熱設計表明功率,功率表明性能,因此 DIGITS 系統可能不是一款為實現最大性能(和功耗)而調整的尖叫器,而是一款具有優化內存架構的涼爽、安靜、高效的 AI 桌面系統。

如上所述,該系統非常小。下圖提供了一些鍵盤和顯示器的視角(沒有顯示電纜。根據我們的經驗,其中一些小型系統可能會因電纜重量而從桌面上拉下來。)

桌面上的人工智能

Nvidia 報告稱,開發人員可以運行多達 2000 億個參數的大型語言模型,以增強 AI 創新。此外,使用 Nvidia ConnectX 網絡,兩臺 Project DIGITS AI 超級計算機可以連接起來,運行多達 4050 億個參數的模型。借助 Project DIGITS,用戶可以使用自己的桌面系統開發和運行模型推理,然后在加速云或數據中心基礎設施上無縫部署模型。

Nvidia 創始人兼首席執行官黃仁勛表示:“AI 將成為各行各業中每一種應用的主流。借助 Project DIGITS,Grace Blackwell 超級芯片將惠及數百萬開發者。將 AI 超級計算機放在每一位數據科學家、AI 研究人員和學生的桌子上,將使他們能夠參與并塑造 AI 時代。”

這些系統不適用于訓練,而是設計用于在本地運行量化的 ?LLM(減少模型權重的精度大小)。Nvidia 引用的 1 petaFLOP 性能數字適用于 FP4 精度權重(四位,或 16 個可能的數字)許多模型可以在此級別充分運行,但量化可以增加到 FP8、FP16 或更高,以獲得更好的結果,具體取決于模型的大小和可用內存。例如,對 Llama-3-70B 模型使用 FP8 精度權重需要每個參數一個字節或大約 70GB 的內存。將精度減半到 FP4 會將其減少到 35GB 的內存,但增加到 FP32 將需要 140GB,這比 DIGITS 系統提供的內存還要大。

有人用 HPC 集群嗎?

可能不為人所知的是,DIGITS 并不是第一款桌邊 Nvidia 系統。2024年,GPTshop.ai推出了一款基于 GH200 的桌邊系統。HPCwire提供了包括 HPC 基準測試在內的報道。與 DIGITS 項目不同,GPTshop 系統在桌邊機箱中提供了 GH200 Grace-Hopper 超級芯片和 GB200 Grace-Blackwell 超級芯片的全部功能。性能的提升也伴隨著更高的成本。

將 DIGITS 項目系統用于桌面 HPC 可能是一種有趣的方法。除了運行更大的 AI 模型之外,集成的 CPU-GPU 全局內存對 HPC 應用程序也非常有益。請考慮最近HPCwire 的一篇關于僅在英特爾兩顆 Xeon 6 Granite Rapids 處理器(無 GPU)上運行的 CFD 應用程序的故事。根據作者 Moritz Lehmann 博士的說法,模擬的促成因素是他能夠用于模擬的內存量。

同樣,許多 HPC 應用程序不得不想方設法繞過常見 PCIe 連接視頻卡的小內存域。使用多張卡或 MPI 有助于擴展應用程序,但 HPC 中最有利的因素始終是更多內存。

當然,需要基準測試來確定 DIGITS 項目是否完全適用于桌面 HPC,但還有另一種可能性:“用這些構建一個 Beowulf 集群”。這句話通常被認為是一個玩笑,但對于 DIGITS 項目來說可能更嚴肅一些。當然,集群是用服務器和(多個)PCEe 連接的 GPU 卡構建的。然而,一個小型、中等功率、完全集成的全局內存 CPU-GPU 可能會成為更平衡、更有吸引力的集群構建塊。還有一個好處:它們已經運行 Linux 并具有內置的 ConnectX 網絡。

本文轉自“半導體行業觀察”微信公眾號;智通財經編輯:陳筱亦。

你可能想看:

轉載請注明來自造財(上海)財務稅務代理有限公司,本文標題:《英偉達這顆芯片,震驚所有人》

每一天,每一秒,你所做的決定都會改變你的人生!
Top
網站統計代碼