Nvidia 推出最強開源模型 Nemotron 3 Ultra！專注 AI 代理任務，效能狂飆 5 倍、降本 30%

晶片巨頭輝達（NVIDIA）於今（4）日宣布推出全新開源旗艦模型「Nemotron 3 Ultra」。該模型專為長時間運行的 AI 代理（AI Agents）與複雜的多代理工作流量身打造，具備高達 5,500 億總參數。透過導入混合架構與多項技術創新，Nemotron 3 Ultra 不僅在多項基準測試中表現優異，更帶來最高 5 倍的吞吐量提升，並能降低 30% 的代理任務成本。
（前情提要：Nvidia 砸 4 億美元收購 Kumo AI！補齊「企業預測模型」拼圖，加速轉型全端 AI 巨頭）
（背景補充：Nvidia 結盟中國新創宇樹科技 Unitree！黃仁勳推「人形機器人 AI 平台」，強攻數十兆美元實體 AI 市場）

本文目錄

Toggle

550 億活躍參數，化身 AI 工作流的「大腦」
五大技術創新：吞吐量暴增 5 倍、降本 30%
完全開源，加速企業級 AI 應用落地

在人工智慧（AI）朝向高度自動化與複雜工作流邁進的趨勢下，「多代理系統（Multi-agent systems）」的運算成本與效率瓶頸，成為各大企業在導入 AI 時面臨的最大痛點。為解決此問題，輝達（NVIDIA）於 2026 年 6 月 4 日正式發布了 Nemotron 3 家族的旗艦級產品 —— Nemotron 3 Ultra。

這是一款專為「長時間運行的 AI 代理」所設計的強大開源模型。在傳統的多代理工作流中，由於需要不斷重複規劃、調用工具、委派子代理以及維持冗長的上下文，往往會導致代幣（Token）消耗量暴增，進而引發高昂成本與目標偏離的風險，而 Nemotron 3 Ultra 正是為克服這些挑戰而生。

550 億活躍參數，化身 AI 工作流的「大腦」

Nemotron 3 Ultra 採用了混合專家（Mixture-of-Experts, MoE）架構，總參數規模高達 5,500 億，但每次運算僅會啟動 550 億的活躍參數，確保了極致的運作效率。在多代理工作流中，該模型被精準定位為「編排者（Orchestrator）」或前沿推理引擎，專門處理深層規劃、複雜綜合分析與邏輯驗證等高負載任務，並將例行執行與工具調用交由輕量級模型負責。

效能方面，Nemotron 3 Ultra 在多項專注於 AI 代理的基準測試中大放異彩。例如，在代理生產力（PinchBench）中取得 91% 的高分，在長視野規劃（EnterpriseOps-Gym）與程式碼編寫（Terminal-Bench 2.0）也分別達到 40% 與 67% 的優異表現。儘管啟動的活躍參數較少，但其整體推理能力已超越或媲美 GLM 5.1、Kimi K2.6 與 Qwen3.5 等市場上主流的大型開源模型。

五大技術創新：吞吐量暴增 5 倍、降本 30%

為了實現如此強悍的效能與速度，輝達在 Nemotron 3 Ultra 中導入了五大核心技術創新。首先是「混合 Mamba-Transformer 層」，巧妙結合了 Mamba 的長序列處理效率與 Transformer 的精確事實召回能力。其次是支援「NVFP4 量化」，讓單一模型權重可無縫部署於 Hopper、Blackwell 與 Ampere 架構 GPU 上，相較於傳統的 BF16 格式，在 Blackwell 上可提升高達 5 倍的吞吐量（輸出速度）。

此外，模型還整合了 LatentMoE（針對複雜工作負載設計的高效專家路由）、多代幣預測（MTP，一次前向傳遞預測多個未來代幣以提升長文本生成速度），以及多教師在線蒸餾（MOPD）等前沿技術。這些創新讓模型在處理任務時的總代幣消耗量顯著減少，進而將企業的代理任務成本降低了最高 30%。

完全開源，加速企業級 AI 應用落地

在訓練數據方面，Nemotron 3 Ultra 奠基於逾 10 兆代幣的龐大預訓練基礎，並額外加入了超過 2,120 億個領域特定的代幣資料（包含法律文件、維基百科風格文本與最新的 GitHub 程式碼）。輝達強調，該模型是完全開源的，採用極具彈性的 OpenMDW-1.1 授權，並向社群開放完整的模型權重、訓練配方與資料管道。

目前，開發者已可在 Hugging Face、NVIDIA Build 及 NIM 等主流平台上取得並部署 Nemotron 3 Ultra。憑藉其卓越的長文本處理能力（在 Ruler @1M 測試中達 95%）與極高的成本效益，預期這款模型將成為企業推動客戶服務自動化、供應鏈管理、IT 安全防護與晶片設計驗證等複雜實務應用的絕佳利器。