英伟达正式开源发布了其新一代AI模型:NVIDIA Nemotron 3、Nemotron 3系列由三种型号组成:Nano、Super和Ultra。官方介绍其具备强大的智能体、推理和对话能力。

Nemotron3提供三种不同规模的版本:
Nano:最小模型,激活参数规模为3.2B(包含embedding时为3.6B)、总参数规模为31.6B,用于目标明确、效率要求极高的任务,在准确性上优于同类模型,同时在推理中保持极高的成本效益。
Super:比Nano大约4倍,参数规模约为100B,面向多智能体应用,并具备高精度推理能力。
Ultra:比Nano大约16倍,参数规模约为500B,配备更强大的推理引擎,适用于更加复杂的应用场景。
Nemotron 3支持1M token的上下文窗口,使模型能够在大型代码库、长文档、延展式对话以及聚合检索内容之上进行持续推理。与依赖碎片化分块启发式方法不同,智能体可以将完整的证据集合、历史缓冲区和多阶段规划全部保留在单一上下文窗口中。
官方指出,这一超长上下文能力得益于Nemotron 3的混合式Mamba–Transformer架构,该架构能够高效处理极长序列。同时,MoE路由机制降低了单个token的计算开销,使得在推理阶段处理如此大规模序列在实际中具备可行性。
在企业级检索增强生成(RAG)、合规性分析、持续数小时的智能体会话或单体代码仓库理解等场景下,1M token的上下文窗口能够显著提升事实对齐能力,并减少上下文碎片化问题。
官方表示,目前Nano版本已正式发布,Super和Ultra预计将在2026年上半年发布。
此次Nemotron 3系列最大的技术亮点在于:引入了开放的混合式Mamba–Transformer MoE架构,面向多智能体系统中的高速、长上下文推理场景。
英伟达已经在其多款模型中采用了混合Mamba-Transformer MoE架构,其中包括Nemotron-Nano-9B-v2。
Nemotron 3将三种架构整合进同一个主干网络中:
Mamba层:用于高效的序列建模
Transformer层:用于高精度推理
MoE路由机制:实现可扩展的计算效率
Mamba在极低内存开销下即可有效追踪长程依赖关系,即使在处理数十万token时也能保持稳定性能。Transformer层则通过精细的注意力机制进行补充,捕捉代码操作、数学推理或复杂规划等任务所需的结构性与逻辑关系。
官方指出,与Nemotron 2 Nano相比,这一设计“最多可实现4倍的token吞吐量提升”,并通过将推理token的生成量最多减少60%,显著降低了推理成本。
Nemotron 3 Super和Ultra在实现更先进的精度和推理性能的同时,也引入了一项突破性创新:latent MoE(潜在空间专家混合)。
各个专家在共享的潜在表示空间中进行计算,随后再将结果投射回token空间。这种设计使模型在相同推理成本下能够调用多达4倍的专家数量,从而在细微语义结构、领域抽象以及多跳推理模式等方面实现更强的专门化能力。
为了使Nemotron 3更好地对齐真实的智能体行为,模型在后训练阶段通过NeMo Gym中的多环境强化学习进行训练。
NeMo Gym是一个用于构建和规模化强化学习环境的开源库。这些环境评估模型执行动作序列的能力,而不再局限于单轮回答,例如生成正确的工具调用、编写可运行的代码,或产出满足可验证标准的多步骤规划。
这种基于轨迹的强化学习训练方式,使模型在多步工作流中表现更加稳定可靠,能够减少推理漂移,并更好地处理智能体流水线中常见的结构化操作。
看到这里,有些朋友可能会有疑问了:英伟达不是一家做GPU的硬件公司吗?为什么要做自己的AI模型呢?实际上,除了提供芯片和GPU之外,英伟达也提供大量自有模型,涵盖物理仿真、自动驾驶等多个领域。2024年,英伟达就发布了Nemotron品牌下的首批模型,基于Meta的Llama 3.1设计。此后,英伟达推出了多款不同尺寸和针对特定场景调校的Nemotron型号,并且都以开源形式发布,供其他公司使用。包括Palantir Technologies在内的一些企业,已经将英伟达的模型整合进自身产品中。
就在上周,英伟达还宣布了一款新的开放推理视觉语言模型Alpamayo-R1,专注于自动驾驶研究。英伟达表示,增加了更多涵盖其Cosmos世界模型的工作流程和指南,这些模型是开源且采用宽松许可,以帮助开发者更好地利用这些模型开发物理AI。从种种举动可以看出,英伟达是有意推动构建开源生态了。官方说法也证实了这一点。企业生成式AI副总裁Kari Briski表示,英伟达的目标是提供一个“人们可以信赖的模型”。
*免责声明:文章来源于网络,如有争议,请联系客服。