AI搜索引擎英伟达DeepSeek-R1模型推理性能再创新高速度突破每秒3万token

DeepSeek | 2025-04-15 20:45

　　DeepSeek是一款基于AI技术的智能搜索引擎，结合深度学习与自然语言处理，提供精准、高效的搜索体验。探索DeepSeek，感受未来智能搜索的无限可能！

　　在科技界的瞩目之下，英伟达于3月19日在NVIDIAGTC2025大会上宣布了一项激动人心的成就：其搭载八块Blackwell GPU的NVIDIABlackwellDGX系统创下了DeepSeek-R1模型推理性能的新世界纪录。这一创举不仅让人眼前一亮，更是在AI推理领域的又一次飞跃。

　　根据报道，在这台强劲的系统上运行的满血DeepSeek-R1模型，拥有高达6710亿的参数规模，能够以超过每用户每秒250个token的响应速度进行推理，其系统的最高吞吐量更是突破了每秒3万token。这一数据，犹如在AI推理的赛道上按下了加速键。

　　英伟达表示，随着NVIDIA Blackwell架构的持续突破，特别是在最新的BlackwellUltraGPU和BlackwellGPU上，推理性能有望实现更大幅度的提升。自2025年1月以来，他们在DeepSeek-R1模型上的吞吐量已成功提高约36倍，这无疑彰显了他们在硬件和软件结合方面的强大实力。

　　值得一提的是，英伟达在推理性能方面不断突破的原因之一是其与TensorRT软件的完美结合。与早前的Hopper架构相比，Blackwell架构在处理包括DeepSeek-R1、Llama3.1405B和Llama3.370B在内的多个模型时，使用TensorRT和FP4精度的DGXB200平台相较于DGXH200平台实现了三倍以上的吞吐量提升。

　　在量化模型以利用低精度计算的优势时，英伟达确保了精度损失最小化，尤其是在DeepSeek-R1模型上，TensorRTModelOptimizer的FP4训练后量化技术在不同数据集上几乎不会影响精度，这为生产部署提供了强有力的支撑。

　　总之，英伟达的这项突破无疑将为AI应用的深度发展开辟更广阔的空间。随着技术的不断演进，未来的推理速度和效率将让我们对人工智能的潜力有更深刻的理解。返回搜狐，查看更多