AI搜索引擎英伟达DeepSeek-R1模型推理性能再创新高速度突破每秒3万token

  DeepSeek     |      2025-04-15 20:45

  DeepSeek是一款基于AI技术的智能搜索引擎,结合深度学习与自然语言处理,提供精准、高效的搜索体验。探索DeepSeek,感受未来智能搜索的无限可能!

AI搜索引擎英伟达DeepSeek-R1模型推理性能再创新高速度突破每秒3万token

  在科技界的瞩目之下,英伟达于3月19日在NVIDIAGTC2025大会上宣布了一项激动人心的成就:其搭载八块Blackwell GPU的NVIDIABlackwellDGX系统创下了DeepSeek-R1模型推理性能的新世界纪录。这一创举不仅让人眼前一亮,更是在AI推理领域的又一次飞跃。

  根据报道,在这台强劲的系统上运行的满血DeepSeek-R1模型,拥有高达6710亿的参数规模,能够以超过每用户每秒250个token的响应速度进行推理,其系统的最高吞吐量更是突破了每秒3万token。这一数据,犹如在AI推理的赛道上按下了加速键。

  英伟达表示,随着NVIDIA Blackwell架构的持续突破,特别是在最新的BlackwellUltraGPU和BlackwellGPU上,推理性能有望实现更大幅度的提升。自2025年1月以来,他们在DeepSeek-R1模型上的吞吐量已成功提高约36倍,这无疑彰显了他们在硬件和软件结合方面的强大实力。

  值得一提的是,英伟达在推理性能方面不断突破的原因之一是其与TensorRT软件的完美结合。与早前的Hopper架构相比,Blackwell架构在处理包括DeepSeek-R1、Llama3.1405B和Llama3.370B在内的多个模型时,使用TensorRT和FP4精度的DGXB200平台相较于DGXH200平台实现了三倍以上的吞吐量提升。

  在量化模型以利用低精度计算的优势时,英伟达确保了精度损失最小化,尤其是在DeepSeek-R1模型上,TensorRTModelOptimizer的FP4训练后量化技术在不同数据集上几乎不会影响精度,这为生产部署提供了强有力的支撑。

  总之,英伟达的这项突破无疑将为AI应用的深度发展开辟更广阔的空间。随着技术的不断演进,未来的推理速度和效率将让我们对人工智能的潜力有更深刻的理解。返回搜狐,查看更多