DeepSeek满血微调秘籍开源!站在巨人肩膀打造私有模型一手教程在此

  DeepSeek     |      2025-02-22 20:14

  DeepSeek是一款基于AI技术的智能搜索引擎,结合深度学习与自然语言处理,提供精准、高效的搜索体验。探索DeepSeek,感受未来智能搜索的无限可能!

DeepSeek满血微调秘籍开源!站在巨人肩膀打造私有模型一手教程在此

  微调DeepSeek-V3/R1,低成本打造高质量私有模型、提高业务竞争力,或许才是当下行业内更迫切的需求。

  就在刚刚,已收获近4万GitHub StarColossal-AI发布开源大模型后训练工具箱,它包含:

  提供灵活的并行策略配置接口,包括数据并行、模型并行、专家并行、ZeRO和Offload等,以适应不同硬件规模。

  6710亿参数规模的DeepSeek-V3/R1低成本微调,仅需以下几步,即可快速完成。

  数据集的每一行应为一个聊天对话列表。例如:[{“role”: “user”, “content”: “你好,最近怎么样?”}, {“role”: “assistant”, “content”: “我很好。今天有什么可以帮你的吗?”}]

  [{“role”: “user”, “content”: “火烧赤壁 曹操为何不拨打119求救?”}, {“role”: “assistant”, “content”: “因为在三国时期,还没有电话和现代的消防系统,所以曹操无法拨打119求救。”}]

  在准备好数据集和模型权重后,可使用Colossal-AI 提供的一键启动脚本。

  对于资金充裕的开发团队,也可以使用上述脚本,将并行度高效扩展至数百及数千卡,快速完成DeepSeek-V3/R1-671B全参微调或并行加速。

  对于预算有限,又想借助强化学习构建自己的类DeepSeek-R1模型, Colossal-AI也提供了解决方案,并利用小模型对算法进行了验证。

  同时,在GRPO章节,Colossal-AI团队还提供了验证过程中的部分发现及各种参数的详细描述,可供参考。

  代码中设计了可灵活配置奖励函数的模板,因此,用户可根据自己的具体情况设计自己的奖励函数体系。

  由下图可以看到,即使是3B的模型,平均奖励与模型回复长度随着时间逐步增长。

  随着训练的进行,我们可以看到一些有意思的例子。例如随着训练迭代,模型开始了自我纠正:

  Colossal-AI在深耕大模型预训练降本增效的基础上,致力于进一步成为开发者开箱即用的最佳后训练工具,帮助用户基于开源模型,低成本快速构建私有模型。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。