DeepSeek开源第四弹:并行优化策略3项齐开

4个月前 24观看

2月27日消息,DeepSeek开源周第四日,DeepSeek开源了并行优化策略(Optimized Parallelism Strategies),一次开源了3项:S7A喜好网-记录每日喜好的科技时尚娱乐生活

DualPipe:一种用于V3/R1模型训练中实现计算与通信重叠的双向流水线并行算法S7A喜好网-记录每日喜好的科技时尚娱乐生活

EPLB:一个针对V3/R1的专家并行负载均衡工具S7A喜好网-记录每日喜好的科技时尚娱乐生活

Profile-data:训练和推理框架的分析数据S7A喜好网-记录每日喜好的科技时尚娱乐生活

GitHub地址:S7A喜好网-记录每日喜好的科技时尚娱乐生活

https://github.com/deepseek-ai/DualPipeS7A喜好网-记录每日喜好的科技时尚娱乐生活

https://github.com/deepseek-ai/eplbS7A喜好网-记录每日喜好的科技时尚娱乐生活

https://github.com/deepseek-ai/profile-dataS7A喜好网-记录每日喜好的科技时尚娱乐生活

一、DualPipeS7A喜好网-记录每日喜好的科技时尚娱乐生活

DualPipe是DeepSeek-V3技术报告中提出的一种创新双向流水线并行算法。S7A喜好网-记录每日喜好的科技时尚娱乐生活

它能够实现前向与后向计算和通信阶段的完全重叠,同时有效减少流水线气泡(空闲时间)。S7A喜好网-记录每日喜好的科技时尚娱乐生活

DeepSeek展示了在8个流水线并行阶段和20个micro-batches情况下,DualPipe在两个方向上的调度示例。(来自DeepSeek-V3技术报告)S7A喜好网-记录每日喜好的科技时尚娱乐生活

反向方向的微批次与前向方向对称,为了简化图示,这里省略了反向方向的批次 ID。图中由同一个黑色边框包围的两个单元格具有相互重叠的计算和通信。S7A喜好网-记录每日喜好的科技时尚娱乐生活

流水线气泡与内存使用比较S7A喜好网-记录每日喜好的科技时尚娱乐生活

表中,

S7A喜好网-记录每日喜好的科技时尚娱乐生活

S7A喜好网-记录每日喜好的科技时尚娱乐生活

本文链接:http://www.xihao.site/showinfo-1-69677.htmlDeepSeek开源第四弹:并行优化策略3项齐开

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com。天上从来不会掉馅饼,请大家时刻谨防诈骗