AI新工具
banner

DeepEP


介绍:

DeepEP是一个专为混合专家和专家并行设计的通信库,提供高吞吐量、低延迟的GPU内核。









DeepEP

DeepEP是一个专为混合专家(Mixture-of-Experts, MoE)和专家并行(Expert Parallelism, EP)设计的通信库。它提供了高吞吐量和低延迟的全互联GPU内核,主要用于MoE的调度和组合。该库还支持低精度操作,包括FP8格式。

为使其与DeepSeek-V3论文中提出的基于组限制的门控算法相一致,DeepEP提供了一套针对不对称域带宽转发优化的内核,例如从NVLink域转发到RDMA域的数据。这些内核能够实现高吞吐量,适用于训练和推理预填充任务。此外,它们还支持流处理器(SM)数量的控制。

对于延迟敏感的推理解码,DeepEP包含一组低延迟的内核,使用纯RDMA以最小化延迟。此外,该库引入了一种基于钩子的通信与计算重叠方法,不会占用任何SM资源。

使用场景

DeepEP的典型使用场景包括:

  1. 模型训练:在模型训练阶段利用低延迟的通信以提高数据传输的效率。
  2. 推理预填充:在推理时通过高吞吐量的MoE调度和组合加速模型的推理过程。
  3. 分布式计算环境:在与多GPU分布式架构(如Hopper GPU和InfiniBand网络)结合使用中,提高跨节点的通信效率。

总的来说,DeepEP旨在通过优化的内核和通信策略,提高专家模型的训练和推理性能,特别是在需要处理大量数据时。

<<<<<<< HEAD ======= 可扫如下微信二维码加好友 >>>>>>> HEAD@{1}

广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:86911638