DeepEP DeepEP DeepEP是一个专为混合专家（Mixture-of-Experts, MoE）和专家并行（Expert Parallelism, EP）设计的通信库。它提供了高吞吐量和低延迟的全互联GPU内核，主要用于MoE的调度和组合。该库还支持低精度操作，包括FP8格式。为使

DeepEP

DeepEP是一个专为混合专家（Mixture-of-Experts, MoE）和专家并行（Expert Parallelism, EP）设计的通信库。它提供了高吞吐量和低延迟的全互联GPU内核，主要用于MoE的调度和组合。该库还支持低精度操作，包括FP8格式。

为使其与DeepSeek-V3论文中提出的基于组限制的门控算法相一致，DeepEP提供了一套针对不对称域带宽转发优化的内核，例如从NVLink域转发到RDMA域的数据。这些内核能够实现高吞吐量，适用于训练和推理预填充任务。此外，它们还支持流处理器(SM)数量的控制。

对于延迟敏感的推理解码，DeepEP包含一组低延迟的内核，使用纯RDMA以最小化延迟。此外，该库引入了一种基于钩子的通信与计算重叠方法，不会占用任何SM资源。

DeepEP的典型使用场景包括：

总的来说，DeepEP旨在通过优化的内核和通信策略，提高专家模型的训练和推理性能，特别是在需要处理大量数据时。

<<<<<<< HEAD ======= 可扫如下微信二维码加好友 >>>>>>> HEAD@{1}

广告：私人定制视频文本提取，字幕翻译制作等，欢迎联系QQ:86911638