DeepSeek开源周第二天开源项目：Deepep-AI万花筒

昨天是DeepSeek ai开源周第一天，开源的项目是FlashMLA，不到半小时，Github已经已经300多Star了，短短1小时就超过10W阅读，非常的火爆，今天是DeepSeek开源周的第二天，DeepSeek开源了第2个项目：Deepep。

DeepSeek开源了第2个项目：Deepep.webp

什么是Deepep？

Deepep是一个用于MOE模型培训和推理的开源EP通信库。它基于先进的混合专家架构，充分利用了大规模数据集以提高其预训练和微调的有效性。DeepEP的设计导向是减少计算负担与内存使用，使得用户能够在常规硬件上有效运行大规模模型。

MoE架构优化：

DeepEP专为Mixture-of-Experts (MoE) 和专家并行 (EP) 设计，提供高效的all-to-all GPU内核，适用于训练和推理任务。

支持低精度运算，包括FP8和BF16，提升计算效率，节省显存。

高性能通信：

提供高吞吐量和低延迟的通信内核，支持NVLink和RDMA网络。在H800 GPU上测试，最大带宽可达153 GB/s (NVLink) 和46 GB/s (RDMA)。

针对NVLink到RDMA的非对称带宽转发场景进行了优化，确保高吞吐量表现。

低延迟通信：

提供纯RDMA的低延迟内核，特别适合推理解码阶段，延迟低至163微秒。

引入基于hook的通信-计算重叠方法，不占用GPU SM资源，最大化计算效率。

硬件优化：

利用未公开的PTX指令提升Hopper架构的性能。

支持InfiniBand网络，并理论上兼容RoCE，提供灵活的网络配置选项。

大规模模型训练：

适用于Mixture-of-Experts (MoE) 模型的训练，提供高效的并行通信支持，显著提升训练效率。

推理任务：

特别适合延迟敏感的推理解码场景，显著提升效率，降低延迟，提高推理吞吐量。

高性能计算需求：

完美适配现代高性能计算需求，支持多种硬件平台，包括Hopper GPU架构，未来可能扩展更多设备。

易用性：

支持Hopper GPU架构，需要Python 3.8+、CUDA 12.3+和PyTorch 2.1+环境。

安装时需搭配团队修改版的NVSHMEM，安装指南详细。

集成方式：

开源且易于集成，只需几行命令即可构建并运行测试。

安装后导入deep_ep模块即可直接使用，提供示例代码和测试脚本。

DeepEP已在GitHub上开源，地址：https://github.com/deepseek-ai/DeepEP

1. DeepSeek开源周第一天开源项目：DeepSeekFlashMLA