Published onApril 26, 2026DeepSeek DeepEP: MoE 추론 병목은 모델이 아니라 통신 런타임이다DeepSeekDeepEPMoEInferenceGPURDMADeepGEMMDeepSeek DeepEP는 단순한 CUDA 보조 라이브러리가 아니다. MoE 모델의 토큰 dispatch/combine, NVLink와 RDMA, FP8 저정밀 통신, DeepGEMM 커널을 한 묶음으로 보면 최신 오픈 모델 경쟁의 병목이 점점 모델 가중치보다 런타임 설계로 이동하고 있음을 보여준다.Read more →