职位描述
1、分布式训练框架研发
(1)设计并实现超大规模集群(千卡级及以上)的高效分布式训练框架,优化数据并行、模型并行、流水线并行策略;
(2)开发混合精度训练、梯度压缩、通信优化(如NCCL/集合通信调优)等关键技术,提升训练吞吐量和稳定性;
(3)解决超大模型训练中的显存瓶颈问题,探索ZeRO、Offload、Checkpoint等显存优化技术的深度实践。
2、大模型推理框架研发
(1)构建低延迟、高吞吐的推理引擎,优化动态批处理(Dynamic Batching)、显存复用、KV Cache管理等核心模块;
(2)实现模型量化(INT8/FP8)、稀疏化、算子融合等加速技术,适配多种硬件(GPU/NPU/AI芯片);
(3)设计服务化推理框架,支持多租户、弹性伸缩及容灾机制,保障线上服务SLA。
3、前沿技术探索
(1)跟踪学术界与工业界动态(如MoE、Long Context、3D并行等),探索下一代分布式训练与推理架构;
(2)研究AI与新型硬件(如NVLink/InfiniBand/CXL互联、存算一体芯片)的软硬协同优化方案;
(3)推动框架与开源生态(如PyTorch、Megatron-LM、vLLM)的深度集成与贡献。
4、跨团队协作
(1)与科研团队合作,理解模型结构特性并针对性优化训练/推理性能;
(2)与基础设施团队协同,设计资源调度策略与集群通信拓扑,最大化硬件利用率。
职位要求
1、计算机科学、人工智能、高性能计算等相关专业硕士及以上学历。
2、3年以上大规模分布式系统开发经验,具备LLM训练/推理全流程优化经验。
3、精通分布式训练框架(如Megatron-LM、DeepSpeed、Horovod),熟悉并行策略与显存优化原理。
4、掌握大模型推理加速技术(如vLLM、TensorRT-LLM、TGI),具备CUDA/Triton算子开发经验。
5、熟悉PyTorch/TensorFlow底层架构,能定制化修改框架核心模块(如Autograd、分布式通信)。
6、深入理解GPU/NPU硬件架构,熟练使用Nsight Systems、PyTorch Profiler等性能分析工具。
7、极强的技术攻关能力,能独立解决分布式系统中的复杂问题(如性能抖动、死锁)。
8、对技术趋势敏感,能快速吸收论文成果并转化为工程实践。
9、良好的跨团队协作意识,能清晰传递技术方案并推动落地。
10、在顶级会议(NeurIPS/OSDI/SOSP等)发表过相关论文或主导过开源项目者优先;NOI、IOI 或者 ACM 比赛获奖优先;有千卡及以上集群训练或高并发推理服务实战经验者优先。
加分项:
1、参与过GPT、LLaMA、Gemini等知名大模型训练或推理优化项目。
2、熟悉编译器技术(XLA/TVM/MLIR)或内核开发(CUDA Kernel、GPU驱动优化)。
3、有AI芯片(如华为昇腾、寒武纪)适配经验。
投递链接: