大模型训练与推理工程师

2025.04.15

社会招聘

职位描述

1分布式训练框架研发

1)设计并实现超大规模集群(千卡级及以上)的高效分布式训练框架,优化数据并行、模型并行、流水线并行策略;

2)开发混合精度训练、梯度压缩、通信优化(如NCCL/集合通信调优)等关键技术,提升训练吞吐量和稳定性;

3)解决超大模型训练中的显存瓶颈问题,探索ZeROOffloadCheckpoint等显存优化技术的深度实践。

2大模型推理框架研发

1)构建低延迟、高吞吐的推理引擎,优化动态批处理(Dynamic Batching)、显存复用、KV Cache管理等核心模块;

2)实现模型量化(INT8/FP8)、稀疏化、算子融合等加速技术,适配多种硬件(GPU/NPU/AI芯片);

3)设计服务化推理框架,支持多租户、弹性伸缩及容灾机制,保障线上服务SLA

3前沿技术探索

1)跟踪学术界与工业界动态(如MoELong Context3D并行等),探索下一代分布式训练与推理架构;

2)研究AI与新型硬件(如NVLink/InfiniBand/CXL互联、存算一体芯片)的软硬协同优化方案;

3)推动框架与开源生态(如PyTorchMegatron-LMvLLM)的深度集成与贡献。

4跨团队协作

1)与科研团队合作,理解模型结构特性并针对性优化训练/推理性能;

2)与基础设施团队协同,设计资源调度策略与集群通信拓扑,最大化硬件利用率。

职位要求

1计算机科学、人工智能、高性能计算等相关专业硕士及以上学历。

23年以上大规模分布式系统开发经验,具备LLM训练/推理全流程优化经验。

3精通分布式训练框架(如Megatron-LMDeepSpeedHorovod),熟悉并行策略与显存优化原理。

4掌握大模型推理加速技术(如vLLMTensorRT-LLMTGI),具备CUDA/Triton算子开发经验。

5熟悉PyTorch/TensorFlow底层架构,能定制化修改框架核心模块(如Autograd、分布式通信)。

6深入理解GPU/NPU硬件架构,熟练使用Nsight SystemsPyTorch Profiler等性能分析工具。

7极强的技术攻关能力,能独立解决分布式系统中的复杂问题(如性能抖动、死锁)。

8对技术趋势敏感,能快速吸收论文成果并转化为工程实践。

9良好的跨团队协作意识,能清晰传递技术方案并推动落地。

10在顶级会议(NeurIPS/OSDI/SOSP等)发表过相关论文或主导过开源项目者优先;NOIIOI 或者 ACM 比赛获奖优先;有千卡及以上集群训练或高并发推理服务实战经验者优先。

加分项:

1参与过GPTLLaMAGemini等知名大模型训练或推理优化项目。

2熟悉编译器技术(XLA/TVM/MLIR)或内核开发(CUDA KernelGPU驱动优化)。

3AI芯片(如华为昇腾、寒武纪)适配经验。

投递链接:

https://m.zhipin.com/mpa/html/weijd/weijd-job/7d7873d84146b5fe03Z72tS7E1JR?date8=20250310&sid=tosee_jd_fba2664e38aba87f0nV409S_F1ZS&openWeapp=1&fromSource=2