职位描述
1、平台运营管理
(1)算力平台运营:负责GPU/CPU等算力资源的调度、监控与容量规划,优化资源分配策略,保障业务高效运行;
(2)制定算力平台SLA标准,处理资源瓶颈问题,推动自动化运维工具开发。
2、数据平台运营
(1)维护数据仓库、数据管道(ETL)及BI工具的稳定性,确保数据及时性、准确性;
(2)设计数据监控体系,定位并解决数据异常问题,推动数据治理流程优化。
3、资源运营
(1)跟踪资源使用率、成本及性能指标,定期输出分析报告,提出降本增效方案;
(2)制定资源预算与采购计划,协调跨部门资源分配,平衡科研需求与成本控制。
4、用户需求与效率提升
(1)调研师生日常科研需求,收集平台使用反馈,推动功能迭代与体验优化;
(2)设计平台运营指标(如资源利用率、故障响应时间),建立数据驱动的运营体系;
(3)开发自动化脚本或工具(如资源巡检、报表生成),减少人工操作成本。
5、跨团队协作
(1)协同开发、运维及科研团队,推动平台技术架构升级与流程优化;
(2)制定平台使用规范及培训材料,提升自助服务能力。
职位要求
1、计算机科学、数据科学或相关专业硕士及以上学历。
2、3年以上平台运营、运维或数据分析经验,有大规模集群管理经验者优先。
3、熟悉Linux系统、Kubernetes/Docker容器化技术,了解算力资源调度原理。
4、精通至少一门脚本语言(Python/Shell),具备自动化工具开发经验。
5、熟悉主流BI工具(Tableau/Power BI/Superset),具备数据建模及可视化能力。
6、有云平台(AWS/Azure/阿里云)资源管理经验者优先。出色的逻辑分析与问题解决能力,能快速定位复杂系统问题。
7、优秀的沟通能力,能将技术语言转化为业务价值,推动跨部门协作。
8、数据敏感度高,擅长通过数据分析驱动决策。
加分项:
1、熟悉AI框架(TensorFlow/PyTorch)的算力需求及优化方法。
2、有Prometheus/Grafana等监控工具实战经验。
3、了解FinOps理念,具备云资源成本优化经验。
投递方式:将您的个人简历发送至邮箱talenthub@sii.edu.cn,邮件主题请注明“岗位+姓名”。