职位描述
1、参与收集、处理、清洗各种渠道的原始数据,包括但不限于网页数据、多模态数据、科研数据等。
2、设计和实现数据存储、处理和分析的解决方案。
3、开发数据清洗、转换和加载(ETL)流程,以支持模型训练和评估。
4、优化数据管道的性能,确保数据流的高效和稳定。
5、与科研团队、机器学习训练工程团队密切合作,建立数据系统迭代流程。
职位要求
1、拥有计算机科学、数据科学或相关领域的本科或硕士学位。
2、至少3年在数据工程或相关领域的工作经验。
3、精通至少一种编程语言,如Python、Java或Scala。
4、熟悉数据爬虫技术,有相关项目经验。
5、熟悉大数据技术栈,包括Hadoop、Spark、Kafka等,有使用数据库(如SQL、NoSQL)和数据仓库的经验。
6、熟悉数据建模、数据治理和数据质量控制的最佳实践。
7、具备出色的问题解决能力和分析能力。
8、良好的沟通能力和团队合作精神。
加分项:
1、对机器学习和深度学习有基本的了解和兴趣。
2、有搜索、推荐、广告等业务数据的处理经验。
3、有大模型数据收集与清洗、数据质量评估经验者。
投递链接: