AML-机器学习系统研发工程师

Negotiable
Experience
Unlimited
Job Type
Full Time
Location
China, Beijing
Job Description
职位描述
AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。

1、负责火山引擎机器学习训练和推理框架的研发和性能优化,支撑火山引擎机器学习平台和方舟大模型平台的相关需求和架构迭代;
2、负责解决系统高并发、高可靠性、高可扩展性等技术难关;
3、覆盖机器学习系统多个子方向领域的工作,包括:资源调度、任务编排、模型训练、模型推理、模型管理、数据集管理、工作流编排、ML for System等;
4、负责机器学习系统前瞻技术的调研和引入,比如:最新硬件架构、异构计算系统、GPU 优化技术的引入落地;
5、研究基于机器学习方法,实现对集群/服务资源使用情况的分析和优化。
职位要求
1、有C/C++/Python/Cuda开发经验,熟练使用Linux 系统/ GDB /Nsight等工具,ACM/ICPC/Codeforces等获奖者优先;
2、能够从产品思维、机器性能和稳定性、团队协作等多种视角,高标准要求自己的技术方案和每一行代码;
3、对如下一个或多个领域有经验,或者无经验但有浓厚的兴趣(须额外付出自己的时间进行深入研究和探索):
a. 大模型系统:基础模型的分布式训练(Scaling Laws)、高效微调(Lora/P-Tuning/RLHF)、推理引擎和优化(并行策略、量化压缩、算子优化等)、Transformer模型结构(Sparse/MoE/LongContext等);
b. AI+HPC:并行计算(CPU/Cuda/OpenCL)、通信(NCCL/MPI/RDMA/DPDK)、AI编译器(MLIR/TVM/Trition/LLVM)、Linux OS及Kernel;
c. 机器学习算法:各类基于梯度的经典算法与经典模型(ResNet/BERT/GPT/Swin Transformer/MLP-Mixer)、多模态(CLIP/BLIP/miniGPT4)。
字节跳动在全球推出了多款有影响力的产品,包括今日头条、抖音、西瓜视频、飞书、TikTok、Lark等。业务覆盖150个国家和地区,旗下产品全球月活用户数超19亿。加入我们,和优秀的人,做有挑战的事!