Job Description
团队介绍:负责字节跳动,推荐/广告/搜索类业务的机器学习系统的资源/撮合/编排,以及业务场景调度系统的设计和开发,服务于各方向场景的模型训练、模型评估和模型推理。
系统涉及如下工作,可以至少参与其中一层:
1、分布式调度层,解决单服务的分布式部署:
(a)使用/二次开发 诸如 Kubernetes,Yarn,Mesos,Celery 等分布式调度框架,并可以在不同的业务场景下合理选型;依据各框架的特点进行集群的利用率/均匀性的调度策略优化;
(b)对接/扩展各框架在 水平/垂直 扩展甚至AutoScaling的工作;参与多集群混合调度(类似FedK8s)的适配工作;负责不同优先级服务的抢占/驱逐功能;负责不同集群不同类型资源间的拆借/混部对接工作;负责多机房、多地域、多云场景的调度/负载适配;
2、资源撮合层,解决多角色之间的资源联合分配问题:从全局角度进行分配率 和 资源运营效率的优化;解决各种CPU/GPU/其他异构硬件/模型数据/样本数据/外部调用资源间的容量协调和联合匹配;感知拓扑限制,进行微拓扑优化,从而优化整体网络带宽使用;海量资源和多租户的预算/交付联动;保障性资源/预算外资源,以及混部/超卖的场景对接;
3、参与训练场景的流程/功能需求,诸如阶段性编排,批流阶段封装;提升训练单副本服务的稳定性,如Failover保护;更多的备份点策略;可观测性,可操作性,用户体验优化;
4、参与包括离线到在线同步,数据一致性和更新时效性优化;也包括在线服务多副本的异构资源/稳定性预案的流量调度;模型与服务的动态在线编排和集群间坐落编排。
字节跳动在全球推出了多款有影响力的产品,包括今日头条、抖音、西瓜视频、飞书、TikTok、Lark等。业务覆盖150个国家和地区,旗下产品全球月活用户数超19亿。加入我们,和优秀的人,做有挑战的事!