1. 负责研发、对接和交付 ToB 商业化大模型平台项目;
2. 参与研发 AI 大模型平台,支撑超大规模的模型训练和推理,打造高效稳定的基础设施;
3. 优化 AI 基础平台使用体验,使其可监控、易于使用、管理和扩展;
4. 具有 AI 大模型开发平台的架构能力。
1. 优秀的编码能力,熟练掌握 Golang/Python/C/C++ 至少一门语言,有2年以上的后端服务开发经验;
2. 熟悉基于云原生的 k8s 开发以及各类常见的后端分布式框架如 redis、mysql、kafka 等等;
3. 有大型 AI 平台 ToB 项目的完整研发和交付经验优先;
4. 有 AI 平台开发的相关工作经验者优先,熟悉 DevOps、MLOps 概念,具备相关系统搭建和维护经验。
1. 支撑过大规模,复杂项目基于 Kubernetes 的架构改造或二次开发,有 Volcano,Kubeflow,Fluid,Istio 等开源软件使用/开发经验;
2. 具备一定产品思维,能够独立设计 AI 平台功能模块;
3. 熟悉 AI 算法原理或 AI 系统,具备 AI 模型训练经验。
1. 参与 ColossalAI 分布式深度学习系统的开发,负责设计、实现以及优化各类分布式训练技术;
2. 参与 Colossal-AI 与各类社区项目(比如 PyTorch Lightning, Hugging Face)的集成;
3. 维护开源社区,参与社区用户互动以及维护开源项目基础设施;
4. ColossalAI 的异构芯片适配。
1. 精通 PyTorch,了解 Tensorflow/Mindspore 等任意一种深度学习框架;
2. 熟悉 LLaMA/Mixtral/DiT 等当前热门的 CV/NLP/Audio 模型,有百亿 / 千亿大模型分布式训练经验;
3. 熟悉并行训练原理,掌握 DeepSpeed/NVIDIA Megatron 等并行训练框架(参与过相关开发更佳),有多机训练经验;
4. 了解并行计算、CUDA、网络通信、系统优化、集群硬件架构等 HPC 相关的知识;
5. 具备良好的编程能力,熟练掌握 Python,掌握 C++、数据结构和算法设计,熟悉 Linux / Unix 系统和 Shell 编程,熟练使用 Git;
6. 至少一年以上的 AI 分布式系统研发相关经验,计算机、人工智能、机器学习等相关专业硕士及以上学历,有丰富相关经历的本科生也可以投递。
1. 知名开源项目贡献者;
2. 了解深度学习编译器;
3. 获得过编程竞赛奖项;
4. 在顶级会议发表过高质量系统方向的论文。
1. 针对 Colossal-AI 深度学习框架算子层的优化,完成深度学习算子在 CUDA,Triton 等的实现;
2. 负责和参与机器学习推理引擎的架构设计、系统开发、性能分析、高性能优化;
3. 负责进行推理部署与后端对接,打造 AI 大模型的基础设施平台及服务产品。
1. 本科及以上学历,计算机、数学等相关专业;
2. 熟练掌握 Python 或 C/C++,具有良好的工程能力、编程习惯、以及沟通能力;
3. 熟练掌握 GPU 平台的高性能计算优化技巧;
4. 2 年以上 CUDA/triton 编程工作经验者优先;
5. 对 Transformer,Diffusion 等模型结构有一定了解和实践。
1. 有过模型量化经验者优先;
2. 有 vLLM,TensorRT-LLM,LMDeploy 等开源项目贡献经历者优先;
3. 了解并行推理技术的优先;
4. 有过 MaaS 平台支持经历者优先。
1. 负责大模型在实际落地中的相关优化技术和应用的前沿探索;
2. 推动大模型在不同场景的落地,包括不限于文本生成、文生图、文生视频等;
3. 通过系统优化技术解决实际落地中的性能瓶颈,优化大模型的实际计算效率。
1. 熟悉 PyTorch,有 DeepSpeed/Megatron-LM/Ray 等分布式框架相关经验者优先;
2. 熟悉 Llama2/Mistral/Diffusion 等当前热门模型,有百亿/千亿大模型的实际落地部署经验者优先;
3. 熟悉 AI 应用开发相关工具者优先,例如 tensorboard、wandb、gradio、streamlit、fastapi 等;
4. 编程能力强,且具备良好的编程习惯,有开源项目贡献经验者优先;
5. 了解并行计算、CUDA、网络通信、系统优化、集群硬件架构等 HPC 相关知识者优先;
6. 至少具备一年以上的大模型相关开发经验,计算机、人工智能、机器学习等相关专业硕士及以上学历,有丰富相关经历的本科生也可以投递。
1. 知名开源项目贡献者;
2. 了解深度学习编译器;
3. 获得过编程竞赛奖项;
4. 在顶级会议发表过高质量系统方向的论文。
您可以将简历发送到 resume@hpc-ai.com