banner
招聘岗位
岗位:云平台 AI 云平台研发工程师
岗位职责

1. 负责研发、对接和交付 ToB 商业化大模型平台项目;

2. 参与研发 AI 大模型平台,支撑超大规模的模型训练和推理,打造高效稳定的基础设施;

3. 优化 AI 基础平台使用体验,使其可监控、易于使用、管理和扩展;

4. 具有 AI 大模型开发平台的架构能力。

任职要求

1. 优秀的编码能力,熟练掌握 Golang/Python/C/C++ 至少一门语言,有2年以上的后端服务开发经验;

2. 熟悉基于云原生的 k8s 开发以及各类常见的后端分布式框架如 redis、mysql、kafka 等等;

3. 有大型 AI 平台 ToB 项目的完整研发和交付经验优先;

4. 有 AI 平台开发的相关工作经验者优先,熟悉 DevOps、MLOps 概念,具备相关系统搭建和维护经验。

加分项

1. 支撑过大规模,复杂项目基于 Kubernetes 的架构改造或二次开发,有 Volcano,Kubeflow,Fluid,Istio 等开源软件使用/开发经验;

2. 具备一定产品思维,能够独立设计 AI 平台功能模块;

3. 熟悉 AI 算法原理或 AI 系统,具备 AI 模型训练经验。

岗位:AI 大模型训练系统工程师
岗位职责

1. 参与 ColossalAI 分布式深度学习系统的开发,负责设计、实现以及优化各类分布式训练技术;

2. 参与 Colossal-AI 与各类社区项目(比如 PyTorch Lightning, Hugging Face)的集成;

3. 维护开源社区,参与社区用户互动以及维护开源项目基础设施;

4. ColossalAI 的异构芯片适配。

任职要求

1. 精通 PyTorch,了解 Tensorflow/Mindspore 等任意一种深度学习框架;

2. 熟悉 LLaMA/Mixtral/DiT 等当前热门的 CV/NLP/Audio 模型,有百亿 / 千亿大模型分布式训练经验;

3. 熟悉并行训练原理,掌握 DeepSpeed/NVIDIA Megatron 等并行训练框架(参与过相关开发更佳),有多机训练经验;

4. 了解并行计算、CUDA、网络通信、系统优化、集群硬件架构等 HPC 相关的知识;

5. 具备良好的编程能力,熟练掌握 Python,掌握 C++、数据结构和算法设计,熟悉 Linux / Unix 系统和 Shell 编程,熟练使用 Git;

6. 至少一年以上的 AI 分布式系统研发相关经验,计算机、人工智能、机器学习等相关专业硕士及以上学历,有丰富相关经历的本科生也可以投递。

加分项

1. 知名开源项目贡献者;

2. 了解深度学习编译器;

3. 获得过编程竞赛奖项;

4. 在顶级会议发表过高质量系统方向的论文。

岗位:AI 大模型推理工程师
岗位职责

1. 针对 Colossal-AI 深度学习框架算子层的优化,完成深度学习算子在 CUDA,Triton 等的实现;

2. 负责和参与机器学习推理引擎的架构设计、系统开发、性能分析、高性能优化;

3. 负责进行推理部署与后端对接,打造 AI 大模型的基础设施平台及服务产品。

任职要求

1. 本科及以上学历,计算机、数学等相关专业;

2. 熟练掌握 Python 或 C/C++,具有良好的工程能力、编程习惯、以及沟通能力;

3. 熟练掌握 GPU 平台的高性能计算优化技巧;

4. 2 年以上 CUDA/triton 编程工作经验者优先;

5. 对 Transformer,Diffusion 等模型结构有一定了解和实践。

加分项

1. 有过模型量化经验者优先;

2. 有 vLLM,TensorRT-LLM,LMDeploy 等开源项目贡献经历者优先;

3. 了解并行推理技术的优先;

4. 有过 MaaS 平台支持经历者优先。

岗位:AI 大模型落地工程师
岗位职责

1. 负责大模型在实际落地中的相关优化技术和应用的前沿探索;

2. 推动大模型在不同场景的落地,包括不限于文本生成、文生图、文生视频等;

3. 通过系统优化技术解决实际落地中的性能瓶颈,优化大模型的实际计算效率。

任职要求

1. 熟悉 PyTorch,有 DeepSpeed/Megatron-LM/Ray 等分布式框架相关经验者优先;

2. 熟悉 Llama2/Mistral/Diffusion 等当前热门模型,有百亿/千亿大模型的实际落地部署经验者优先;

3. 熟悉 AI 应用开发相关工具者优先,例如 tensorboard、wandb、gradio、streamlit、fastapi 等;

4. 编程能力强,且具备良好的编程习惯,有开源项目贡献经验者优先;

5. 了解并行计算、CUDA、网络通信、系统优化、集群硬件架构等 HPC 相关知识者优先;

6. 至少具备一年以上的大模型相关开发经验,计算机、人工智能、机器学习等相关专业硕士及以上学历,有丰富相关经历的本科生也可以投递。

加分项

1. 知名开源项目贡献者;

2. 了解深度学习编译器;

3. 获得过编程竞赛奖项;

4. 在顶级会议发表过高质量系统方向的论文。

您可以将简历发送到 resume@hpc-ai.com

潞晨科技潞晨科技