职位描述
1 .负责面向LLM等深度学习场景的GPU/NPU选型,跟踪最新的英伟达/国产卡迭代路径,满足AI场景GPU产品发展需求
2.负责GPU服务器选型,满足可扩展性和性能指标,制定具有高性价比的GPU服务器方案
3.面向深度学习场景,与算法、内核、产品团队紧密配合,制定出极致性能的软硬系统方案
4.负责GPU疑难故障的分析排查,不限于从GPU硬件、PCIe链路、驱动、CUDA层面去分析故障根因。
5.与网络、数据中心团队配合,围绕GPU服务器设计总体架构方案,确保在整体TCO、性能、易运维等方面具有领先性。
- 职位要求
1.5年以上服务器硬件选型或开发或者性能调优经验,精通CPU、GPU服务器硬件架构
2.熟悉主流厂商的服务器硬件产品,掌握GPU、CPU、硬盘等主要部件的测试方法
3.熟悉Linux操作系统操作,掌握针对GPU的监控工具和调试工具,具备独立分析和解决问题能力
4.熟悉GPU在深度学习、渲染等场景应用者优先