wot
添加小助手
咨询活动详情
World Of Tech 2025
参会嘉宾
2025/07/18-19 北京·粤财JW万豪酒店
向乾彪
腾讯 推理架构师

个人聚焦于GPU推理加速技术多年,在性能优化、高性能异构计算等方面积累了丰富的经验,目前主要负责混元大模型推理加速框架AngelHCF的研发工作。

演讲主题:腾讯混元AngelHCF的优化与落地实践

主题介绍:\n 腾讯 AngelHCF 推理加速框架针对混元 LLM 大语言模型做了深度推理优化,结合全新的 Hybrid 模型结构整体上取得了不错的推理成本优势,支撑元宝线上混元模型上万卡推理。同时,AngelHCF 支持 PD 分离部署,针对 P 和 D 的推理特性分别采用不同的切分策略,叠加框架原有的模型压缩、并行解码等优化手段,显著降低线上推理成本。结合全新的Turbos 模型结构,本次分享将从不同角度介绍腾讯混元推理加速框架 AngelHCF 所做的一些针对性优化。\n \n 主题大纲:\n 1. 混元模型 & AngelHCF 推理加速框架介绍;\n 2. AngelHCF 推理框架性能优化具体实践;\n 3. 混元全新 Turbos 模型及其对应优化;\n 4. PD 分离部署结合特定切分策略极致优化;\n 5. 总结与展望。\n \n 听众收益:\n 1. 了解混元 Turbos Hybrid 结构带来的性能收益以及针对性的推理优化手段;\n 2. 了解 PD 分离结合超大规模 MoE 模型切分策略的优化方法。\n