wot
添加小助手
咨询活动详情
World Of Tech 2025
参会嘉宾
2025/07/18-19 北京·粤财JW万豪酒店
向乾彪
腾讯 推理架构师

个人聚焦于GPU推理加速技术多年,在性能优化、高性能异构计算等方面积累了丰富的经验,目前主要负责混元大模型推理加速框架AngelHCF的研发工作。

演讲主题:腾讯混元AngelHCF的优化与落地实践

主题介绍:
腾讯 AngelHCF 推理加速框架针对混元 LLM 大语言模型做了深度推理优化,结合全新的 Hybrid 模型结构整体上取得了不错的推理成本优势,支撑元宝线上混元模型上万卡推理。同时,AngelHCF 支持 PD 分离部署,针对 P 和 D 的推理特性分别采用不同的切分策略,叠加框架原有的模型压缩、并行解码等优化手段,显著降低线上推理成本。结合全新的Turbos 模型结构,本次分享将从不同角度介绍腾讯混元推理加速框架 AngelHCF 所做的一些针对性优化。

主题大纲:
1. 混元模型 & AngelHCF 推理加速框架介绍;
2. AngelHCF 推理框架性能优化具体实践;
3. 混元全新 Turbos 模型及其对应优化;
4. PD 分离部署结合特定切分策略极致优化;
5. 总结与展望。

听众收益:
1. 了解混元 Turbos Hybrid 结构带来的性能收益以及针对性的推理优化手段;
2. 了解 PD 分离结合超大规模 MoE 模型切分策略的优化方法。