演讲主题:腾讯混元AngelHCF的优化与落地实践
主题介绍:
腾讯 AngelHCF 推理加速框架针对混元 LLM 大语言模型做了深度推理优化,结合全新的 Hybrid 模型结构整体上取得了不错的推理成本优势,支撑元宝线上混元模型上万卡推理。同时,AngelHCF 支持 PD 分离部署,针对 P 和 D 的推理特性分别采用不同的切分策略,叠加框架原有的模型压缩、并行解码等优化手段,显著降低线上推理成本。结合全新的Turbos 模型结构,本次分享将从不同角度介绍腾讯混元推理加速框架 AngelHCF 所做的一些针对性优化。
主题大纲:
1. 混元模型 & AngelHCF 推理加速框架介绍;
2. AngelHCF 推理框架性能优化具体实践;
3. 混元全新 Turbos 模型及其对应优化;
4. PD 分离部署结合特定切分策略极致优化;
5. 总结与展望。
听众收益:
1. 了解混元 Turbos Hybrid 结构带来的性能收益以及针对性的推理优化手段;
2. 了解 PD 分离结合超大规模 MoE 模型切分策略的优化方法。