演讲主题:面向故障处理的可观测性体系建设
大宴会厅1
服务稳定性保障是一个系统性的工程,建设一个完善的可观测性体系,是稳定性保障的基础,而稳定性保障也是可观测性体系服务的最重要的场景。然而目前企业内部普遍面临着一个痛点,虽然各种观测数据都有了,但在故障发现、故障定位上仍然存在发现慢,定位难,协同难等问题,在稳定性保障上技术团队经常处于被动。很多企业可能已经不缺少数据,但缺少的是将数据价值在稳定性保障领域发挥出来的产品、方法和最佳实践。\n
\n
快猫星云团队,过往在一线互联网公司长期负责稳定性保障工作,同时也是国内领先的开源观测平台“夜莺”的创始团队。我们总结了解决企业可观测系统落地问题的三大要素:数据、平台、场景。假如把建设一套面向稳定性保障的可观测系统比喻为做一道好菜,那数据就是食材,平台就是炊具,场景就是厨艺。\n
\n
数据:巧妇难为无米之炊,需要做好稳定性保障,备齐各维度的数据在所难免。\n
平台:一套趁手的炊具是好厨师的必备,监控和可观测所需的通用功能和接口需要友好而高效,便于支持上层场景的实现。\n
场景:不是有了食材和炊具就一定能烧好一道菜,稳定性保障的经验、方法、和最佳实践是整个系统最后输出效果的关键。\n
\n
本次分享,我们将重点介绍一种面向故障处理的可观测性体系建设的最佳实践,希望能给各位听众带来一些思考和启发。\n
\n
主题大纲:\n
可观测性三大支柱是手段而非目标\n
第1步:定义并发现业务故障,圈定影响范围\n
第2步:依托SLO构建技术视角的稳定性视图,圈定故障模块\n
第3步:依托可观测性数据的串联,找到止损依据\n