World Of Tech 2023
出品人详情
2023/11/24-25 深圳·前海JEN酒店
张观石
《SRE原理与实践》作者 前虎牙运维架构师

《SRE原理与实践:构建高可靠性互联网应用》作者;曾任虎牙业务运维负责人、运维资源负责人和架构师,参与基于混合云的AI工程平台的运维资源架构设计。中国信通院分布式系统稳定性实验室高级技术专家,参与编写了信通院《信息系统稳定性保障能力建设指南》。信通院数字化治理方阵(DGA)数字研运转型领域首批智库专家。

专题:AIGC与智能运维

JEN3厅

AIGC的出现为智能运维带来新的机会和挑战。智能运维作为机器学习与传统行业交叉的典型领域,有望通过将LLM与AIOps相结合,开启全新的智能运维时代。本专题将分享如何做好AIGC时代的基础设施运维,运维大模型场景、基础架构、落地路线等话题。
李彬
美图 资深SRE工程师
美图:AIGC运维之旅的探索和挑战
主题介绍:\n 1. 探索算力的多维世界:选择与应用的艺术\n 在AI的世界中,算力展现出无尽的多样性和复杂性。我们将深入探讨不同类型的GPU和NPU(例如昇腾)之间的独特差异,以及如何基于特定的算法需求,作出最佳的算力选择。\n 2. 精细化的训练与推理集群管理:巧妙平衡成本与效益\n 训练与推理集群各自蕴含着独特的管理巧思。在这一部分,我们将剖析这两者在日常交付、权限控制和成本监控等方面的管理差异,特别是在面对训练集群高昂成本的挑战时,如何实施精细化管理。\n 3. 赋能多云生态:揭示标准化管理的力量\n 标准化是实现多云管理的金钥匙。本环节将探讨如何通过实施标准化流程和协议,实现多云环境中的流畅交付和协同。\n 4. 流量的智能调度:自动化与智能化的完美融合\n 流量调度是多云环境中的核心艺术。我们将展示如何通过自动化和智能化技术,实现流量的精确调度和优化,确保资源的最大化利用和服务的最优性能。\n 5. 安全与合规:构建大模型训练集群的坚固防线\n 在大模型训练集群的运维中,安全与合规是至关重要的基石。本节将深入探讨在大模型训练过程中遇到的安全与合规问题,并分享如何通过实施有效策略,确保训练集群的安全稳固。\n \n 主题大纲:\n 1. 美图AIGC历程;\n 2. 多元算力的选择和应用;\n 3. 标准化赋能多云生态;\n 4. 多云管理和稳定性运营;\n 5. 多云流量调度 & 弹性伸缩;\n 6. 大模型安全和成本建设;\n \n 听众收益:\n 1. 通过实际案例来分享不同算力对业务的影响,帮助听众在多样性选择的时候做出更加合适的决定;\n 2. 如何在多云环境中试试标准化管理和流程,掌握多云管理的最佳实践和标准,从而更加高效和一致的管理多云环境;\n 3. 学会如何实现流量的精确调度和优化,确保业务稳定运行;\n 4. 深入了解大模型训练中可能遇到的安全风险,如何制定有效的安全策略以及开展更好的成本优化;\n
裴昶华
中国科学院计算机网络信息中心 副研究员
运维大模型评测与展望
主题介绍:\n LLM已在各类自然语言处理任务中展现出显著优势,以OpenAI发布的GPT模型为代表的新技术革命正在全面展开。然而,这些模型大多依赖于通用领域的数据,对于特定垂直领域的应用,其性能常常受到限制。为了解决这一问题,研究者开始深入探索垂直领域的LLM模型,目前已在医疗、法律等领域取得了显著的成果。智能运维AIOps,作为机器学习与传统行业交叉的典型领域,有望通过将LLM与AIOps相结合,开启全新的智能运维时代。本次分享将重点关注“运维大模型”,探讨其概念,以及与大语言模型、传统AIOps以及自动化运维工具的关系和融合方式。同时,面对众多开源大语言模型,将介绍如何选择适合的大语言基座模型。最后,还将系统地介绍和展望长短期内可落地的应用,以及在应用落地的过程中面临的挑战和解决方案。\n \n 主题大纲:\n 1. 运维大模型场景;\n 2. 运维大模型评测;\n 3. 运维大模型基础架构;\n 4. 运维大模型落地路线;\n \n 听众收益:\n 系统地结合近期落地实践介绍和展望长短期内可落地的应用,以及在应用落地的过程中面临的挑战和解决方案。同时也会详细的讲述运维大模型评测榜单OpsEval背后的技术和结论,为运维大模型的相关选型和优化提供指导意见。\n
神秘嘉宾
敬请期待