本次分享将重点介绍快手内部在HUDI数据湖技术上的生产实践。通过数据同步、数据更新和宽表拼接等典型业务场景的应用,说明如何用数据湖技术解决传统离线生产链路中的痛点,并优化效率、时效性和成本。最后介绍目前还存在的痛点和正在建设中的工作,并对未来的工作进行展望。这次分享的核心目标是突出数据湖技术在重塑离线生产方式中的关键作用。\n
\n
主题大纲:\n
1. 简介:\n
快手内部数据生产链路的挑战和痛点\n
数据湖技术引入的动机和意义\n
\n
2. 数据湖技术概述:\n
数据湖的基本概念和特点\n
HUDI数据湖技术的优势和适用场景\n
\n
3. 数据同步应用:\n
数据同步需求和挑战\n
基于 HUDI的数据同步解决方案和实践\n
\n
4. 数据更新应用:\n
传统离线生产链路中的数据更新问题\n
基于HUDI实现增量数据更新的案例和经验\n
\n
5. 宽表拼接应用:\n
宽表拼接在离线生产中的重要性和难点\n
基于HUDI建设大宽表的方案和实践\n
\n
6. 未来展望:\n
目前的痛点\n
建设中的工作\n
未来工作\n
\n
听众收益:\n
了解数据湖技术在数据同步、数据更新和宽表拼接等业务场景的经验\n
获得数据湖技术最新进展\n