课程简介
案例背景:
当今数据源多达几百种,来源不仅有关系型和非关系型数据库,还有 SAAS、日志及接口数据等,离线批量同步已不能满足业务需求,越多越多的业务要求实时同步,如何让这些数据源之间可以快速高效进行离线和实时同步,且做到数据一致性及完善的监控同时占用最少的资源,这是对数据集成的一个极大的挑战
解决思路:
研发数据集成同步专用引擎 Zeta 来解决海量数据(离线&实时)同步和转化的数据集成难题
成果:
利用 Apache SeaTunnel 数据同步管道,可以以尽可能简单的结构和较低的消耗完成数据同步,对于大规模的数据集成同步提供更优的表现。
目标收益
1、Apache SeaTunnel 功能与架构设计
2、为何研发 SeaTunnel 自己的同步引擎 Zeta、而不是选择基于 Spark/Flink?
3、用户使用案例及后续 Roadmap 等内容
培训对象
课程内容
案例方向
AI基础设施 / 搜索广告推荐 / 数据分析 / DataOps
案例背景
CDC(变更数据捕获)是数据集成同步的典型应用场景之一,过去业内的方案难以同时兼顾高吞吐、低消耗、易管理、Schema 演化等需求,只能在某一方面或者几方面做权衡取舍。
在本次分享,我将着重于讲解如何基于 Apapche SeaTunnel 构建 CDC 数据同步管道,以及引入一系列特性来解决上述问题。
收益
1. 了解 Apache SeaTunnel 在 CDC 场景的应用实践
2. 了解 Apache SeaTunnel CDC 的技术实现和最新的功能特性
3. 了解如何使用 Apache SeaTunnel 搭建 CDC 数据同步管道的案例
解决思路
引入 CDC 连接器,在 CDC 连接器内实现整库同步减少作业管理维护负担,实现多并行同步历史数据并切换到单并行增量阶段(无锁并行增量快照),加速同步过程。
同时支持断点续传在错误位置恢复减少重复消耗,再结合 Schema 演化自动推送结构变更到目标库,实现数据与结构的自动化一体变更。
结果
利用 Apache SeaTunnel CDC 数据同步管道,可以以尽可能简单的结构和较低的消耗完成数据同步,对于大规模的数据集成同步提供更优的表现。