课程简介
1.传统离线数仓痛点
2.数据湖技术方案
3.Hudi 任务稳定性保障
4.数据入湖实践
5.增量数据湖平台收益
6.社区贡献
7.未来的发展与思考
目标收益
培训对象
课程内容
大规模的数据落地 HDFS 后,只能在凌晨分区归档后才能查询并做下一步处理; 数据量较大的 RDS 数据同步,需要在凌晨分区归档后才能处理,并且需要做排序、去重以及 join 前一天分区的数据,才能产生出当天的数据; 仅能通过分区粒度读取数据,在分流等场景下会出现大量的冗余 IO。