课程简介
以Flink为核心技术来介绍当前最先进的流式处理架构和编程模型;详细拆解了Flink的流式计算中的几个重要技术点,如Window聚合计算、状态与容错机制等;以生产环境的流式应用为背景,介绍常见的问题和最优的解决方案;Flink在各个一线互联网的典型应用,如阿里、腾讯、微博等。
目标收益
学员通过实践本课程,能够熟悉大数据行业和分布式系统的技术核心知识点;通过Flink知识的学习,能够掌握大数据应用的开发和运维能力,并能够掌握海量数据处理的编码和性能调优经验。让学员能够从0到1独立完成Flink流式计算的程序编写和功能、性能上的调优;熟悉中国Top5互联网企业(如阿里巴巴,腾讯)的大数据平台中Flink的技术的应用案例和最佳实践。
培训对象
本课程不仅适合大数据 Hadoop, Flink, Spark 相关从业人员,同时也适合热爱或者希望未来从事大数据相关工作的在校学生,软件开发工程师,运维工程师以及架构师学习。通过本课程,学员将能够快速熟悉和掌握大数据利器Flink,尤其是流式计算的核心技术,在生产中解决实际问题。
课程内容
1. 流式处理架构
1.1 流式处理背景及架构介绍
1.2 流式处理行业案例以及Flink的适用场景及应用概述
1.3 Flink 与 Spark的比较以及为什么选择Flink
1.4 Flink流式计算的编程模型[1]:DataStream API
1.5 Flink流式计算的编程模型[2]:FlinkSQL与UDF
2. Flink流式处理核心技术
2.1 三种Time与Watermark
2.2 Window窗口有状态聚合计算详解
2.3 开发自己的Flink Connector(Source & Sink)
2.4 看懂Flink WebUI和Flink Metrics体系
2.5 常见Flink Connector(Kafka,Elasticsearch,HDFS)的使用与调优
2.6 Flink的Exactly-Once处理、状态维护与容错机制。
2.7 Flink 流式处理时的反压机制
3. 流式计算常见问题的技术方案:
3.1 如何处理乱序和延迟的数据?
3.2 海量数据规模下的性能调优?
3.3 双流Join怎么用?
3.4 实时数据与纬度表关联怎么样做最高效?
3.5 如何在Flink中实现业务计算逻辑动态更新?
3.6 窗口聚合数据希望尽早输出怎么办?
4. Flink在各大互联网公司的典型应用剖析
4.1 Flink在阿里、腾讯、微博的应用
4.2 Flink在短视频直播用户行为分析的实战