课程简介
本次课程主要针对大数据平台中MapReduce,Spark中的Spark core、Spark SQL 、SparkStreaming这些内容进行讲解,通过这些内容的学习,可以掌握MapReduce的编程思想,以及掌握Spark中的离线计算和实时计算。
目标收益
了解大数据中MapReduce的核心原理
掌握MapReduce核心编程
了解Spark性能优化
掌握Spark中的离线计算和实时计算
掌握Spark SQL的使用
掌握HBase的高级特性
培训对象
1. 有一定编程基础,想学习和了解大数据的学员
2. 计算机相关专业,未来向大数据领域方向发展的学员
课程大纲
第一天上午:Hadoop原理及HDFS实操 |
1 快速了解Hadoop 2 Hadoop3.x的核心细节优化 3 Hadoop大数据平台的选型和安装 4 HDFS核心原理详解 5 HDFS的常见shell操作 6 Java代码操作HDFS |
第一天上午:HDFS高级内容 |
7 HDFS体系结构原理详细剖析 8 HDFS的回收站和安全模式 9 HDFS的高可用和高扩展架构剖析 |
第一天下午:MapReduce核心编程 |
1 MapReduce原理深度剖析 2 MapReduce实战案例开发 3 Shuffle过程详解 4 Hadoop中的序列化机制分析 5 YARN资源管理模型分析 6 YARN中的多资源队列配置和使用 |
第一天下午:MapReduce源码剖析及性能优化解决方案 |
7 Inputformat源码分析 8 Outputformat源码分析 9 小文件问题剖析及实战 10 数据倾斜问题剖析及实战 |
第二天上午:Spark原理及案例开发 |
1 Spark核心原理剖析 2 Spark集群安装部署模式剖析 3 Spark架构原理分析 4 Spark 程序开发 5 Spark任务的三种提交模式 |
第二天上午:Spark核心编程及高级特性剖析 |
6 Spark常用Transformation算子分析及实战 7 Spark常用Action算子分析及实战 8 RDD持久化原理剖析及应用 9 宽依赖和窄依赖剖析 10 checkpoint原理剖析及应用 |
第二天下午:Spark性能优化原理分析及实战 |
1 Spark中高性能序列化类库的使用 2 Spark JVM垃圾回收调忧 3 Spark数据本地化策略剖析 4 Spark 任务并行度调忧 5 Spark常用算子调忧 6 Spark SQL核心功能应用 7 SparkStreaming实时计算引擎的应用 |
第二天下午:案例实战 |
8 Spark批处理案例 9 Spark Streaming流处理案例 10 基于SparkSQL的一站式SQL开发引擎 |
第一天上午:Hadoop原理及HDFS实操 1 快速了解Hadoop 2 Hadoop3.x的核心细节优化 3 Hadoop大数据平台的选型和安装 4 HDFS核心原理详解 5 HDFS的常见shell操作 6 Java代码操作HDFS |
第一天上午:HDFS高级内容 7 HDFS体系结构原理详细剖析 8 HDFS的回收站和安全模式 9 HDFS的高可用和高扩展架构剖析 |
第一天下午:MapReduce核心编程 1 MapReduce原理深度剖析 2 MapReduce实战案例开发 3 Shuffle过程详解 4 Hadoop中的序列化机制分析 5 YARN资源管理模型分析 6 YARN中的多资源队列配置和使用 |
第一天下午:MapReduce源码剖析及性能优化解决方案 7 Inputformat源码分析 8 Outputformat源码分析 9 小文件问题剖析及实战 10 数据倾斜问题剖析及实战 |
第二天上午:Spark原理及案例开发 1 Spark核心原理剖析 2 Spark集群安装部署模式剖析 3 Spark架构原理分析 4 Spark 程序开发 5 Spark任务的三种提交模式 |
第二天上午:Spark核心编程及高级特性剖析 6 Spark常用Transformation算子分析及实战 7 Spark常用Action算子分析及实战 8 RDD持久化原理剖析及应用 9 宽依赖和窄依赖剖析 10 checkpoint原理剖析及应用 |
第二天下午:Spark性能优化原理分析及实战 1 Spark中高性能序列化类库的使用 2 Spark JVM垃圾回收调忧 3 Spark数据本地化策略剖析 4 Spark 任务并行度调忧 5 Spark常用算子调忧 6 Spark SQL核心功能应用 7 SparkStreaming实时计算引擎的应用 |
第二天下午:案例实战 8 Spark批处理案例 9 Spark Streaming流处理案例 10 基于SparkSQL的一站式SQL开发引擎 |