课程简介
大数据建模与分析挖掘技术已经逐步地应用到新兴互联网企业(如电子商务网站、搜索引擎、社交网站、互联网广告服务提供商等)、银行金融证券企业、电信运营等行业,给这些行业带来了一定的数据价值增值作用。
目标收益
1.本课程让学员充分掌握大数据平台技术架构、大数据分析的基本理论、大数据分析挖掘应用实战技能、国内外主流的大数据分析与BI商业智能分析解决方案、以及大数据分析在搜索引擎、广告服务推荐、电商数据分析、金融客户分析方面的应用案例。
2.本课程强调主流的大数据分析挖掘算法技术的应用和分析平台的实施,让学员掌握主流的基于大数据Hadoop和Spark、R的大数据分析平台架构和实际应用,并用结合实际的生产系统案例进行教学,掌握基于Hadoop大数据平台的数据挖掘和数据仓库分布式系统平台应用,以及商业和开源的数据分析产品加上Hadoop平台形成大数据分析平台的应用剖析。
培训对象
课程大纲
数据建模概念 |
为什么要数据建模 数据建模解决哪些问题 什么是逻辑数据模型 模型设计的流程 逻辑模型设计 物理模型设计 数据建模的工具介绍 |
基于大数据平台分析和挖掘工具 |
业界主流的基于Hadoop和Spark的大数据分析挖掘项目解决方案 业界数据仓库与数据分析挖掘平台软件工具 Hadoop数据仓库工具Hive、Tez、Kylin和Presto Spark实时数据仓库工具SparkSQL Spark机器学习与数据分析挖掘工具MLlib和SparkR 大数据分析挖掘项目的实施步骤 |
数据集成 |
日志数据解析和导入导出到数据仓库的操作训练 从原始搜索数据集中抽取、集成数据,整理后形成规范的数据仓库 数据分析挖掘模块从大型的集中式数据仓库中访问数据,一个数据仓库面向一个主题,构建两个数据仓库 同一个数据仓库中的事实表数据,可以给多个不同类型的分析挖掘任务调用 去除噪声 |
HIVE数据仓库集群的多维分析建模应用实践 |
基于Hadoop的大型分布式数据仓库在行业中的数据仓库应用案例 Hive数据仓库集群的平台体系结构、核心技术剖析 Hive Server的工作原理、机制与应用 Hive数据仓库集群的安装部署与配置优化 Hive应用开发技巧 Hive SQL剖析与应用实践 Hive数据仓库表与表分区、表操作、数据导入导出、客户端操作技巧 Hive数据仓库报表设计 将原始的日志数据集,经过整理后,加载至Hadoop + Hive数据仓库集群中,用于共享访问 |
R语言介绍 |
R语言介绍 R语言常用的分析库介绍 R语言开发环境介绍 R分析分析和挖掘案例实战 Spark和R的整合 |
聚类分析建模与挖掘算法的实现原理和技术应用 |
聚类分析建模与算法原理及其在Spark MLlib中的实现与应用,包括: a)Canopy聚类(canopy clustering) b)K均值算法(K-means clustering) c)模糊K均值(Fuzzy K-means clustering) d)EM聚类,即期望最大化聚类(Expectation Maximization) e)以上算法在Spark MLib中的实现原理和实际场景中的应用案例。 Spark聚类分析算法程序示例 |
分类分析建模与挖掘算法的实现原理和技术应用 |
分类分析建模与算法原理及其在Spark MLlib中的实现与应用, 包括: a.Spark决策树算法实现 b.逻辑回归算法(logistics regression) c.贝叶斯算法(Bayesian与Cbeyes) d.支持向量机(Support vector machine) e.以上算法在Spark MLlib中的实现原理和实际场景中的应用案例。 Spark客户资料分析与给用户贴标签的程序示例 Spark实现给商品贴标签的程序示例 Spark实现用户行为的自动标签和深度技术 |
推荐分析挖掘模型与算法技术应用 |
推荐算法原理及其在Spark MLlib中的实现与应用,包括: a)Spark协同过滤算法程序示例 b)Item-based协同过滤与推荐 c)User-based协同过滤与推荐 交叉销售推荐模型及其实现 |
回归分析模型与预测算法 |
利用线性回归(多元回归)实现访问量预测 利用非线性回归预测成交量和访问量的关系 基于SparkR实现回归分析模型及其应用操作 Spark回归程序实现异常点检测的程序示例 |
Spark Graphx数据挖掘 |
Spark Graphx介绍 GraphxFrame介绍 复杂社交网落分析实战 图分析实战 |
数据建模概念 为什么要数据建模 数据建模解决哪些问题 什么是逻辑数据模型 模型设计的流程 逻辑模型设计 物理模型设计 数据建模的工具介绍 |
基于大数据平台分析和挖掘工具 业界主流的基于Hadoop和Spark的大数据分析挖掘项目解决方案 业界数据仓库与数据分析挖掘平台软件工具 Hadoop数据仓库工具Hive、Tez、Kylin和Presto Spark实时数据仓库工具SparkSQL Spark机器学习与数据分析挖掘工具MLlib和SparkR 大数据分析挖掘项目的实施步骤 |
数据集成 日志数据解析和导入导出到数据仓库的操作训练 从原始搜索数据集中抽取、集成数据,整理后形成规范的数据仓库 数据分析挖掘模块从大型的集中式数据仓库中访问数据,一个数据仓库面向一个主题,构建两个数据仓库 同一个数据仓库中的事实表数据,可以给多个不同类型的分析挖掘任务调用 去除噪声 |
HIVE数据仓库集群的多维分析建模应用实践 基于Hadoop的大型分布式数据仓库在行业中的数据仓库应用案例 Hive数据仓库集群的平台体系结构、核心技术剖析 Hive Server的工作原理、机制与应用 Hive数据仓库集群的安装部署与配置优化 Hive应用开发技巧 Hive SQL剖析与应用实践 Hive数据仓库表与表分区、表操作、数据导入导出、客户端操作技巧 Hive数据仓库报表设计 将原始的日志数据集,经过整理后,加载至Hadoop + Hive数据仓库集群中,用于共享访问 |
R语言介绍 R语言介绍 R语言常用的分析库介绍 R语言开发环境介绍 R分析分析和挖掘案例实战 Spark和R的整合 |
聚类分析建模与挖掘算法的实现原理和技术应用 聚类分析建模与算法原理及其在Spark MLlib中的实现与应用,包括: a)Canopy聚类(canopy clustering) b)K均值算法(K-means clustering) c)模糊K均值(Fuzzy K-means clustering) d)EM聚类,即期望最大化聚类(Expectation Maximization) e)以上算法在Spark MLib中的实现原理和实际场景中的应用案例。 Spark聚类分析算法程序示例 |
分类分析建模与挖掘算法的实现原理和技术应用 分类分析建模与算法原理及其在Spark MLlib中的实现与应用, 包括: a.Spark决策树算法实现 b.逻辑回归算法(logistics regression) c.贝叶斯算法(Bayesian与Cbeyes) d.支持向量机(Support vector machine) e.以上算法在Spark MLlib中的实现原理和实际场景中的应用案例。 Spark客户资料分析与给用户贴标签的程序示例 Spark实现给商品贴标签的程序示例 Spark实现用户行为的自动标签和深度技术 |
推荐分析挖掘模型与算法技术应用 推荐算法原理及其在Spark MLlib中的实现与应用,包括: a)Spark协同过滤算法程序示例 b)Item-based协同过滤与推荐 c)User-based协同过滤与推荐 交叉销售推荐模型及其实现 |
回归分析模型与预测算法 利用线性回归(多元回归)实现访问量预测 利用非线性回归预测成交量和访问量的关系 基于SparkR实现回归分析模型及其应用操作 Spark回归程序实现异常点检测的程序示例 |
Spark Graphx数据挖掘 Spark Graphx介绍 GraphxFrame介绍 复杂社交网落分析实战 图分析实战 |