课程简介
随着大数据时代的快速到来,以及大数据在生产生活中迅速普及与应用,为社会、为企业创造了巨大价值。如何让大数据发挥价值,为企业创造利润,为企业战略决策提供依据,帮助企业在商业竞争中规避风险呢?其中数据挖掘技术则是大数据技术中最为重要的一部分,能够充分发挥大数据的价值,因此数据挖掘、统计学、机器学习、深度学习、人工智能等被越来越多的企业重视与应用。所以大数据的快速发展,带动了的数据处理、统计分析、数据挖掘、机器学习、人工智能等数据科学的快速发展,因此数据科学技术是企业在商业竞争中必须掌握的技术。
本课程是尹老师多年从事数据挖掘工作经验的总结和归纳,课程安排是以实际业务案例为切入点,以讲故事的方式,使学员从应用层面到理论层面系统的学习数据处理技术,包括机器学习、深度学习、统计学知识,使学员深入理解机器学习。通过本课程的学习,学员即可以正确的分析企业的数据,为管理者、决策层提供数据支撑。
本课程重点讲解机器学习、深度学习、统计学基础知识,并对机器学习算法原理、实现、应用案例进行深入剖析。
目标收益
1、使学员深入理解机器学习、深度学习的基础概念、技术、思维模式;
2、使学员深入理解机器学习、深度学习算法原理、具备机器学习算法的使用能力;
3、使学员深入理解数据收集、数据挖掘、信息提取的能力;
4、使学员深入理解绘制数据可视化图形的能力;
5、深入剖析主流的机器学习、深度学习算法;
6、介绍统计学基础知识;
7、深入剖析模型的构建、特征提取、指标体系;
8、通过案例故事,深入剖析机器学习、深度学习的应用,交流数据挖掘的经验;
9、浅显易懂的方式介绍人工智能、深度学习、人工神经网络等知识点;
培训对象
1、本课程适合于机器学习和统计学的初级学习者;
2、对机器学习、数据分析、统计学感兴趣的人士;
课程大纲
机器学习概述 |
1、什么是机器学习? 2、计算机在学习什么内容? 3、计算机能不能学习算法、模型? 4、从哪里学习? 5、学习的方法是什么? 6、学习的目的是什么? 7、损失函数 a)最小二乘法 b)极大似然 c)梯度下降 8、样本集、训练集、验证集、测试集 9、二元分类、多元分类 10、导数、偏导、链式求导 11、案例剖析:制定企业下一年销售计划为案例,介绍机器学习的基础知识,用回归模型预测未来销售量以指导企业计划的制定; 12、机器学习的过程 a)收集数据 b)预处理数据 c)探知数据 d)分析数据 e)选择模型 f)训练模型 g)评估模型 h)发布模型 |
机器学习模型类别介绍 |
1、机器学习算法分类 a)监督式学习 b)非监督式学习 c)半监督式学习 d)强化学习 2、聚类算法解析 3、分类算法解析 4、协同过滤算法解析 5、关联规则算法 6、精准推荐算法 7、训练数据集与评分 8、神经网络 9、深度学习 10、人工智能 |
统计学基本概念 |
1、统计学知识 2、统计学(statistics) 3、统计学基础 a)大数据定理 b)中心极限定理 4、统计学分类 a)描述统计学(Descriptive Statistics) b)推断统计学(Inferential Statistics) 5、统计基本概念 6、变量的度量标准 7、统计数据的计量尺度 a)定性变量 b)离散变量 c)连续变量 d)多元变量 8、常用基本统计量 9、数据分布特征 a)正态分布 b)均匀分布 c)伯努利分布 d)二项分布 e)泊松分布 f)指数分布 10、偏度和峰度 11、随机数生成 12、概率分布 13、频率分布表 14、频率分布直方图 15、集中趋势的描述指标 16、离散趋势的描述指标 17、指标维度 18、单变量数据分析 19、双变量数据分析 20、多变量数据分析 21、假设检验 22、检测数据集的分布 23、统计模拟和数据抽样 24、随机抽样 25、案例剖析:统计模拟与随机抽样 26、蒙特卡罗模拟 27、箱线图 28、用蒙特卡罗方法计算圆周率π 29、案例:蒙特卡罗模拟的应用 实操:实现蒙特卡罗求圆周率 |
线性回归模型 |
1、回归与分类 2、回归分析概念 3、线性回归模型及其参数估计 4、一元线性回归 5、一元线性回归模型 6、一元线性回归模型求解参数 7、损失函数 8、求偏导 9、线性模型评估方法 10、回归方程的显著性检验 11、残差分析 12、误差项的正态性检验 13、残差图分析 14、过拟合 15、过拟合原因分析 16、统计推断与预测 17、回归模型的选取 18、穷举法 19、逐步回归法 20、岭回归分析 21、Python一元线性回归 22、金融案例:Python一元线性回归模型检验 23、多元线性回归概述 24、多元线性回归模型 25、金融案例:Python多元线性回归实现 26、非线性回归 a)双曲线函数 b)幂函数 c)指数函数 d)对数函数 e)S型曲线 27、案例:非线性回归预测市场趋势案例 28、课堂实操:Python非线性回归实现 29、回归模型应用场景 |
逻辑回归模型 |
1、Logistic函数 2、绘制Logistic曲线 3、Logistic回归模型介绍 4、Logistic回归模型应用场景介绍 5、Logistic回归模型原理 6、Logistic回归模型优化 7、Logistic回归模型保存 8、Logistic回归模型评估 9、案例:用户离网预测 案例:信用卡违约预测 |
支持向量机 |
1、什么是支持向量机 2、支持向量机算法应用场景介绍 3、支持向量机算法原理 4、支持向量机算法评估 5、支持向量回归算法介绍 6、二分类模型 7、超平面 8、对偶问题 9、线性可分支持向量机 10、"决策面"方程 11、"分类间隔"方程 12、约束条件 13、拉格朗日函数 14、非线性支持向量机 15、核函数 a)线性核 b)多项式核 c)高斯核 d)拉普拉斯核 e)sigmiod核 16、线性支持向量机(软间隔支持向量机) 17、松弛变量 18、支持向量回归算法优化 19、支持向量回归模型保存 20、案例:采用支持向量机算法由汽车行驶轨迹预测道路宽度 |
机器学习常用距离 |
1、欧氏距离 2、曼哈顿距离 3、切比雪夫距离 4、闵可夫斯基距离 5、标准化欧氏距离 6、马氏距离 7、夹角余弦 8、汉明距离 9、杰卡德距离 & 杰卡德相似系数 10、相关系数 & 相关距离 11、信息熵 |
决策树模型 |
1、什么是决策树模型 2、决策树模型介绍 3、决策树构成要素 4、决策树算法原理 5、决策树法的决策过程 6、决策树算法应用场景 7、决策树算法 8、特征选择 9、香农熵 10、计算经验熵 11、信息增益 12、计算信息增益 13、决策树生成 14、修剪 a)预剪枝 b)后剪枝 15、决策树构建 16、ID3算法 17、C4.5算法 18、CART算法 19、决策树算法优化 20、决策树可视化 21、使用决策树执行分类 22、决策树的存储 23、随机森林 24、案例:疾病是否复发预测 |
随机森林模型 |
1、什么是随机森林 2、随机森林模型介绍 3、随机森林模型原理 4、随机森林模型的优点 5、随机森林模型的应用场景 6、随机森林模型树的构造方法 7、随机森林回归模型 8、信息、熵以及信息增益 9、决策树与随机森林的区别 10、随机森林回归模型优化 11、随机森林回归模型保存 12、随机森林算法重要的超参数 13、提高模型预测准确性 14、加快模型计算速度 15、案例:银行贷款违约预测 |
xgboost/GBDT模型 |
1、什么是xgboost/GBDT 2、xgboost/GBDT模型介绍 3、xgboost/GBDT模型原理 4、xgboost/GBDT模型的优点 5、xgboost/GBDT模型的应用场景 6、xgboost与gdbt的区别 7、xgboost/GBDT模型优化 8、xgboost/GBDT模型保存 9、惩罚项 10、案例:xgboost应用案例 |
聚类模型 |
1、聚类介绍 2、聚类算法应用场景 3、聚类算法应用案例 4、样品间相近性的度量 5、快速聚类法 6、快速聚类法的步骤 7、用Lm距离进行快速聚类 8、谱系聚类法 9、类间距离及其递推公式 10、谱系聚类法的步骤 11、变量聚类 12、K-Means(K均值)聚类 13、均值漂移聚类 14、基于密度的聚类方法(DBSCAN) 15、用高斯混合模型(GMM)的最大期望(EM)聚类 16、凝聚层次聚类 17、图团体检测(Graph Community Detection) 18、案例:Python语言聚类实现及绘图 19、案例:Kmeans应用案例剖析 20、课堂实操:Python语言实现基于聚类的图像分割方法 |
模型评估 |
1、查准率 2、查全率 3、训练集 4、测试集 5、训练误差1、查准率 2、查全率 3、训练集 4、测试集 5、训练误差 |
其他挖掘算法 |
1、协同过滤算法解析 推荐引擎 |
关联规则 |
1、支持度与置信度 2、关联规则挖掘的过程 3、Apriori算法 4、关联规则案例 5、支持度与置信度计算 6、关联规则 案例:Python实现购物蓝关联规则分析 |
时序模式 |
1、时间序列分析 2、时间序列 3、序列分析的三个阶段 案例:Python实现时序模式分析 |
机器学习概述 1、什么是机器学习? 2、计算机在学习什么内容? 3、计算机能不能学习算法、模型? 4、从哪里学习? 5、学习的方法是什么? 6、学习的目的是什么? 7、损失函数 a)最小二乘法 b)极大似然 c)梯度下降 8、样本集、训练集、验证集、测试集 9、二元分类、多元分类 10、导数、偏导、链式求导 11、案例剖析:制定企业下一年销售计划为案例,介绍机器学习的基础知识,用回归模型预测未来销售量以指导企业计划的制定; 12、机器学习的过程 a)收集数据 b)预处理数据 c)探知数据 d)分析数据 e)选择模型 f)训练模型 g)评估模型 h)发布模型 |
机器学习模型类别介绍 1、机器学习算法分类 a)监督式学习 b)非监督式学习 c)半监督式学习 d)强化学习 2、聚类算法解析 3、分类算法解析 4、协同过滤算法解析 5、关联规则算法 6、精准推荐算法 7、训练数据集与评分 8、神经网络 9、深度学习 10、人工智能 |
统计学基本概念 1、统计学知识 2、统计学(statistics) 3、统计学基础 a)大数据定理 b)中心极限定理 4、统计学分类 a)描述统计学(Descriptive Statistics) b)推断统计学(Inferential Statistics) 5、统计基本概念 6、变量的度量标准 7、统计数据的计量尺度 a)定性变量 b)离散变量 c)连续变量 d)多元变量 8、常用基本统计量 9、数据分布特征 a)正态分布 b)均匀分布 c)伯努利分布 d)二项分布 e)泊松分布 f)指数分布 10、偏度和峰度 11、随机数生成 12、概率分布 13、频率分布表 14、频率分布直方图 15、集中趋势的描述指标 16、离散趋势的描述指标 17、指标维度 18、单变量数据分析 19、双变量数据分析 20、多变量数据分析 21、假设检验 22、检测数据集的分布 23、统计模拟和数据抽样 24、随机抽样 25、案例剖析:统计模拟与随机抽样 26、蒙特卡罗模拟 27、箱线图 28、用蒙特卡罗方法计算圆周率π 29、案例:蒙特卡罗模拟的应用 实操:实现蒙特卡罗求圆周率 |
线性回归模型 1、回归与分类 2、回归分析概念 3、线性回归模型及其参数估计 4、一元线性回归 5、一元线性回归模型 6、一元线性回归模型求解参数 7、损失函数 8、求偏导 9、线性模型评估方法 10、回归方程的显著性检验 11、残差分析 12、误差项的正态性检验 13、残差图分析 14、过拟合 15、过拟合原因分析 16、统计推断与预测 17、回归模型的选取 18、穷举法 19、逐步回归法 20、岭回归分析 21、Python一元线性回归 22、金融案例:Python一元线性回归模型检验 23、多元线性回归概述 24、多元线性回归模型 25、金融案例:Python多元线性回归实现 26、非线性回归 a)双曲线函数 b)幂函数 c)指数函数 d)对数函数 e)S型曲线 27、案例:非线性回归预测市场趋势案例 28、课堂实操:Python非线性回归实现 29、回归模型应用场景 |
逻辑回归模型 1、Logistic函数 2、绘制Logistic曲线 3、Logistic回归模型介绍 4、Logistic回归模型应用场景介绍 5、Logistic回归模型原理 6、Logistic回归模型优化 7、Logistic回归模型保存 8、Logistic回归模型评估 9、案例:用户离网预测 案例:信用卡违约预测 |
支持向量机 1、什么是支持向量机 2、支持向量机算法应用场景介绍 3、支持向量机算法原理 4、支持向量机算法评估 5、支持向量回归算法介绍 6、二分类模型 7、超平面 8、对偶问题 9、线性可分支持向量机 10、"决策面"方程 11、"分类间隔"方程 12、约束条件 13、拉格朗日函数 14、非线性支持向量机 15、核函数 a)线性核 b)多项式核 c)高斯核 d)拉普拉斯核 e)sigmiod核 16、线性支持向量机(软间隔支持向量机) 17、松弛变量 18、支持向量回归算法优化 19、支持向量回归模型保存 20、案例:采用支持向量机算法由汽车行驶轨迹预测道路宽度 |
机器学习常用距离 1、欧氏距离 2、曼哈顿距离 3、切比雪夫距离 4、闵可夫斯基距离 5、标准化欧氏距离 6、马氏距离 7、夹角余弦 8、汉明距离 9、杰卡德距离 & 杰卡德相似系数 10、相关系数 & 相关距离 11、信息熵 |
决策树模型 1、什么是决策树模型 2、决策树模型介绍 3、决策树构成要素 4、决策树算法原理 5、决策树法的决策过程 6、决策树算法应用场景 7、决策树算法 8、特征选择 9、香农熵 10、计算经验熵 11、信息增益 12、计算信息增益 13、决策树生成 14、修剪 a)预剪枝 b)后剪枝 15、决策树构建 16、ID3算法 17、C4.5算法 18、CART算法 19、决策树算法优化 20、决策树可视化 21、使用决策树执行分类 22、决策树的存储 23、随机森林 24、案例:疾病是否复发预测 |
随机森林模型 1、什么是随机森林 2、随机森林模型介绍 3、随机森林模型原理 4、随机森林模型的优点 5、随机森林模型的应用场景 6、随机森林模型树的构造方法 7、随机森林回归模型 8、信息、熵以及信息增益 9、决策树与随机森林的区别 10、随机森林回归模型优化 11、随机森林回归模型保存 12、随机森林算法重要的超参数 13、提高模型预测准确性 14、加快模型计算速度 15、案例:银行贷款违约预测 |
xgboost/GBDT模型 1、什么是xgboost/GBDT 2、xgboost/GBDT模型介绍 3、xgboost/GBDT模型原理 4、xgboost/GBDT模型的优点 5、xgboost/GBDT模型的应用场景 6、xgboost与gdbt的区别 7、xgboost/GBDT模型优化 8、xgboost/GBDT模型保存 9、惩罚项 10、案例:xgboost应用案例 |
聚类模型 1、聚类介绍 2、聚类算法应用场景 3、聚类算法应用案例 4、样品间相近性的度量 5、快速聚类法 6、快速聚类法的步骤 7、用Lm距离进行快速聚类 8、谱系聚类法 9、类间距离及其递推公式 10、谱系聚类法的步骤 11、变量聚类 12、K-Means(K均值)聚类 13、均值漂移聚类 14、基于密度的聚类方法(DBSCAN) 15、用高斯混合模型(GMM)的最大期望(EM)聚类 16、凝聚层次聚类 17、图团体检测(Graph Community Detection) 18、案例:Python语言聚类实现及绘图 19、案例:Kmeans应用案例剖析 20、课堂实操:Python语言实现基于聚类的图像分割方法 |
模型评估 1、查准率 2、查全率 3、训练集 4、测试集 5、训练误差1、查准率 2、查全率 3、训练集 4、测试集 5、训练误差 |
其他挖掘算法 1、协同过滤算法解析 推荐引擎 |
关联规则 1、支持度与置信度 2、关联规则挖掘的过程 3、Apriori算法 4、关联规则案例 5、支持度与置信度计算 6、关联规则 案例:Python实现购物蓝关联规则分析 |
时序模式 1、时间序列分析 2、时间序列 3、序列分析的三个阶段 案例:Python实现时序模式分析 |