工程师
其他
企业级
推荐课程
average > 0 ? $model->average . '分' : '10.0分' ?>

大模型底层原理与企业级应用实战课程

李善思

前阿里巴巴 数据架构师

前阿里巴巴数据架构师,对大数据、自然语言处理、图像识别、Python、Java相关技术有深入的研究,积累了丰富的实践经验。在工业领域曾参与了燃煤优化、设备故障诊断项目,正泰光伏电池片和组件EL图像检测项目;在自然语言处理方面,担任导购机器人项目的架构师,主导开发机器人的语义理解、短文本相似度匹配、上下文理解,以及通过自然语言检索产品库,在项目中构建了NoSQL+文本检索等大数据架构,也同时负责问答对的整理和商品属性的提取,带领NLP团队构建语义解析层。具备深厚的大模型理论知识和实践经验,熟悉国内外大模型的发展趋势和应用场景。曾在实际项目中应用RAG,对色差检测有深入理解和实践操作、并使用大模型提取关键信息等。
重要参与项目:
1.正泰太阳能单多晶电池片(组件)的EL瑕疵检测:使用人工智能图像识别算法智能判断瑕疵,帮助节省人工。本项目还与MES对接得到太阳能组件信息以及瑕疵缺陷的标准(每个客户的瑕疵定义不同)用以帮助算法正确判断是否是缺陷。
2.化纤丝饼表面瑕疵检测项目:使用人工智能图像识别算法结合拍摄装置输入软硬一体的解决方案,并且与现场设备进行对接获取必要信息,帮助节省人工检测成本。
3.数字化工厂项目:针对工厂的数字化、自动化、智能化做详细的调研与方案的撰写。

前阿里巴巴数据架构师,对大数据、自然语言处理、图像识别、Python、Java相关技术有深入的研究,积累了丰富的实践经验。在工业领域曾参与了燃煤优化、设备故障诊断项目,正泰光伏电池片和组件EL图像检测项目;在自然语言处理方面,担任导购机器人项目的架构师,主导开发机器人的语义理解、短文本相似度匹配、上下文理解,以及通过自然语言检索产品库,在项目中构建了NoSQL+文本检索等大数据架构,也同时负责问答对的整理和商品属性的提取,带领NLP团队构建语义解析层。具备深厚的大模型理论知识和实践经验,熟悉国内外大模型的发展趋势和应用场景。曾在实际项目中应用RAG,对色差检测有深入理解和实践操作、并使用大模型提取关键信息等。 重要参与项目: 1.正泰太阳能单多晶电池片(组件)的EL瑕疵检测:使用人工智能图像识别算法智能判断瑕疵,帮助节省人工。本项目还与MES对接得到太阳能组件信息以及瑕疵缺陷的标准(每个客户的瑕疵定义不同)用以帮助算法正确判断是否是缺陷。 2.化纤丝饼表面瑕疵检测项目:使用人工智能图像识别算法结合拍摄装置输入软硬一体的解决方案,并且与现场设备进行对接获取必要信息,帮助节省人工检测成本。 3.数字化工厂项目:针对工厂的数字化、自动化、智能化做详细的调研与方案的撰写。

课程费用

6800.00 /人

课程时长

5

成为教练

课程简介

课程介绍提示词工程、企业应用场景、底层关键技术、底层架构、预训练技术、微调技术以及业界企业级最佳实践,通过对大语言模型体系化的讲解和实战演练,帮助学员学会理解大模型底层原理、关键技术、应用场景并这掌握企业级应用实践,为企业培养数字化人才梯队。

目标收益

1、提供大语言模型知识体系,帮助学员全面了解中外前沿科技、方法工具和业内最佳实践;
2、通过全过程案例讲解,使学员全面掌握大模型的原理和基于大模型驱动的企业级应用架构设计,在边做边学中增强其解决实际问题的能力;
3、对学员的实际项目进行咨询指导,帮助单位完善数字化人才梯队培养,助力企业融入AI浪潮;
4、为学员课后答疑和持续学习提供网站资源,帮助其掌握数字时代学习新理念,提升其自学的意愿和能力。

培训对象

希望掌握大模型底层原理、底层架构、提示词工程的软件开发人员、售前工程师、在咨询顾问及业务人员

课程大纲

第一天上午:
基础通识篇
一、大模型基础知识讲解
(一)GPT模型前世今生
1、GPT模型是什么
2、GPT-1模型解读
3、GPT-2模型解读
4、GPT-3模型解读
二、大模型底层核心原理
(一)大模型核心原理剖析
1、结构解读
2、自注意力
3、编解码器
4,代码演示
案例练习:结合工业界应用场景对知识点进行代入式讲解,深入浅出帮助学员从道、法、术、器层面对大模型底层原理、核心技术、产业生态、商业应用有一个系统性的认识。
第一天下午:
基础通识篇
一、提示词应用原则与使用技巧
(一)提示词工程原则
1、主题相关性
2、确定性焦点
3、语义清晰度
(二)提示词万能公式
1、内容前提,让大模型知道你是谁
2、角色设定,让大模型知道它是谁
3、目标设定,让大模型知道要干嘛(明确清晰的目标指令)
4、补充需求,让大模型知道关注点(回答需要什么形式和范围)
(三)提示词使用技巧
1、优化表达式
2、连续性输出
3、提升问题质量
4、预设回答方案
5、给定参考答案
(四)提示词优化方式
1、加强大模型的思辨分析意识
2、界定大模型的划分范围边界
(五)提示词迭代优化
1、提示词迭代优化案例
(六)样本提示
1、零样本提示
2、小样本提示
(七)思维链提示
1、文本转化
2、零样本思维链
3、多推理路径
(八)背景知识提示
1、文本转化
2、零样本思维链
3、多推理路径
二、提示词应用场景
(一)基础应用场景
1、文本总结
2、文本分类
3、文本转化
4、文本扩展
5、情感分析
6、内容审核
(二)高阶应用场景
1、论文翻译
2、知识问答
3、语音合成
4、数字播报
5、图片搜索
三、提示词应用实践
(一)如何运用大模型能力进行架构设计
1、方案设计
(二)如何运用大模型能力实现知识问答
1、知识问答
(三)如何运用大模型能力进行数据提取
1、数据提取
案例练习:结合课程内容进行演示。
第二天上午:
基础技术篇
一,FunctionCalling技术介绍
(一)FunctionCalling深度剖析
1、FunctionCalling应用
2、使用GPT生成函数的参数
3、自然语言生成数据库查询脚本
4、FunctionCalling 稳定性保障
二、文档嵌入技术介绍
(一)文档嵌入技术深度剖析
1、Embedding能够解决什么问题
2、Embedding在大模型中的应用
3、如何计算相似度和进行语义搜索
4、文档嵌入技术在知识问答中的应用案例
5、文档嵌入技术在审计预警中的应用案例
三、向量数据库技术介绍
(一)向量数据库技术剖析
1、向量数据库简介
2、向量数据库应用场景
3、向量数据库底层原理
4、向量数据库搜索算法
5、向量数据库索引技术
四、检索增强技术介绍
(一)检索增强技术原理
1、检索增强原理
2、检索增强技术
五、企业级应用案例
(一)知识问答系统
(二)审计预警系统
案例二:
基于大模型、向量数据库、检索增强技术、搜索引擎技术,实现基于企业知识库的审计预警系统。
第二天下午:
开发框架篇
一、应用开发框架入门
(一)深入浅出LangChain之总体框架
1、LangChain框架简介
2、LangChain核心能力
3、LangChain应用场景
4、LangChain核心模块
二、应用开发框架进阶
(一)深入浅出LangChain 之Model I/0模块
1、底层原理讲解
2、核心知识讲解
3、提示模板引擎
(二)深入浅出LangChain 之Chains
1、Sequential Chain
2、Transform Chain
3、Router Chain
(三)深入浅出LangChain 之Memory
1、为何LLM需要记忆
2、LLM记忆能力的实现
3、LangChain中常用的记忆类型
(四)深入浅出LangChain 之Retrieval
1、Retrieval 实现原理
2、Retrieval 代码实现
(五)深入浅出LangChain 之Agent
1、Agent实现原理
2、Agent代码实战
(六)深入浅出LangChain 之Callbacks
1、Callbacks实现原理
2、Callbacks代码实战
三、LangChain开发框架实战
(一)案例:基于LangChain开发自己的论文翻译助手
(二)案例:基于LangChain开发自己的知识问答助手
案例研讨:
案例一:结合LangChain框架相关技术的应用开发一个属于自己的论文翻译助手
结合LangChain框架相关技术的应用开发一个属于自己的知识问答系统
第三天上午:
开发框架篇
一、Agent 技术介绍
(一)Agents 概述与应用场景
1、Agent 设计原理
2、Agent 应用场景
3、ReAct 框架解读
(二)Agent 关键技术
1、Agent 计划能力
2、Agent 行动能力
3、Agent 工具能力
二、开源Agents 源码解读
(一)开源Agent 源码解读
1、AutoGPT项目定位与解决的问题
2、AutoGPT的技术方案分析
3、AutoGPT的各模块代码解读
4、MetaGPT项目定位与解决的问题
5、MetaGPT的技术方案分析
6、MetaGPT的各模块代码解读
三、开源Agents 实践案例
(一)线路规划师案例
第三天下午:
模型部署篇
一、私有化模型部署
(一)为何要部署私有化模型
1、垂直数据分布差异
2、企业私有数据安全
(二)HuggingFace开源社区使用指南
1、HuggingFace使用说明
2、HuggingFace应用场景
二、私有化大模型部署实战
(一)常见开源大模型介绍
(二)私有化部署环境准备
三、私有化部署实战案例
(一)案例一:私有化部署ChatGLM-6B
(二)案例二:搭建自己的智能服务助手
案例研讨:
1.清华智普大模型私有化部署;
个人智能服务助手部署
第四天上午:
模型微调篇
一、大模型微调基础
(一)为何微调大模型
1、大模型先天缺陷
2、预训练成本高昂
3、垂直数据分布差异
4、提示推理成本限制
5、企业私有数据安全
(二)大模型微调三要素
1、微调数据
2、算法模型
3、算力资源
(三)大模型微调的方式
1、全量参数微调
2、部分参数微调
3、在线模型微调
4、离线模型微调
二、大模型微调进阶
(一)大模型指令微调技术
1、通用模型的缺点和指令微调的必要性
2、指令微调跟BERT时代Fine-tune之间区别
3、指令集的收集与格式化
4、指令数据集文件制作
5、训练模型以及评估模型
(二)大模型参数高效微调技术
1、什么是参数高效微调技术
2、Adapter Tuning
3、Prefix Tuning
4、P-Tuning
5、Prompt Tuning
6、LoRA, AdaLoRA
(三)大模型内存高效微调技术
1、理解什么Quantization
2、Mixed-precision decompostion
3、ZeroQuant, SmoothQuant
4、GPTQ, AWQ
5、QLoRA
第四天下午:
微调进阶篇
一、大模型微调实战
(一)DeepSpeed框架介绍
1、DeepSpeed框架介绍
2、DeepSpeed核心模块解读
3、DeepSpeed分布式架构解读
4、ZeRO技术介绍
5、DeepSpeed部分代码解读
6、DeepSpeed/Megatron-LM/Colossal-AI/Transformers
(二)基于Mistra-7B模型的推荐系统微调七步曲
1、第一步:推荐数据清洗
2、第二步:准备训练和测试数据
3、第三步:推荐Prompt的Instruction设计
4、第四步:推荐标签数据转化为指令数据
5、第五步:基于DeepSpeed在Mistra-7B进行微调
6、第六步:评估大模型在推荐数据上的效果
7、第七步:持续优化并评估
(三)基于ChatGLM3-6B构建个人分身大模型微调七步曲
1、第一步:获取Webchat个人对话数据
2、第二步:对话文件转化成可读的Text
3、第三步:对话数据清洗
4、第四步:个人分身的评估以及训练、测试集准备
5、第五步:基于多伦对话数据构造指令数据
6、第六步:基于DeepSpeed在ChatGLM3-6B上进行训练
7、第七步:评估模型效果以及持续优化
第五天上午:
微调实践篇
一、大模型高阶微调技术
(一)增量预训练+模型微调
1、什么是增量预训练(Continuous Pre-train)
2、增量预训练的挑战
3、预训练数据准备与微调数据准备
4、领域知识与通用知识
5、通用知识的遗忘
6、领域知识、通用知识的顺序、配比问题
7、前沿技术方案剖析
(二)大模型微调中的挑战
1、基础模型的选择标准
2、tokenizer修改以及解决方案
3、考虑很长的上下文,以及常见解决方案
4、考虑知识的遗忘,以及常见的解决方案
5、算力的利用效率以及提高算力利用率
6、数据质量、数据多样性的重要性
(三)大模型评估
1、领域大模型的评估标准设计
2、Benchmarking的重要性以及与解决思路
3、例子:金融大模型的评估纬度与benchmark准备
4、例子:情感大模型的评估纬度与benchmark准备
5、例子:医疗大模型的评估纬度与benchmark准备
(四)通用大模型搭建
1、通用大模型与领域大模型
2、通用大模型搭建pipeline
3、通用大模型的数据配比
4、数据清洗的pipeline
5、构建模型结构中的思考
6、训练模型过程中的tricks
第五天下午:
微调高级篇
一、大模型预训练架构
(一)Encoder-Decoder预训练架构
1、编解码器预训练架构剖析
2、案例分析
(二)Encoder-Only预训练架构
1、Encoder-Only预训练架构剖析
2、案例分析
(三)Decoder-Only预训练架构
1、Decoder-Only预训练架构剖析
2、案例分析
三、大模型预训练框架深度剖析
(一)GPT-3模型深度剖析
1、模型原理深度剖析
2、模型源码深度剖析
(二)常用开源预训练模型
1、ChatGLM系列模型解读
2、LLaMA系列模型解读
3、Mistra-7B模型
(三)训练特定领域私有模型
1、获取模型文件
2、部署私有模型
3、对外服务开放
4、模型性能比较
第一天上午:
基础通识篇
一、大模型基础知识讲解
(一)GPT模型前世今生
1、GPT模型是什么
2、GPT-1模型解读
3、GPT-2模型解读
4、GPT-3模型解读
二、大模型底层核心原理
(一)大模型核心原理剖析
1、结构解读
2、自注意力
3、编解码器
4,代码演示
案例练习:结合工业界应用场景对知识点进行代入式讲解,深入浅出帮助学员从道、法、术、器层面对大模型底层原理、核心技术、产业生态、商业应用有一个系统性的认识。
第一天下午:
基础通识篇
一、提示词应用原则与使用技巧
(一)提示词工程原则
1、主题相关性
2、确定性焦点
3、语义清晰度
(二)提示词万能公式
1、内容前提,让大模型知道你是谁
2、角色设定,让大模型知道它是谁
3、目标设定,让大模型知道要干嘛(明确清晰的目标指令)
4、补充需求,让大模型知道关注点(回答需要什么形式和范围)
(三)提示词使用技巧
1、优化表达式
2、连续性输出
3、提升问题质量
4、预设回答方案
5、给定参考答案
(四)提示词优化方式
1、加强大模型的思辨分析意识
2、界定大模型的划分范围边界
(五)提示词迭代优化
1、提示词迭代优化案例
(六)样本提示
1、零样本提示
2、小样本提示
(七)思维链提示
1、文本转化
2、零样本思维链
3、多推理路径
(八)背景知识提示
1、文本转化
2、零样本思维链
3、多推理路径
二、提示词应用场景
(一)基础应用场景
1、文本总结
2、文本分类
3、文本转化
4、文本扩展
5、情感分析
6、内容审核
(二)高阶应用场景
1、论文翻译
2、知识问答
3、语音合成
4、数字播报
5、图片搜索
三、提示词应用实践
(一)如何运用大模型能力进行架构设计
1、方案设计
(二)如何运用大模型能力实现知识问答
1、知识问答
(三)如何运用大模型能力进行数据提取
1、数据提取
案例练习:结合课程内容进行演示。
第二天上午:
基础技术篇
一,FunctionCalling技术介绍
(一)FunctionCalling深度剖析
1、FunctionCalling应用
2、使用GPT生成函数的参数
3、自然语言生成数据库查询脚本
4、FunctionCalling 稳定性保障
二、文档嵌入技术介绍
(一)文档嵌入技术深度剖析
1、Embedding能够解决什么问题
2、Embedding在大模型中的应用
3、如何计算相似度和进行语义搜索
4、文档嵌入技术在知识问答中的应用案例
5、文档嵌入技术在审计预警中的应用案例
三、向量数据库技术介绍
(一)向量数据库技术剖析
1、向量数据库简介
2、向量数据库应用场景
3、向量数据库底层原理
4、向量数据库搜索算法
5、向量数据库索引技术
四、检索增强技术介绍
(一)检索增强技术原理
1、检索增强原理
2、检索增强技术
五、企业级应用案例
(一)知识问答系统
(二)审计预警系统
案例二:
基于大模型、向量数据库、检索增强技术、搜索引擎技术,实现基于企业知识库的审计预警系统。
第二天下午:
开发框架篇
一、应用开发框架入门
(一)深入浅出LangChain之总体框架
1、LangChain框架简介
2、LangChain核心能力
3、LangChain应用场景
4、LangChain核心模块
二、应用开发框架进阶
(一)深入浅出LangChain 之Model I/0模块
1、底层原理讲解
2、核心知识讲解
3、提示模板引擎
(二)深入浅出LangChain 之Chains
1、Sequential Chain
2、Transform Chain
3、Router Chain
(三)深入浅出LangChain 之Memory
1、为何LLM需要记忆
2、LLM记忆能力的实现
3、LangChain中常用的记忆类型
(四)深入浅出LangChain 之Retrieval
1、Retrieval 实现原理
2、Retrieval 代码实现
(五)深入浅出LangChain 之Agent
1、Agent实现原理
2、Agent代码实战
(六)深入浅出LangChain 之Callbacks
1、Callbacks实现原理
2、Callbacks代码实战
三、LangChain开发框架实战
(一)案例:基于LangChain开发自己的论文翻译助手
(二)案例:基于LangChain开发自己的知识问答助手
案例研讨:
案例一:结合LangChain框架相关技术的应用开发一个属于自己的论文翻译助手
结合LangChain框架相关技术的应用开发一个属于自己的知识问答系统
第三天上午:
开发框架篇
一、Agent 技术介绍
(一)Agents 概述与应用场景
1、Agent 设计原理
2、Agent 应用场景
3、ReAct 框架解读
(二)Agent 关键技术
1、Agent 计划能力
2、Agent 行动能力
3、Agent 工具能力
二、开源Agents 源码解读
(一)开源Agent 源码解读
1、AutoGPT项目定位与解决的问题
2、AutoGPT的技术方案分析
3、AutoGPT的各模块代码解读
4、MetaGPT项目定位与解决的问题
5、MetaGPT的技术方案分析
6、MetaGPT的各模块代码解读
三、开源Agents 实践案例
(一)线路规划师案例
第三天下午:
模型部署篇
一、私有化模型部署
(一)为何要部署私有化模型
1、垂直数据分布差异
2、企业私有数据安全
(二)HuggingFace开源社区使用指南
1、HuggingFace使用说明
2、HuggingFace应用场景
二、私有化大模型部署实战
(一)常见开源大模型介绍
(二)私有化部署环境准备
三、私有化部署实战案例
(一)案例一:私有化部署ChatGLM-6B
(二)案例二:搭建自己的智能服务助手
案例研讨:
1.清华智普大模型私有化部署;
个人智能服务助手部署
第四天上午:
模型微调篇
一、大模型微调基础
(一)为何微调大模型
1、大模型先天缺陷
2、预训练成本高昂
3、垂直数据分布差异
4、提示推理成本限制
5、企业私有数据安全
(二)大模型微调三要素
1、微调数据
2、算法模型
3、算力资源
(三)大模型微调的方式
1、全量参数微调
2、部分参数微调
3、在线模型微调
4、离线模型微调
二、大模型微调进阶
(一)大模型指令微调技术
1、通用模型的缺点和指令微调的必要性
2、指令微调跟BERT时代Fine-tune之间区别
3、指令集的收集与格式化
4、指令数据集文件制作
5、训练模型以及评估模型
(二)大模型参数高效微调技术
1、什么是参数高效微调技术
2、Adapter Tuning
3、Prefix Tuning
4、P-Tuning
5、Prompt Tuning
6、LoRA, AdaLoRA
(三)大模型内存高效微调技术
1、理解什么Quantization
2、Mixed-precision decompostion
3、ZeroQuant, SmoothQuant
4、GPTQ, AWQ
5、QLoRA
第四天下午:
微调进阶篇
一、大模型微调实战
(一)DeepSpeed框架介绍
1、DeepSpeed框架介绍
2、DeepSpeed核心模块解读
3、DeepSpeed分布式架构解读
4、ZeRO技术介绍
5、DeepSpeed部分代码解读
6、DeepSpeed/Megatron-LM/Colossal-AI/Transformers
(二)基于Mistra-7B模型的推荐系统微调七步曲
1、第一步:推荐数据清洗
2、第二步:准备训练和测试数据
3、第三步:推荐Prompt的Instruction设计
4、第四步:推荐标签数据转化为指令数据
5、第五步:基于DeepSpeed在Mistra-7B进行微调
6、第六步:评估大模型在推荐数据上的效果
7、第七步:持续优化并评估
(三)基于ChatGLM3-6B构建个人分身大模型微调七步曲
1、第一步:获取Webchat个人对话数据
2、第二步:对话文件转化成可读的Text
3、第三步:对话数据清洗
4、第四步:个人分身的评估以及训练、测试集准备
5、第五步:基于多伦对话数据构造指令数据
6、第六步:基于DeepSpeed在ChatGLM3-6B上进行训练
7、第七步:评估模型效果以及持续优化
第五天上午:
微调实践篇
一、大模型高阶微调技术
(一)增量预训练+模型微调
1、什么是增量预训练(Continuous Pre-train)
2、增量预训练的挑战
3、预训练数据准备与微调数据准备
4、领域知识与通用知识
5、通用知识的遗忘
6、领域知识、通用知识的顺序、配比问题
7、前沿技术方案剖析
(二)大模型微调中的挑战
1、基础模型的选择标准
2、tokenizer修改以及解决方案
3、考虑很长的上下文,以及常见解决方案
4、考虑知识的遗忘,以及常见的解决方案
5、算力的利用效率以及提高算力利用率
6、数据质量、数据多样性的重要性
(三)大模型评估
1、领域大模型的评估标准设计
2、Benchmarking的重要性以及与解决思路
3、例子:金融大模型的评估纬度与benchmark准备
4、例子:情感大模型的评估纬度与benchmark准备
5、例子:医疗大模型的评估纬度与benchmark准备
(四)通用大模型搭建
1、通用大模型与领域大模型
2、通用大模型搭建pipeline
3、通用大模型的数据配比
4、数据清洗的pipeline
5、构建模型结构中的思考
6、训练模型过程中的tricks
第五天下午:
微调高级篇
一、大模型预训练架构
(一)Encoder-Decoder预训练架构
1、编解码器预训练架构剖析
2、案例分析
(二)Encoder-Only预训练架构
1、Encoder-Only预训练架构剖析
2、案例分析
(三)Decoder-Only预训练架构
1、Decoder-Only预训练架构剖析
2、案例分析
三、大模型预训练框架深度剖析
(一)GPT-3模型深度剖析
1、模型原理深度剖析
2、模型源码深度剖析
(二)常用开源预训练模型
1、ChatGLM系列模型解读
2、LLaMA系列模型解读
3、Mistra-7B模型
(三)训练特定领域私有模型
1、获取模型文件
2、部署私有模型
3、对外服务开放
4、模型性能比较

课程费用

6800.00 /人

课程时长

5

预约体验票 我要分享

近期公开课推荐

近期公开课推荐

提交需求