课程简介
课程主要分为三个模块,第一天主要介绍了大模型的一系列基础内容以及对于日常生活中的应用,第二天主要介绍多模态技术背景和实践场景,最后一天主要是对于agent平台的落地。从理论到实践,全方面介绍关于大模型的技巧,使得学员通过这三天学习能够搭建一个属于自己的agent平台
目标收益
培训对象
课程大纲
模块一:大模型基础(第一天) 理论向(上午):大模型技术背景与应用介绍 |
1.热身暖场:自我介绍&引子(chatGPT的前世今生) 2. 大模型业界前沿产品与公司 a. 大模型应用行业地图(工具向 & 娱乐向) b. 基础类大模型应用(chatGPT、豆包 等) c. 办公泛工具类(AI-PPT、效率、创意) d. 垂直场景类 2B 应用(客服、营销、培训等) e. 情感陪伴类 C 端应用(星野、talkie、筑梦岛等) f. 金融大模型场景实践(咨询问答、售前客服、安全风控) 3. 大模型的能力演进与现实边界:探讨大模型的技术能力和前沿进化方向。 a. 闭源模型概览(chatGPT、Claude、Gemini、kimi 等) b. 国外开源大模型概览(llama、Grok、Mistral、Gemma 等) c. 国内开源大模型概览(通义千问、百川、智谱、deepseek 等) d. 生活中的大模型:以搜索应用为例(秘塔猫、Kimi、Perplexity 等) 4. 多模态能力与业界前沿产品介绍 a. 多模态应用行业地图(工具向 & 娱乐向) b. 基础类视觉图片应用(美图、稿定、MJ 等) c. 基础类视频应用(Runway、Pika、Pixelverse & 快手可灵、LumaAI) d. 营销类产品应用(妙思、轻舸、来画 ) e. AI+行业(教育/医疗/硬件 等) 5. 互动:自由问答 |
实践向(下午):大模型在公司的应用路径 |
1. 大模型应用开发实践范式(整体开发流程介绍) a. 技术路线选型 b. 落地实践路径 c. 团队构成与资源准备 d. 模型安全、模型备案 2. 大模型落地失败的一百种可能性(介绍当下哪些能力具备,而哪些能力不具备) 3. 提示词工程的最佳实践【实践-prompt】 a. 基于结构化 prompt b. 基于 CoT 的 prompt 优化 c. 基于 RAG 的领域能力提升 d. 基于 functionCall 的专业能力提升 e. 实例演示:自助问答系统 4. 互动:自由问答,帮助听众结合自身场景,通过修改 Prompt 构造方法,基于 RAG 技术, 产出对应领域问答 Bot |
模块二:多模态基础(第二天) 理论向(上午):多模态技术背景与应用介绍 |
1.热身暖场:自我介绍&引子(Sora/LumaAI/多模态效果展示) 2. 生成式 AI 与多模态技术背景:探讨生成模型类型、工作原理及应用场景,包括文本、图像、 视频生成等。 a. 多模态大模型技术(性能、价格、速度) b. 图片可控生产技术(填充、涂抹、增强) c. Sora 类视频化技术(运动、实体一致性、3D 化) d. ASR、有声、音乐技术(情感、旋律、音质) e. 虚拟人、具身智能与基础算力服务 3. 拆解高质量 AI 视频生产用到了哪些多模态工具 a. 创意文案部分:剧本与创意模板提示词; b. 图片部分:可控重绘、高质超分、插帧渲染 等; c. 视频部分:SVD、Dreamina、Runway 等; d. 音乐部分:Suno、韵律模型、声音克隆 等; e. 整体合成:市场成本、实际成本; 4. 互动:自由问答 |
实践向(下午):大模型+多模态在公司的应用路径 |
1. AI 应用开发实践范式(整体开发流程介绍) 2. 落地技术选型(提示词工程、开源模型微调与私有化部署) 3. 开发资源与团队构成(人员配置、开发工具、业务场景发现) 4. 当前内部应用示例(垂类模型、可控生图、规模化成本) 5. 图像实践: a. 文生图:Lora 概念与常用推荐、提示词书写规则 等; b. 图生图:关键词反推、局部重绘、画风转化 等; c. ControlNet:插件原理、字体设计、AI 模特服装 等; 6. 自我实践高质量素材(演示): a. 打造自有工作流 b. 创意:如何基于 ChatGPT 输出创意 c. 图片:如何基于 ComfyUI 输出图片 d. 视频:如何基于 Dremina 输出视频 e. 声音:如何基于 chatTTS 输出音频 f. 音乐:如何基于 Suno 输出背景音乐 7. SD-WebUI 实践展示 |
模块三:Agent 平台与实践落地(第三天) 理论(上午):Agent 原理与概要 |
1. 从 GPTs 到 AI Agent 2. AI Agent 工具概览 3. AI Agent 在外部公司落地效果 a. Agent for 金融(资讯总结、文档生成、合规审查 等) b. Agent for 营销(图像加工、视频创意、风格转换 等) c. Aegnt for 客服(多轮问询、音频控制、服务提供 等) 4. 核心功能介绍 a. 插件系统 b. 知识库与数据库 c. 工作流与图像流 5. 业务场景讨论与 QA a. 需求挖掘:自有行业痛点、其他行业智能化爆点 b. 能力准备:创意、思想实验、用户视角、智能化专家+行业专家 c. 计划书交付:背景+联接+创意+探索+突破→结果展望 |
实践(下午):Agent 平台实践指导 |
1.实践 Dify/Coze 类 Agent 平台(以 Coze 为例): a. 简介:Workflow 工作流与调试 介绍; b. 初试:快速创建与标准创建; c. 验证:打造带 Function Call 能力的 Agent(创建 Bot 与使用插件); d. 多模态:Coze 图像流 操作手册; e. 场景实践(金融领域知识问答、图文工作流 等); 2. 互动: a. 自由问答 b. 分组练习:结合自己工作提报的业务特点进行智能体建模。 |
模块一:大模型基础(第一天) 理论向(上午):大模型技术背景与应用介绍 1.热身暖场:自我介绍&引子(chatGPT的前世今生) 2. 大模型业界前沿产品与公司 a. 大模型应用行业地图(工具向 & 娱乐向) b. 基础类大模型应用(chatGPT、豆包 等) c. 办公泛工具类(AI-PPT、效率、创意) d. 垂直场景类 2B 应用(客服、营销、培训等) e. 情感陪伴类 C 端应用(星野、talkie、筑梦岛等) f. 金融大模型场景实践(咨询问答、售前客服、安全风控) 3. 大模型的能力演进与现实边界:探讨大模型的技术能力和前沿进化方向。 a. 闭源模型概览(chatGPT、Claude、Gemini、kimi 等) b. 国外开源大模型概览(llama、Grok、Mistral、Gemma 等) c. 国内开源大模型概览(通义千问、百川、智谱、deepseek 等) d. 生活中的大模型:以搜索应用为例(秘塔猫、Kimi、Perplexity 等) 4. 多模态能力与业界前沿产品介绍 a. 多模态应用行业地图(工具向 & 娱乐向) b. 基础类视觉图片应用(美图、稿定、MJ 等) c. 基础类视频应用(Runway、Pika、Pixelverse & 快手可灵、LumaAI) d. 营销类产品应用(妙思、轻舸、来画 ) e. AI+行业(教育/医疗/硬件 等) 5. 互动:自由问答 |
实践向(下午):大模型在公司的应用路径 1. 大模型应用开发实践范式(整体开发流程介绍) a. 技术路线选型 b. 落地实践路径 c. 团队构成与资源准备 d. 模型安全、模型备案 2. 大模型落地失败的一百种可能性(介绍当下哪些能力具备,而哪些能力不具备) 3. 提示词工程的最佳实践【实践-prompt】 a. 基于结构化 prompt b. 基于 CoT 的 prompt 优化 c. 基于 RAG 的领域能力提升 d. 基于 functionCall 的专业能力提升 e. 实例演示:自助问答系统 4. 互动:自由问答,帮助听众结合自身场景,通过修改 Prompt 构造方法,基于 RAG 技术, 产出对应领域问答 Bot |
模块二:多模态基础(第二天) 理论向(上午):多模态技术背景与应用介绍 1.热身暖场:自我介绍&引子(Sora/LumaAI/多模态效果展示) 2. 生成式 AI 与多模态技术背景:探讨生成模型类型、工作原理及应用场景,包括文本、图像、 视频生成等。 a. 多模态大模型技术(性能、价格、速度) b. 图片可控生产技术(填充、涂抹、增强) c. Sora 类视频化技术(运动、实体一致性、3D 化) d. ASR、有声、音乐技术(情感、旋律、音质) e. 虚拟人、具身智能与基础算力服务 3. 拆解高质量 AI 视频生产用到了哪些多模态工具 a. 创意文案部分:剧本与创意模板提示词; b. 图片部分:可控重绘、高质超分、插帧渲染 等; c. 视频部分:SVD、Dreamina、Runway 等; d. 音乐部分:Suno、韵律模型、声音克隆 等; e. 整体合成:市场成本、实际成本; 4. 互动:自由问答 |
实践向(下午):大模型+多模态在公司的应用路径 1. AI 应用开发实践范式(整体开发流程介绍) 2. 落地技术选型(提示词工程、开源模型微调与私有化部署) 3. 开发资源与团队构成(人员配置、开发工具、业务场景发现) 4. 当前内部应用示例(垂类模型、可控生图、规模化成本) 5. 图像实践: a. 文生图:Lora 概念与常用推荐、提示词书写规则 等; b. 图生图:关键词反推、局部重绘、画风转化 等; c. ControlNet:插件原理、字体设计、AI 模特服装 等; 6. 自我实践高质量素材(演示): a. 打造自有工作流 b. 创意:如何基于 ChatGPT 输出创意 c. 图片:如何基于 ComfyUI 输出图片 d. 视频:如何基于 Dremina 输出视频 e. 声音:如何基于 chatTTS 输出音频 f. 音乐:如何基于 Suno 输出背景音乐 7. SD-WebUI 实践展示 |
模块三:Agent 平台与实践落地(第三天) 理论(上午):Agent 原理与概要 1. 从 GPTs 到 AI Agent 2. AI Agent 工具概览 3. AI Agent 在外部公司落地效果 a. Agent for 金融(资讯总结、文档生成、合规审查 等) b. Agent for 营销(图像加工、视频创意、风格转换 等) c. Aegnt for 客服(多轮问询、音频控制、服务提供 等) 4. 核心功能介绍 a. 插件系统 b. 知识库与数据库 c. 工作流与图像流 5. 业务场景讨论与 QA a. 需求挖掘:自有行业痛点、其他行业智能化爆点 b. 能力准备:创意、思想实验、用户视角、智能化专家+行业专家 c. 计划书交付:背景+联接+创意+探索+突破→结果展望 |
实践(下午):Agent 平台实践指导 1.实践 Dify/Coze 类 Agent 平台(以 Coze 为例): a. 简介:Workflow 工作流与调试 介绍; b. 初试:快速创建与标准创建; c. 验证:打造带 Function Call 能力的 Agent(创建 Bot 与使用插件); d. 多模态:Coze 图像流 操作手册; e. 场景实践(金融领域知识问答、图文工作流 等); 2. 互动: a. 自由问答 b. 分组练习:结合自己工作提报的业务特点进行智能体建模。 |