DeepSeek是一款由国内人工智能公司研发的大型语言模型,拥有强大的自然语言处理能力,能够理解并回答问题,还能辅助写代码、整理资料和解决复杂的数学问题。与OpenAI开发的ChatGPT相比,DeepSeek不仅率先实现了媲美OpenAI-o1模型的效果,还大幅降低了推理模型的成本。其新模型DeepSeek-R1以十分之一的成本达到了GPT-o1级别的表现,惊艳全球!
在面对DeepSeek的学习与应用时,很多人或许会感受到一种焦虑感,担心“不懂 DeepSeek,就落后了”、“再不努力,你马上就要被 DeepSeek 替代了”等。其实,这种焦虑是对未知世界的正常反应,但它也激励我们去不断学习、适应并拥抱变革。通过持续的学习和实践,我们才能够更好地理解DeepSeek的潜力,提升自己的能力,并将其应用到实际工作中,推动创新和效率的提升。
课程概述
在深度学习与大语言模型的时代,DeepSeek-R1 蒸馏与 V3 模型的技术应用已经成为提升AI性能的重要突破。本课程旨在带领学员深入了解DeepSeek R1模型蒸馏 Qwen2 1.5B的全流程,从环境部署、数据集准备、蒸馏过程到调用测试,帮助学员掌握大模型优化与应用的实战技巧。同时,课程还将介绍DeepSeek V3模型的核心原理与架构,讲解其在分布式并行化、注意力机制、混合专家模型(MOE)等方面的创新与应用,确保学员能够全面理解并掌握该领域的先进技术。通过实战演练与技术报告解析,学员将在短短三天内全面提升在AI模型开发和优化的能力。
课程对象
- AI研究员与开发者:希望深入了解大语言模型和AI蒸馏技术的从业者。
- 数据科学家:需要优化和改进AI模型性能,提升技术能力的专业人员。
- AI产品经理:希望在产品中应用优化过的大语言模型,并理解相关技术原理的管理人员。
- 技术团队:从事深度学习、机器学习和自然语言处理的团队成员。
课程目标
- 能够独立搭建DeepSeek R1模型蒸馏环境,包括虚拟环境的创建、依赖和工具的安装。
- 熟悉数据集的准备与清洗方法,能够根据需求筛选和处理数据集。
- 掌握使用Llama-Factory进行全量指令微调,提升模型性能。
- 理解并执行模型蒸馏过程,分析蒸馏前后的模型性能。
- 熟悉DeepSeek V3模型的核心原理,包括架构设计、分布式计算与注意力机制。
- 掌握DeepSeek V3 MOE混合专家模型的工作原理与应用。
课程收益
- 实战技能:学员将通过动手实践,掌握DeepSeek R1模型的蒸馏流程,并能独立搭建训练环境与调优模型。
- 技术精进:掌握DeepSeek V3的核心原理,包括MOE模型、KV缓存机制等,提升AI模型优化与应用的能力。
- 项目经验:通过案例分析与技术报告讲解,学员将了解最新的AI技术,并能将其应用到企业项目中。
- 能力提升:课程内容涵盖从模型优化到部署的全流程,帮助学员成为AI领域的实践专家。
课程亮点:
实战派学习:从DeepSee-R1入门介绍,到模型蒸馏项目实战的讲解,再到核心原理介绍,由浅入深便于理解世界顶级大模型背后的奥秘。
完整的训练脚本和数据集:课程会分享讲解过程中所使用的训练脚本、代码、数据集,并提供参考的部署环境,可通过课后练习复现加深印象。
技术报告创新点剖析:不用通篇阅读官方技术报告的,通过课程讲解即可了解到DeepSeek-R1/V3核心创新点。
本地部署与私有化方案:介绍本地部署所需要的软硬件资源调配。
课程时长3天
课程大纲
第一天 DeepSeek-R1蒸馏Qwen1.5B实战 | 第二天 DeepSeek-V3模型核心原理与架构介绍 | 第三天 DeepSeek v3 MLA 机制与混合专家模型介绍 |
(一)模型蒸馏环境部署 1. 操作系统与配置说明 2. 创建虚拟环境 3. 创建 Jupyter Kernel 4. 安装 wand 5. 创建主目录与下载原始模型 6. 安装 Llama - Factory (二)模型蒸馏数据集准备 1. 主流推理数据集介绍 2. 数据清洗过程 3. 数据集下载与准备 (三)模型蒸馏过程 1. 上传微调脚本 2. 执行微调 (四)调用测试 1. 测试问题设置 2. 普通模型调用测试 3. 蒸馏模型调用测试 | (一)DeepSeekv3 架构图解与基本参数配置 (1)整体架构 (2)不同规模模型参数 (3)关键参数配置 (二)分布式并行化嵌入与映射 (1)ParallelEmbedding 层 (2)线性层相关实现 (3)行并行与列并行 (三)RMS Norm 层 (1)Layer Normalization 介绍 (2)LN 与 BN、RMSNorm 的差别 (3)RMSNorm 实现 (四)旋转位置编码 ROPE (1)原理与优势 (2)具体流程 (3)相关代码实现 (五)DeepSeek v3 的 KV 缓存机制 (1)工作原理 (2)类定义与初始化 (3)forward 方法 | (一)DeepSeek v3 的 MOE 混合专家模型 (1)与常见前馈网络对比 (2)SwiGLU 激活函数 (3)MoE 原理与优势 (4)MoE 训练流程 (5)专家选择机制 (6)瓶颈问题与辅助损失 (7)MoE 推理过程 (8)相关类定义 (二)DeepSeek v3 的 KV 缓存机制 (1)自回归算法与 KV 缓存 (2)注意力机制计算分析 (3)KV 缓存工作流程 (4)MLA 潜在注意力机制 (5)相关类定义与初始化 |
为什么选择艾威
艾威培训成立于2003年,是业内领先的培训机构,拥有丰富的企业培训经验。我们深度关注企业数字化转型与技术创新,为企业和个人提供最前沿的AI技术培训课程。我们为学员提供全面的教学支持,并结合实际应用场景,通过精心设计的课程帮助学员快速掌握DeepSeek和其他AI工具的实际应用。选择艾威培训,您将获得:
- 多年的培训经验: 20年+的企业培训经验,专家团队提供定制化培训。
- 实战驱动的教学: 课程结合实际企业应用场景,学员可以立刻应用学到的知识,提升工作效率。
- 高效学习支持: 课程提供在线答疑、社群互动等支持,让学习不止于课堂。
培训咨询