400-888-5228

DeepSeek是一款由国内人工智能公司研发的大型语言模型,拥有强大的自然语言处理能力,能够理解并回答问题,还能辅助写代码、整理资料和解决复杂的数学问题。与OpenAI开发的ChatGPT相比,DeepSeek不仅率先实现了媲美OpenAI-o1模型的效果,还大幅降低了推理模型的成本。其新模型DeepSeek-R1以十分之一的成本达到了GPT-o1级别的表现,惊艳全球!

在面对DeepSeek的学习与应用时,很多人或许会感受到一种焦虑感,担心“不懂 DeepSeek,就落后了”、“再不努力,你马上就要被 DeepSeek 替代了”等。其实,这种焦虑是对未知世界的正常反应,但它也激励我们去不断学习、适应并拥抱变革。通过持续的学习和实践,我们才能够更好地理解DeepSeek的潜力,提升自己的能力,并将其应用到实际工作中,推动创新和效率的提升。

课程概述

在深度学习与大语言模型的时代,DeepSeek-R1 蒸馏与 V3 模型的技术应用已经成为提升AI性能的重要突破。本课程旨在带领学员深入了解DeepSeek R1模型蒸馏 Qwen2 1.5B的全流程,从环境部署、数据集准备、蒸馏过程到调用测试,帮助学员掌握大模型优化与应用的实战技巧。同时,课程还将介绍DeepSeek V3模型的核心原理与架构,讲解其在分布式并行化、注意力机制、混合专家模型(MOE)等方面的创新与应用,确保学员能够全面理解并掌握该领域的先进技术。通过实战演练与技术报告解析,学员将在短短三天内全面提升在AI模型开发和优化的能力。

课程对象

  • AI研究员与开发者:希望深入了解大语言模型和AI蒸馏技术的从业者。
  • 数据科学家:需要优化和改进AI模型性能,提升技术能力的专业人员。
  • AI产品经理:希望在产品中应用优化过的大语言模型,并理解相关技术原理的管理人员。
  • 技术团队:从事深度学习、机器学习和自然语言处理的团队成员。

课程目标

  • 能够独立搭建DeepSeek R1模型蒸馏环境,包括虚拟环境的创建、依赖和工具的安装。
  • 熟悉数据集的准备与清洗方法,能够根据需求筛选和处理数据集。
  • 掌握使用Llama-Factory进行全量指令微调,提升模型性能。
  • 理解并执行模型蒸馏过程,分析蒸馏前后的模型性能。
  • 熟悉DeepSeek V3模型的核心原理,包括架构设计、分布式计算与注意力机制。
  • 掌握DeepSeek V3 MOE混合专家模型的工作原理与应用。

课程收益

  • 实战技能:学员将通过动手实践,掌握DeepSeek R1模型的蒸馏流程,并能独立搭建训练环境与调优模型。
  • 技术精进:掌握DeepSeek V3的核心原理,包括MOE模型、KV缓存机制等,提升AI模型优化与应用的能力。
  • 项目经验:通过案例分析与技术报告讲解,学员将了解最新的AI技术,并能将其应用到企业项目中。
  • 能力提升:课程内容涵盖从模型优化到部署的全流程,帮助学员成为AI领域的实践专家。

课程亮点:

实战派学习:从DeepSee-R1入门介绍,到模型蒸馏项目实战的讲解,再到核心原理介绍,由浅入深便于理解世界顶级大模型背后的奥秘。

完整的训练脚本和数据集:课程会分享讲解过程中所使用的训练脚本、代码、数据集,并提供参考的部署环境,可通过课后练习复现加深印象。

技术报告创新点剖析:不用通篇阅读官方技术报告的,通过课程讲解即可了解到DeepSeek-R1/V3核心创新点。

本地部署与私有化方案:介绍本地部署所需要的软硬件资源调配。

课程时长3天

课程大纲

第一天 DeepSeek-R1蒸馏Qwen1.5B实战第二天 DeepSeek-V3模型核心原理与架构介绍第三天 DeepSeek v3 MLA 机制与混合专家模型介绍
(一)模型蒸馏环境部署
1. 操作系统与配置说明
2. 创建虚拟环境
3. 创建 Jupyter Kernel
4. 安装 wand
5. 创建主目录与下载原始模型
6. 安装 Llama - Factory
(二)模型蒸馏数据集准备
1. 主流推理数据集介绍
2. 数据清洗过程
3. 数据集下载与准备
(三)模型蒸馏过程
1. 上传微调脚本
2. 执行微调
(四)调用测试
1. 测试问题设置
2. 普通模型调用测试
3. 蒸馏模型调用测试
(一)DeepSeekv3 架构图解与基本参数配置
(1)整体架构
(2)不同规模模型参数
(3)关键参数配置
(二)分布式并行化嵌入与映射
(1)ParallelEmbedding 层
(2)线性层相关实现
(3)行并行与列并行
(三)RMS Norm 层
(1)Layer Normalization 介绍
(2)LN 与 BN、RMSNorm 的差别
(3)RMSNorm 实现
(四)旋转位置编码 ROPE
(1)原理与优势
(2)具体流程
(3)相关代码实现
(五)DeepSeek v3 的 KV 缓存机制
(1)工作原理
(2)类定义与初始化
(3)forward 方法
(一)DeepSeek v3 的 MOE 混合专家模型
(1)与常见前馈网络对比
(2)SwiGLU 激活函数
(3)MoE 原理与优势
(4)MoE 训练流程
(5)专家选择机制
(6)瓶颈问题与辅助损失
(7)MoE 推理过程
(8)相关类定义
(二)DeepSeek v3 的 KV 缓存机制
(1)自回归算法与 KV 缓存
(2)注意力机制计算分析
(3)KV 缓存工作流程
(4)MLA 潜在注意力机制
(5)相关类定义与初始化

为什么选择艾威

艾威培训成立于2003年,是业内领先的培训机构,拥有丰富的企业培训经验。我们深度关注企业数字化转型与技术创新,为企业和个人提供最前沿的AI技术培训课程。我们为学员提供全面的教学支持,并结合实际应用场景,通过精心设计的课程帮助学员快速掌握DeepSeek和其他AI工具的实际应用。选择艾威培训,您将获得:

  • 多年的培训经验: 20年+的企业培训经验,专家团队提供定制化培训。
  • 实战驱动的教学: 课程结合实际企业应用场景,学员可以立刻应用学到的知识,提升工作效率。
  • 高效学习支持: 课程提供在线答疑、社群互动等支持,让学习不止于课堂。
培训咨询

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

同类课程推荐同类课程推荐
IT技术培训课程分类