DeepSeek-V3 DeepSeek 开源的混合专家模型

DeepSeek-V3 是一款基于 Mixture of Experts(MoE)和多头潜在注意力(MLA)架构的开源大语言模型,拥有 6710 亿参数规模,但每个 token 仅激活 370 亿参数,显著降低训练与推理成本,且在数学推理和代码生成等复杂任务中表现优异 。项目采用 MIT 许可证,基于 Python 实现,社区活跃,21 位贡献者持续迭代更新。

DeepSeek-V3 DeepSeek 开源的混合专家模型

官网:https://www.deepseek.com/
源码:https://github.com/deepseek-ai/DeepSeek-V3

模型总结


架构:创新负载平衡策略和培训目标

  • 在 DeepSeek-V2 的高效架构之上,我们率先提出了一种无辅助损失的负载平衡策略,最大限度地减少了因鼓励负载平衡而导致的性能下降。
  • 我们研究了多标记预测 (MTP) 目标,并证明其有助于提升模型性能。它还可以用于推测解码,从而加速推理。

预训练:迈向极致训练效率

  • 我们设计了FP8混合精度训练框架,并首次在超大规模模型上验证了FP8训练的可行性和有效性。
  • 通过算法、框架和硬件的协同设计,我们克服了跨节点 MoE 训练中的通信瓶颈,几乎实现了计算和通信的完全重叠。
    这显著提升了训练效率,并降低了训练成本,使我们能够在不增加额外开销的情况下进一步扩展模型规模。
  • 我们以仅 2.664M H800 GPU 小时的经济成本,在 14.8T 代币上完成了 DeepSeek-V3 的预训练,并构建了目前最强的开源基础模型。预训练后的后续训练阶段仅需 0.1M GPU 小时。

训练后:DeepSeek-R1 的知识提炼

  • 我们引入了一种创新方法,将长思维链 (CoT) 模型(特别是 DeepSeek R1 系列模型之一)中的推理能力提炼到标准 LLM(尤其是 DeepSeek-V3)中。我们的流程巧妙地将 R1 的验证和反射模式融入 DeepSeek-V3,显著提升了其推理性能。同时,我们还控制了 DeepSeek-V3 的输出样式和长度。

模型下载

模型#总参数#已激活的参数上下文长度下载
DeepSeek-V3-基础版671B37B128千🤗 Hugging Face
DeepSeek-V3671B37B128千🤗  Hugging Face

 

Hugging Face 上的 DeepSeek-V3 模型总大小为 685B,其中包括 671B 的主模型权重和 14B 的多令牌预测(MTP)模块权重。

为了确保最佳性能和灵活性,我们与开源社区和硬件供应商合作,提供多种本地运行模型的方法。有关分步指导,请参阅第 6 节:如何在本地运行

对于希望深入了解的开发者,我们建议您浏览README_WEIGHTS.md 文件,了解有关主模型权重和多标记预测 (MTP) 模块的详细信息。请注意,MTP 支持目前正在社区内积极开发中,我们欢迎您的贡献和反馈。

评估结果

基础模型

标准基准

基准(公制)# 镜头DeepSeek-V2Qwen2.5 72BLLaMA3.1 405BDeepSeek-V3
建筑学教育部稠密稠密教育部
# 激活参数21B72B405B37B
# 总参数236B72B405B671B
英语桩基测试(BPB)0.6060.6380.5420.548
BBH(东印度公司)三杆78.879.882.987.5
MMLU(会计)5发78.485.084.487.1
MMLU-Redux(Acc.)5发75.683.281.386.2
MMLU-Pro(Acc.)5发51.458.352.864.4
放下 (F1)三杆80.480.686.089.0
ARC-Easy(配件)25发97.698.498.498.9
ARC 挑战赛 (Acc.)25发92.294.595.395.3
HellaSwag(配件)10发87.184.889.288.9
PIQA(认证)0次射击83.982.685.984.7
WinoGrande (Acc.)5发86.382.385.284.9
RACE-中段 (Acc.)5发73.168.174.267.1
RACE-High(Acc.)5发52.650.356.851.3
TriviaQA(EM)5发80.071.982.782.9
自然问题(EM)5发38.633.241.540.0
AGIEval(累积)0次射击57.575.860.679.6
代码人体评估(Pass@1)0次射击43.353.054.965.2
MBPP(通过@1)三杆65.072.668.475.4
LiveCodeBench-Base(Pass@1)三杆11.612.915.519.4
CRUXEval-I(累积)2次射击52.559.158.567.3
CRUXEval-O(累积)2次射击49.859.959.969.8
数学GSM8K(EM)8发81.688.383.589.3
数学(EM)4发43.454.449.061.6
MGSM(新兴市场)8发63.676.269.979.8
数学与数学(EM)三杆78.784.577.390.7
中国人CLUEWSC(EM)5发82.082.583.082.7
C-Eval(Acc.)5发81.489.272.590.1
CMMLU(会计学)5发84.089.573.788.8
CMRC(EM)1次射击77.475.876.076.3
C3(ACC)0次射击77.476.779.778.6
CCPM(会计)0次射击93.088.578.692.0
多种语言MMMLU-非英语(Acc.)5发64.074.873.879.4

 

最佳结果以粗体显示。分数差距不超过 0.3 的分数被认为处于同一水平。DeepSeek-V3 在大多数基准测试中均取得了最佳性能,尤其是在数学和代码任务上。更多评估详情,请参阅我们的论文。

上下文窗口

DeepSeek-V3 DeepSeek 开源的混合专家模型

(NIAH) 测试的评估结果Needle In A Haystack。DeepSeek-V3 在高达128K 的所有上下文窗口长度上均表现良好。

聊天模型

标准基准(大于 67B 的模型)

基准(公制)DeepSeek V2-0506DeepSeek V2.5-0905Qwen2.5 72B-Inst.Llama3.1 405B-Inst.克劳德-3.5-十四行诗-1022GPT-4o 0513DeepSeek V3
建筑学教育部教育部稠密稠密教育部
# 激活参数21B21B72B405B37B
# 总参数236B236B72B405B671B
英语莫里斯-麦迪逊大学(EM)78.280.685.388.688.387.288.5
MMLU-Redux(EM)77.980.385.686.288.988.089.1
MMLU-Pro(EM)58.566.271.673.378.072.675.9
DROP(3发F1)83.087.876.788.788.383.791.6
IF-Eval(提示严格)57.780.684.186.086.584.386.1
GPQA-钻石级 (Pass@1)35.341.349.051.165.049.959.1
SimpleQA(正确)9.010.29.117.128.438.224.9
框架(配件)66.965.469.870.072.580.573.3
LongBench v2(累积)31.635.439.436.141.048.148.7
代码HumanEval-Mul(Pass@1)69.377.477.377.281.780.582.6
LiveCodeBench(Pass@1-COT)18.829.231.128.436.333.440.5
LiveCodeBench(通过@1)20.328.428.730.132.834.237.6
Codeforces(百分位数)17.535.624.825.320.323.651.6
SWE 已验证(已解决)22.623.824.550.838.842.0
Aider-Edit(Acc.)60.371.665.463.984.272.979.7
Aider-Polyglot (Acc.)18.27.65.845.316.049.6
数学AIME 2024(通过@1)4.616.723.323.316.09.339.2
数学-500(EM)56.374.780.073.878.374.690.2
CNMO 2024(通过@1)2.810.815.96.813.110.843.2
中国人CLUEWSC(EM)89.990.491.484.785.487.990.9
C-评估(EM)78.679.586.161.576.776.086.5
C-SimpleQA(正确)48.554.148.450.451.359.364.8

 

所有模型均在输出长度限制为 8K 的配置下进行评估。包含少于 1000 个样本的基准测试会使用不同的温度设置进行多次测试,以得出稳健的最终结果。DeepSeek-V3 是性能最佳的开源模型,并且与前沿闭源模型相比也表现出了竞争力。

开放式生成评估

模型竞技场困难AlpacaEval 2.0
DeepSeek-V2.5-090576.250.5
Qwen2.5-72B-指令81.249.1
LLaMA-3.1 405B69.340.5
GPT-4o-051380.451.1
克劳德-十四行诗-3.5-102285.252.0
DeepSeek-V385.570.0

 

英语开放式对话评估。对于 AlpacaEval 2.0,我们使用长度控制的胜率作为衡量标准。

Libre Depot(自由仓库)原创文章、发布者:Libre Depot = 转载请注明出处:https://www.libredepot.top/zh/5593.html

(0)
Libre DepotLibre Depot
上一篇 7小时前
下一篇 7小时前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注