Sep 3, 2025

[DeepResearch-2]：DeepSeek-R1与蒸馏模型

继续让 Gemini Deep Research 干活，修改了两次提示词，主要是为了更完整的包含如下内容：

DeepSeek-R1 与 V3 的关系，“思考能力”从何而来；
R1 和蒸馏模型的关系；
所谓推理对硬件需求的降低，其实来自于蒸馏模型；
模型比较的可查资料；

前一篇文章已经说过，模型当然能力很强，但是写出“好报告”的关键因素是“好搜索”，因为可知的原因，我无法通过直接写中文提示词产出看得下去的报告，只能先生成英文，再翻译成中文。为了更好的比较 Gemini 与 GPT 的 Deep Research，我让它们分别写了。

DeepSeek-R1 与 DeepSeek-V3：释放“思考”的力量

DeepSeek-R1 和 DeepSeek-V3 代表了开源大型语言模型 (LLM) 的重大进步。虽然这两个模型在各种任务中都表现出色，但它们主要在推理和解决问题的方法上有所不同。DeepSeek-V3 是一种专家混合 (MoE) 模型，优先考虑效率和速度，使其非常适合内容生成、翻译和实时交互等任务。另一方面，DeepSeek-R1 建立在 V3 的基础之上，并结合了强化学习 (RL) 技术来增强其逻辑推理能力。

关键区别在于这些模型如何部署其“思考”能力。DeepSeek-V3 依靠下一个词预测，利用其庞大的训练数据来生成响应。这种方法适用于创意写作或回答常见问题。但是，它可能难以解决需要复杂推理的问题。相反，DeepSeek-R1 采用思维链 (CoT) 推理，将问题分解成更小、更易于管理的步骤。R1 在制定答案之前会进行“思考”阶段，从而产生更有条理、更深思熟虑的输出。这种增强在数学问题解决、研究或逻辑任务中尤为明显。

DeepSeek-R1 与蒸馏模型：两种方法的故事

DeepSeek AI 通过发布一系列基于 Qwen 和 Llama 架构的蒸馏模型，进一步扩展了高级推理能力的可及性。原始的 DeepSeek-R1 模型拥有 6710 亿个参数，虽然性能卓越，但需要强大的计算能力。另一方面，蒸馏模型更小、更高效，参数范围从 15 亿到 700 亿不等。这使得它们更容易部署在资源受限的环境中。

原始模型和蒸馏模型之间的主要区别在于训练方法。DeepSeek-R1 经历了涉及 RL 和监督微调 (SFT) 的多阶段训练过程。而蒸馏模型是通过使用 DeepSeek-R1 生成的推理数据微调较小的基础模型（Qwen 和 Llama）来训练的。此过程有效地将较大模型的知识和推理模式转移到较小的架构。

部署成本：原始模型与蒸馏模型

部署原始 DeepSeek-R1 模型成本高昂，需要专门的基础设施。蒸馏模型提供了一种更具成本效益的替代方案。例如，在 Amazon Bedrock 上部署 DeepSeek-R1-Distill-Llama-70B 每分钟成本约为 0.1570 美元，远低于原始模型。

性能基准测试结果

以下是 DeepSeek-R1 及其蒸馏版本在关键基准测试上的表现：

AIME 2024 (数学竞赛)

模型	Pass@1
DeepSeek-R1	79.8%
DeepSeek-R1-Distill-Qwen-1.5B	28.9%
DeepSeek-R1-Distill-Qwen-7B	55.5%
DeepSeek-R1-Distill-Qwen-14B	69.7%
DeepSeek-R1-Distill-Qwen-32B	72.6%
DeepSeek-R1-Distill-Llama-8B	50.4%
DeepSeek-R1-Distill-Llama-70B	70.0%

MATH-500

模型	Pass@1
DeepSeek-R1	97.3%
DeepSeek-R1-Distill-Qwen-32B	94.3%
DeepSeek-R1-Distill-Llama-70B	94.5%

Codeforces (编程评分)

模型	评分
DeepSeek-R1	2029
DeepSeek-R1-Distill-Qwen-32B	1691
DeepSeek-R1-Distill-Llama-70B	1633

这些结果表明，蒸馏过程有效地将推理能力转移到了更小的架构中。基于 Qwen 的模型在数学任务中表现尤为强劲。

结论

DeepSeek-R1 及其蒸馏模型在推理性能上可与顶级闭源模型竞争，同时提供更大的部署灵活性。随着强化学习的进步，DeepSeek 及其蒸馏版本将继续引领开源 LLM 领域。

性能对比分析图

技术架构对比