继续让 Gemini Deep Research 干活,修改了两次提示词,主要是为了更完整的包含如下内容:
- DeepSeek-R1 与 V3 的关系,“思考能力”从何而来;
- R1 和蒸馏模型的关系;
- 所谓推理对硬件需求的降低,其实来自于蒸馏模型;
- 模型比较的可查资料;
前一篇文章已经说过,模型当然能力很强,但是写出“好报告”的关键因素是“好搜索”,因为可知的原因,我无法通过直接写中文提示词产出看得下去的报告,只能先生成英文,再翻译成中文。为了更好的比较 Gemini 与 GPT 的 Deep Research,我让它们分别写了。
DeepSeek-R1 与 DeepSeek-V3:释放“思考”的力量
DeepSeek-R1 和 DeepSeek-V3 代表了开源大型语言模型 (LLM) 的重大进步。虽然这两个模型在各种任务中都表现出色,但它们主要在推理和解决问题的方法上有所不同。DeepSeek-V3 是一种专家混合 (MoE) 模型,优先考虑效率和速度,使其非常适合内容生成、翻译和实时交互等任务。另一方面,DeepSeek-R1 建立在 V3 的基础之上,并结合了强化学习 (RL) 技术来增强其逻辑推理能力。
关键区别在于这些模型如何部署其“思考”能力。DeepSeek-V3 依靠下一个词预测,利用其庞大的训练数据来生成响应。这种方法适用于创意写作或回答常见问题。但是,它可能难以解决需要复杂推理的问题。相反,DeepSeek-R1 采用思维链 (CoT) 推理,将问题分解成更小、更易于管理的步骤。R1 在制定答案之前会进行“思考”阶段,从而产生更有条理、更深思熟虑的输出。这种增强在数学问题解决、研究或逻辑任务中尤为明显。
DeepSeek-R1 与蒸馏模型:两种方法的故事
DeepSeek AI 通过发布一系列基于 Qwen 和 Llama 架构的蒸馏模型,进一步扩展了高级推理能力的可及性。原始的 DeepSeek-R1 模型拥有 6710 亿个参数,虽然性能卓越,但需要强大的计算能力。另一方面,蒸馏模型更小、更高效,参数范围从 15 亿到 700 亿不等。这使得它们更容易部署在资源受限的环境中。
原始模型和蒸馏模型之间的主要区别在于训练方法。DeepSeek-R1 经历了涉及 RL 和监督微调 (SFT) 的多阶段训练过程。而蒸馏模型是通过使用 DeepSeek-R1 生成的推理数据微调较小的基础模型(Qwen 和 Llama)来训练的。此过程有效地将较大模型的知识和推理模式转移到较小的架构。
部署成本:原始模型与蒸馏模型
部署原始 DeepSeek-R1 模型成本高昂,需要专门的基础设施。蒸馏模型提供了一种更具成本效益的替代方案。例如,在 Amazon Bedrock 上部署 DeepSeek-R1-Distill-Llama-70B 每分钟成本约为 0.1570 美元,远低于原始模型。
性能基准测试结果
以下是 DeepSeek-R1 及其蒸馏版本在关键基准测试上的表现:
AIME 2024 (数学竞赛)
| 模型 | Pass@1 |
|---|---|
| DeepSeek-R1 | 79.8% |
| DeepSeek-R1-Distill-Qwen-1.5B | 28.9% |
| DeepSeek-R1-Distill-Qwen-7B | 55.5% |
| DeepSeek-R1-Distill-Qwen-14B | 69.7% |
| DeepSeek-R1-Distill-Qwen-32B | 72.6% |
| DeepSeek-R1-Distill-Llama-8B | 50.4% |
| DeepSeek-R1-Distill-Llama-70B | 70.0% |
MATH-500
| 模型 | Pass@1 |
|---|---|
| DeepSeek-R1 | 97.3% |
| DeepSeek-R1-Distill-Qwen-32B | 94.3% |
| DeepSeek-R1-Distill-Llama-70B | 94.5% |
Codeforces (编程评分)
| 模型 | 评分 |
|---|---|
| DeepSeek-R1 | 2029 |
| DeepSeek-R1-Distill-Qwen-32B | 1691 |
| DeepSeek-R1-Distill-Llama-70B | 1633 |
这些结果表明,蒸馏过程有效地将推理能力转移到了更小的架构中。基于 Qwen 的模型在数学任务中表现尤为强劲。
结论
DeepSeek-R1 及其蒸馏模型在推理性能上可与顶级闭源模型竞争,同时提供更大的部署灵活性。随着强化学习的进步,DeepSeek 及其蒸馏版本将继续引领开源 LLM 领域。

