阅读大纲

Filed	Paper	Date
Dataset	Img-Diff	24-08-16
Agent	The AI Scientist	24-09-03
LLM	DeepSeek R1	25-02-27

Dataset

Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models

ArXiv Code
简介：MLLMs的两个关键研究点：模型结构和数据质量。本文提出Img-Diff数据集，利用新数据集对MLLMs微调后效果更好。
关键技术：
1. Prompt-to-Prompt的方式使用图像对和Stable-Diffusion-XL生成object replacement相似图像对，采用多个过滤模块提高数据质量
2. Difference Area Generator提取包含不同目标的bounding box
3. Difference Captions Generator生成不同区域的文字描述

Agent

The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery

Sakana AI ArXiv Code
简介：使用LLM提出第一个全自动科学发现：The AI Scientist，可以端到端生成研究ideas、写代码、开展实验、可视化结果、写论文、模拟评估。在三个研究方向diffusion modeling、transformer-based language modeling和learning dynamics上展开，生成的论文可以达到顶会WR水平。
关键技术：
1. Idea生成：使用LLM和多轮COT+self-reflection提升idea生成和实验计划，使用Semantic Scholar API过滤相似ideas。
2. 实验迭代：使用代码助手Aider开展实验收集结果
3. 写Paper：提示会议模版、论文结构框架，不包括引用。然后用Semantic Scholar API找相关工作并提示给Aider生成参考文献，最后修正生成最终latex
4. 论文review：利用NeurIPS review guidelines设计一个基于GPT-4o的agent

LLM

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek Arxiv
参考：https://zhuanlan.zhihu.com/p/21408528162

论文推出两款推理模型：DeepSeek-R1-Zero 和 DeepSeek-R1

DeepSeek-R1-Zero：采用大规模RL训练，而没使用SFT作为前期步骤。使用DeepSeek-V3-Base的基础模型，并用GPRO框架来提升推理表现。通过RL DeepSeek-R1-Zero 自然地展现出了强大的推理能力，能够完成许多复杂的推理任务。但它也存在一些问题，如可读性差、语言混合。
DeepSeek-R1：DeepSeek-R1采用了多阶段训练和冷启动数据来进一步提高推理能力。首先使用冷启动数据对基础模型进行微调，然后进行推理导向的强化学习（与DeepSeek-R1-Zero类似）。接着创建新的数据集来进行监督微调，并将其用于训练模型，最后再进行一次强化学习训练。最终DeepSeek-R1 的推理表现与 OpenAI-o1-1217 相当。
开源贡献：开源DeepSeek-R1-Zero、DeepSeek-R1 及基于 Qwen 和 Llama从 DeepSeek-R1 蒸馏出来的六个较小模型（参数规模分别为 1.5B、7B、8B、14B、32B 和 70B）。通过直接蒸馏，使用较小的基础模型（如Qwen2.5-32B）获得的效果比直接应用强化学习更好。

Introduction

Post-training能提升模型在推理任务上的准确性，同时与社会价值对齐，适应用户的需求，相对于预训练所需的计算资源要少得多。OpenAI的模型通过增加“思维链”的长度，在推理任务中取得了显著的进展。这种方法帮助模型在数学、编程和科学推理等领域取得了显著成效。但如何在测试时扩展推理能力仍然是一个开放的问题。

主要贡献

后训练与强化学习应用：DeepSeek-R1 展现了自我验证、反思能力和生成长思维链的能力，这标志着在推理任务中的一个重要进步。这是首次通过纯粹的RL方法提升大语言模型的推理能力，而不需要监督微调，允许模型通过思维链来解决复杂问题。DeepSeek-R1 在 DeepSeek-R1-Zero 的基础上进行了进一步改进，引入了多阶段训练和冷启动数据，优化了模型的推理能力，并且增加了与人类偏好对齐的强化学习阶段，同时继续使用 SFT 阶段来优化模型的推理和非推理能力。这个改进的流程能够为业界带来更好的推理能力，提升模型的普适性和效果。
蒸馏技术的应用：论文还展示了如何将较大模型的推理模式蒸馏到更小的模型中，并证明蒸馏出的较小模型在推理任务中比直接通过RL训练的小模型表现更好。

Approach

DeepSeek-R1-Zero

强化学习算法
为节省训练成本采用 Group Relative Policy Optimization (GRPO) 算法，避免了使用与策略模型大小相同的评论模型（critic model），而是通过对一组输出结果进行评分来估计基线。GRPO 对每个问题通过从旧的策略模型中抽取一组输出进行优化，并通过最大化预设目标来优化策略模型。

奖励建模
论文没有使用基于神经网络的奖励模型，因为这可能导致奖励作弊（reward hacking），而且重新训练奖励模型会消耗大量计算资源。论文设计两种奖励：

Accuracy rewards：评估模型的回答是否正确。例如，对于数学题，模型必须以特定格式给出最终答案，以便通过规则验证其正确性。
Format rewards：强制模型将其思维过程置于和标签之间，有助于结构化推理过程并保持格式一致性。

训练模板
训练 DeepSeek-R1-Zero 时，作者设计了一个简单的模板，要求模型首先生成思维过程，然后给出最终答案。这个模板避免了内容特定的偏见，如强制要求反思性推理或采用特定的解题策略，目的是准确地观察模型在强化学习过程中的自然进展。

性能、自我演化过程与“顿悟时刻”
DeepSeek-R1-Zero 展示了在没有监督微调数据的情况下，通过强化学习获得强大推理能力的能力，这证明了其自我学习和推广的潜力。此外，通过使用多数投票，模型的推理结果变得更加可靠，进一步提高了其性能。
随着训练的进行，DeepSeek-R1-Zero 在回答问题时的推理时间（即生成的推理步骤长度）逐步增加。表明模型在处理推理任务时，会主动延长思考时间，以解决更复杂的问题。这种增长并不是通过人为调整参数实现的，而是模型在强化学习环境中自主发展的能力。
模型会回顾并重新评估自己的推理步骤（反思），类似于人类在解题时发现错误后进行修正的行为。模型会尝试探索多种方法来解决同一个问题，而不是只遵循固定的套路。这些行为并不是人为编码的规则，而是模型在强化学习过程中自发涌现的能力。

DeepSeek-R1: 强化学习与冷启动

通过引入冷启动数据来加速推理性能的提升。两大关键问题是：

如何通过引入少量高质量数据来加速推理性能的提高或训练收敛的速度？
如何训练一个既能清晰表达推理过程，又具备强大通用能力的用户友好模型？
论文设计了一个四个阶段的训练流程训练 DeepSeek-R1。

冷启动
研究者收集了一些长链思维数据，并用这些数据对基础模型进行微调，作为强化学习的初始步骤。
冷启动数据的收集方式：使用少量示例提示生成长链思维；直接提示模型生成详细的答案，并加入反思和验证步骤；从 DeepSeek-R1-Zero 的输出中收集数据，并通过人工后处理优化结果。

推理导向的强化学习
在对基础模型进行冷启动微调后，作者使用与 DeepSeek-R1-Zero 相同的大规模强化学习训练方法，进一步提升推理能力，尤其在数学、编程、科学和逻辑推理等任务上。引入了语言一致性奖励，即在推理过程中鼓励模型保持目标语言的一致性。

拒绝采样和监督微调
当推理导向的强化学习训练收敛后，研究者使用该checkpoint收集监督微调数据，进一步改进模型的表现。

推理数据：通过拒绝采样从 RL 训练的检查点生成推理数据，并对生成的数据进行人工筛选，确保数据的高质量。
非推理数据：包括写作、事实性问答、自我认知和翻译等任务，结合 DeepSeek-V3 的数据进行微调。

全场景强化学习
第二阶段的强化学习，旨在优化模型的有用性和无害性，同时继续完善推理能力。

蒸馏技术：赋能小模型推理能力

将 DeepSeek-R1 用来微调开源的模型如 Qwen 和 Llama，使用约 80 万个训练样本进行蒸馏。实验表明蒸馏方法显著提升了小模型的推理能力。

Experiment

实验中采用了 pass@k 评估方法。使用非零温度（temperature = 0.6）和top-p 采样（top-p = 0.95）来生成多个（通常是 4 到 64 个）响应，并计算 pass@1 的得分。

Pass@k：对于每个问题，生成多个响应，计算其中正确响应的比例（pass@1）。
共识投票：对于 AIME 2024 基准测试，使用 64 个样本进行多数投票（cons@64）计算。

Discussion

蒸馏 vs 强化学习

蒸馏较强大的模型到较小模型中能够产生优异的结果，而仅依靠大规模强化学习的小模型需要巨大的计算资源，并且可能无法达到蒸馏方法的效果。
尽管蒸馏策略既经济又有效，但如果要进一步推动智能水平的发展，可能还需要更强大的基础模型和更大规模的强化学习训练。

未成功的尝试

过程奖励模型（PRM）是一种引导模型解决推理任务的合理方法，通过奖励模型来促进模型的推理过程。尽管PRM可以帮助重新排序模型生成的前N个响应，或辅助引导搜索，但与在大规模强化学习过程中引入的额外计算开销相比，其优势是有限的。在实际应用中面临定义困难、正确性判断问题以及奖励作弊等问题，导致其在大规模强化学习中表现不佳。
蒙特卡洛树搜索（MCTS）是受 AlphaGo 和 AlphaZero 启发的方法，目的是通过系统地探索解空间来提升推理能力。实践中在文本生成任务中，由于生成空间庞大、价值模型训练困难，最终在模型性能提升上仍面临挑战。

Conclusion, Limitations, and Future Work

DeepSeek-R1局限性

通用能力不足：在某些任务上（如函数调用、多轮复杂角色扮演和 JSON 输出等）能力仍不及 DeepSeek-V3。未来计划通过使用长链思维来提升这些领域的任务表现。
语言混合问题：在处理非中英文查询时可能会出现语言混合的问题。
提示工程问题：模型对提示非常敏感。特别是在使用少量样本提示时，性能会显著下降。因此，建议用户使用零样本设置，直接描述问题并明确指定输出格式，以获得最佳效果。
软件工程任务：由于 RL 训练过程中的长时间评估影响了效率，DeepSeek-R1 在软件工程任务中的应用仍然有限。尽管如此，模型在这类基准测试中的表现未能超越 DeepSeek-V3。未来版本将通过实施软件工程数据上的拒绝采样或在 RL 过程中的异步评估来提高效率，从而解决这一问题。

自回归学习：自回归 (AR) 模型是统计和时间序列模型，用于根据数据点的先前值进行分析和预测。
自回归模型假设给定时间变量的值与其过去的值线性相关，这使得它们可用于建模和预测时间相关数据。
自回归模型假设变量在任何给定时间的值都线性依赖于其先前的值。换句话说，自回归模型旨在捕获和量化变量的过去对其现在和未来的影响。

我们提出了视觉自回归建模（VAR），这是一种新一代范式，它将图像上的自回归学习重新定义为从粗到精的“下一尺度”
“预测”或“下一分辨率预测”，与标准的光栅扫描“下一个令牌预测”不同。