Beyond the 80 20 Rule High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

InExtensive Reading Author Info Background 目前,带验证奖励的强化学习(RLVR,如用于训练 DeepSeek-R1 或 OpenAI o1 的技术)显著提升了 LLM 的推理能力。然而,现有方法通常对生成的所有 Token 进行训练,缺乏对“哪些 Token 真正推动了推理能力提升”的细粒度理解。 Insights 论文首先对思维链(CoT)中的 Token 熵模式进行了定性和定量分析: CoT 中的熵分布模式: 低熵多数派(Low-Entropy Majority): 大部分 Token 的生成熵很低。这些 Token 主要负责语法结构的补全或按部就班的叙述(例如 “The answer is”, “implies that”),它们倾向于“遵循路径(Follow the path)”。 高熵少数派(High-Entropy Minority): 只有少部分 Token 具有高熵。这些 Token 通常出现在逻辑推理的关键转折点、假设提出或步骤选择上(例如 “However”, “Suppose”, “Thus”),被称为**“分叉 Token”(Forking Tokens)**。它们负责“决定路径(Fork the path)”。 RLVR 训练在很大程度上保留了基座模型(Base Model)的熵模式。 训练过程主要调整的是那些原本就是高熵的 Token 的概率分布,而低熵 Token 的变化非常微小。 基于上述观察,作者提出了一种改进的 RLVR 算法策略,即只针对高熵 Token 计算梯度。 Challenges Approaches Evaluation 作者在 Qwen3-8B、14B 和 32B 模型上进行了广泛的实验,主要结论如下: ...

January 7, 2026 · Last updated on February 2, 2026 · 1 min · KKKZOZ