从OpenAI的o1模型到DeepSeek的R1系列,这些模型展现了接近人类系统-2推理能力的惊人表现。然而,正如诺贝尔经济学奖得主丹尼尔·卡尼曼在其著作《思考,快与慢》中所揭示的那样,"最费力的慢思考形式是那些需要你快速思考的形式"。这一看似矛盾的观点,正是当前大语言推理模型面临的核心挑战。
当前的大语言推理模型虽然能够通过强化学习训练来实现慢思考,但在推理过程的调节上仍存在明显不足。它们要么过度思考(overthinking),要么思考不足(underthinking),难以像人类那样灵活地在系统-1和系统-2之间切换。
根据卡尼曼的双系统理论,人类的思维可以分为两个系统:系统-1负责快速、直觉性的思考,而系统-2负责缓慢、理性的思考。人类通常遵循"先快后慢"的推理模式——首先通过系统-1进行快速判断,当遇到困难时再激活系统-2进行深度思考。这种模式既保证了日常思维的效率,又能在复杂问题面前提供足够的认知资源。
然而,当前的大语言推理模型在推理过程中却面临着不同的挑战。这些模型虽然能够自动在快思考和慢思考之间切换,但缺乏对最优切换时机的精确判断。
研究表明,现有的LRMs往往无法找到最优的人类式系统-1到系统-2的推理转换策略,这导致了两个主要问题:
这些问题的根源在于现有方法缺乏对推理进度的精确控制和调节机制。
推理时扩展的局限性
目前推理时扩展主要分为两类。第一类是并行扩展策略,采用"N选最优"的方法,通过多次采样并根据自一致性或困惑度等标准选择最佳答案。这种方法虽然能够提高准确性,但计算成本较高,且无法从根本上解决推理过程中的时机控制问题。
ALPHAONE
ALPHAONE(α1)整个框架最核心的就是引入统一推理进度的调节框架。其核心理念是通过引入"α时刻",实现对推理过程的精确控制。
这里的α代表α时刻。α1通过用户定义的慢思考调度在α时刻之前应用密集推理调制。此外,α1通过α时刻之后的调制,将慢思考过渡标记"wait"替换为"</think>",从而促进快思考。
具体来说,α决定了从慢到快的推理转换何时发生。例如,将α从1.4减少到1.0会使α时刻提前,导致慢推理阶段缩短,并加速p_wait的退火过程。
这种设计基于一个重要的观察:推理进度不应该简单地等同于生成的标记数量,而应该反映问题解决的实际进展。推理进度P∈[0,1]表示从推理开始(0)到结束(1)的整个过程,其中接近1的推理进度表示推理链更加信息丰富。
整个过程如下:
1. 数学建模的合理性:每次遇到结构分隔符"\n\n"时,系统面临一个二元选择:是否激活慢思考。伯努利分布B(p_wait)完美地建模了这种二元随机过程。参数p_wait控制激活慢思考的概率,提供了精确的控制机制
研究中探索了多种调度函数:
线性退火策略(采用):
p_wait(t) = max(0, 1 - t/T_m)
指数衰减策略:
p_wait(t) = exp(-λt/T_m)
其中λ为衰减系数
实验表明,线性退火策略在效果和计算效率上达到最佳平衡。
线性退火始终产生最高的推理准确率,这表明"先慢思考,后快思考"是更好的慢思考调度策略。与线性退火类似,指数退火也遵循退火式慢思考调度,其在1.5B模型上的改进进一步证明了"先慢思考,后快思考"策略的有效性。然而,与线性退火相比,这种退火调度可能导致不稳定的性能提升。
为了全面评估α1的性能,研究者在六个不同类型的推理基准上进行了系统性评估:
AIME 2024:美国数学邀请赛题目
AMC23:美国数学竞赛题目
Minerva-Math:数学问题集合
LiveCodeBench:实时代码生成评测
OlympiadBench:奥林匹克竞赛问题
实验使用了三个不同规模的开源LRMs作为基础模型:DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B,以及QwQ-32B。
实验结果显示了α1的卓越性能,这些数据背后蕴含着丰富的技术洞察:
1. 不同模型规模的表现差异
DeepSeek-R1-Distill-Qwen-1.5B(小模型):
AIME24: 23.3% → 30.0% (+6.7%), 标记数从7280降至5916
AMC23: 57.5% → 70.0% (+12.5%),标记数从5339降至4952
平均提升:+6.15%,效率提升:18.7%
DeepSeek-R1-Distill-Qwen-7B(中等模型):
AIME24: 46.7% → 50.0% (+3.3%),标记数相对稳定
AMC23: 82.5% → 90.0% (+7.5%),标记数从4624降至4397
平均提升:+4.65%,效率提升:较小但稳定
Qwen QwQ-32B(大模型):
AIME24: 40.0% → 53.3% (+13.3%),标记数从4058大幅降至3141
LiveCode: 67.0% → 75.8% (+8.8%),标记数有所增加但性能显著提升
平均提升:+5.33%,效率表现最优
α参数是整个框架的核心控制变量,它具有多重含义和作用机制。
1. 数学定义与物理含义
α ≥ 1:表示思考阶段的扩展倍数
当α = 1时,系统保持原始的推理长度
当α > 1时,系统将思考阶段扩展至原来的α倍
α的取值直接影响模型在深度思考上投入的计算资源
2. α时刻的精确定义
设原始思考阶段平均标记长度为N_think
α时刻定义为生成标记数量达到αN_think的时刻
在此时刻之前,系统处于"可调节慢思考"阶段
在此时刻之后,系统转入"强制快思考"阶段
3. α参数的调节策略
不同的α值对应不同的推理策略:
α = 1.0:基线策略,保持原有推理节奏
α ∈ (1.0, 1.5):轻度扩展,适用于中等复杂度问题
α ∈ [1.5, 2.0):中度扩展,适用于复杂推理任务
α ≥ 2.0:重度扩展,适用于极其复杂的问题
4. α参数的自适应机制
实验结果揭示了几个重要发现,这些发现对理解LRMs的推理机制具有深远意义:"先慢后快"优于"先快后慢"的深层原理这一发现颠覆了传统认知,其背后有深刻的技术原理,认知负载理论的AI适应人类:有限的工作记忆容量,需要先快速筛选再深入思考。LRM拥有巨大的"记忆"容量,可以承载复杂的初始分析关键差异:AI系统不受人类认知限制的约束
注意力机制的差异人类注意力串行处理,需要焦点转移。Transformer注意力并行处理所有信息,早期慢思考有助于建立全局注意力模式实验证据:α1模型的注意力熵在前期显著高于后期,表明更全面的信息整合