近日开云体育,国外大模子居品平台 OpenPipe 上发布了一项照管,酬报其怎么通过 GRPO 在重度推理游戏《时空谜题》中卓越 R1、o1、o3-mini 等模子。照管作家别离为来自 Ender Research 的强化学习照管员 Brad Hilton 和 OpenPipe 的首创东说念主 Kyle Corbitt。
他们的照管暗意,他们不仅将模子与 Sonnet 3.7 的差距缩小至个位百分比,同期终了最先 100 倍的推理老本优化。
酬报中还分享了任务设想与超参数变嫌的训戒,并公开了基于 torchtune 框架构建的好意思满磨砺有贪图。
一、配景先容
自 OpenAI 前年发布窒碍性的 o 系列推理模子以来,袭取强化学习(RL)磨砺的大型言语模子(LLMs)迎来爆发式增长。谷歌 DeepMind、阿里巴巴、DeepSeek、Anthropic 接踵推出援助长 " 想维链 "(CoT)推理的先进模子,在可考证问题上施行强化学习磨砺,让传统的基准测试渐渐靠拢性能天花板。
尽管取得显赫进展,逻辑演绎才气仍是顶尖模子的阿喀琉斯之踵。刻下 LLMs 精深存在三大颓势:
难以褂讪跟踪通盘筹办细节
无法保执逻辑严实的推演历程
多步相接可靠性不及
即便顶尖模子生成 10-100 倍长度的输出,仍然会频现东说念主类可放松识别的初级虚伪。
带着趣味,咱们开启了一系列的探索:微型开源模子能否借助前沿强化学习时候,窒碍演绎推理的边陲?
咱们最先从性能较弱的模子开赴,在一项全新的推理任务上对其进行迭代磨砺。跟着期间的推移,咱们分解不雅察到它们的推理才气有所擢升,最终达到致使卓越了一些先进的独有模子 。
二、基准测试框架
为了开展咱们的实验,咱们最先必须笃定一个具有明确可考证谜底且具有挑战性的推理任务。适值其中一位作家之前创建了一个十足安妥条目的谜题集——"时空谜题"(Temporal Clue)。除了心仪事实真相了了这一圭臬外,还不错按照需要创建新谜题。
"时空谜题"灵感源自热点桌游 Clue(Cluedo),在该游戏中,玩家们竞相揭开究竟是谁在 Boddy 先生的豪宅中谋杀了他。"时空谜题"将这款游戏飘浮为一个单东说念主逻辑谜题,它不仅涵盖圭臬身分 —— 凶犯是谁、用什么凶器、在哪作案,还增添了两个维度:作案期间和作案动机。谜题是速即生成的,游戏使用了 OR - Tools 的 CP - SAT 求解器进脚迹迹挑选。
在某个凉爽的冬夜,奥密富豪 John Q. Boddy 先生为他的密友举办了一场微型的糜掷晚宴。关联词,这场晚宴以悲催结束,Boddy 先生于朝晨时期被发现死在齐铎庄园的一个房间里。以下是被认定为嫌疑东说念主的筹办利益东说念主员……
为了明确这项推理任务的最好水平,咱们对一些火爆的推理模子进行了基准测试 ,包括 DeepSeek R1、OpenAI 的 o1 和 o3 - mini 以及 Anthropic 的 Claude Sonnet 3.7。此外,咱们还对 14B 和 32B 的 Qwen 模子进行了基准测试,这是咱们最终收尾的预览:
在这些基准测试中,咱们发现 Claude Sonnet 3.7 在设定 6.4 万个 token 的情况下说明最好,DeepSeek R1 的说明确切与 OpenAI 的 o1 和 o3 - mini 不相凹凸。关联词,未经调优的 Qwen 2.5 Instruct 模子在比较之下就稍显失态了。
一个枢纽问题是:咱们能否将这些较微型的绽放权重模子磨砺到前沿水平的说明?谜底是深信的,独一用对表率。
三、磨砺
为了磨砺出一个具有前沿水平的推理模子,咱们袭取了强化学习表率。咱们最先让大言语模子针对每个谜题生成多个回复,以此探索问题的各种可能性,从而携带它们学习。对得出正确谜底的推理历程赐与正向强化,而对误导模子的推理历程则进行刑事牵扯。
在繁多强化学习的表率中,咱们选用了 DeepSeek 模子的 GRPO 算法。与 PPO 等传统表率比较,GRPO 不仅说明出色,还简化了磨砺历程。
从宏不雅层面来看,咱们的磨砺盲从以下几个基本设施:
针对谜题任务生成模子回复
对回复进行评分,并为每组聊天回复估算上风值
讹诈这些上风值估算收尾携带的编订计策梯度对模子进行微调
用新的谜题和模子的最新版块疏浚上述设施,直至达到最好性能
在生成回复关节,咱们使用了热点的 vLLM 推理引擎,并对参数选用进行了调优。咱们发现,向 vLLM 发送过多恳求会导致正在处理的恳求被霸占。为不停这一问题,咱们使用了一个信号量来死心恳求数目,该信号量经过调优,好像在尽量减少换出的同期保执较高的键值缓存讹诈率。
采样完成后,咱们使用 HuggingFace Transformers AutoTokenizer 对回复进行处理。它的聊天模板功能可将音讯对象渲染为教导字符串,其中包含一个助手掩码,用于笃定哪些象征是由大言语模子生成的。咱们发现这些模子在其默许模板中繁难必要的 "生成" 标签,于是在 token 设施中对模板进行了修改。最终得到的助手掩码被纳入用于调优的张量字典中,用以象征哪些位置需要进行赔本算较。
在得回助手掩码后,咱们对数据进行打包以便调优。除了在每个打包序列中包含多个教导和回复以外,咱们还识别出分享的教导象征,并为每个象征分派一个父 ID,同期附上圭臬的组 ID。关于像 "时空谜题" 这类平均每个谜题最先 1000 个象征的任务,咱们针对每个任务生成多个回复并高效打包张量,显赫减少了冗余。一朝将通盘必要信息打包完毕,咱们就能以二维面孔直不雅呈现磨砺数据集,每一转齐是一个可能包含多个教导和回复的象征序列 。
有了数据后,咱们驱动调优。模子仍是完成了预磨砺和指示微调,具备一定的智能水平。天然它们还无法褂讪地不停谜题,然而偶尔也能到手。通过提高正确推理的概率,咱们迟缓携带模子朝着 "神探" 的水平迈进。关于计较损结怨变嫌权重,咱们袭取了计策梯度的表率。
在磨砺历程中,咱们使用了由 PyTorch 团队提供的 Torchtune 库,其中包括 Llama、Gemma、Phi 等热点模子。咱们在这个表情中除了使用 Qwen 模子,也用 80 亿参数和 700 亿参数的 Llama 模子进行了实验。Torchtune 还提供了一些从简内存和擢升性能的器具,包括:
激活查验点(Activation Checkpointing)
激活卸载(Activation Offloading)
量化(Quantization)
参数高效微调(PEFT),举例 LoRA
此外,Torchtune 援助多建立和多节点磨砺,还不错讨好全分片数据并行(FSDP)和张量并行(TP)磨砺。他们提供了十多个磨砺配方,荧惑用户复制并凭据我方的用例进行定制。他们好意思满微调配方的修改版援助以下功能:
多建立和单建立磨砺
参考模子加载和权重交换以计较 KL 散度
使用组和父 ID 进行高等因果掩码计较
GRPO 赔本集成和组件日记记载
强化学习磨砺历程波及超参数的选用。在磨砺模子期间,咱们对各种建树进行了测试,最终笃定了以下参数:
模子:Qwen 2.5 Instruct 140 亿参数版和 320 亿参数版
每次迭代的任务数:32
每个任务每次迭代的样本数:50
每次迭代的总样本数:32 × 50 = 1600
学习率:6 × 10 ⁻⁶
微批次大小:关于 140 亿参数模子为 4 个序列,关于 320 亿参数模子为 8 个序列
批次大小:可变,取决于序列数目
批次大小之是以可变,是因为磨砺历程中回复长度不同。每次迭代的序列打包成果会有波动,上风为零的回复会被丢弃。在一次实验中,咱们尝试将学习率与批次大小成反比动态变嫌,但这会导致小批次的学习率过高。经过上限处理后的版块与使用恒定学习率比较莫得分解各异,但变嫌批次大小和学习率仍是改日值得探索的目的。
咱们还进行了恣意的实验,在每次迭代的任务数和每个任务的样本数之间进行反向变嫌(即一个增多另一个减少),同期保执每次迭代的总样本数约莫颠倒。在较短的磨砺周期内,这些变化莫得产生分解各异,这标明磨砺配方对任务数目与单任务样本量之间的不同配比具有强鲁棒性。
四、收尾
经过 100+ 次迭代磨砺,咱们的模子到手达到前沿级推理水平。
咱们的模子好像在准确率着落之前赶紧改进。最好气象下,140 亿参数、1.6 万个 token 的模子已接近于 ClaudeSonnet 3.7 的性能。320 亿参数、6.4 万个 token 的模子更是确切达到了 Sonnet 的收尾。
在磨砺期间,性能擢升盲从幂律法例,在图表上造成线性相关(在恶化之前)。
下一步,咱们将探索各种化恢复的表率,迟缓构建才气的表率,或者好像引发出绝对探索的表率。
此外,咱们珍贵到在磨砺期间输出长度呈现出兴味的法例。最初回复变长,随后趋于褂讪,在磨砺接近尾声时出现分化,其中 140 亿参数模子的回复变得更长,而 320 亿参数模子的回复长度则镌汰(尤其是在达到最好性能之后)。
为了从定性角度评估逻辑推理才气的擢升,咱们让最先进的模子 Claude Sonnet 3.7 对 Qwen 32B 模子所作念出的膨胀进行识别,并评估其合感性。Sonnet 从基础模子中识别出 6 个膨胀,除了一个被判定为正确外,其余均被判定为虚伪。相悖,从经过磨砺的模子中识别出 7 个膨胀,除了一个虚伪以外,其余均被判定为逻辑合理。
临了,在假定按需部署具有富足蒙眬量的情况下,咱们凭据 Fireworks AI 的无做事器订价层级估算了 Qwen 模子的老本。咱们绘图了一张准确性和推理老本的相关图,并发当今未经调优的模子中存在一条了了的线性帕累托前沿线,极地面改善了老本与准确性之间的量度相关。
五、结语
在咱们的看望照管中,咱们探索了较微型的开源言语模子能否通过强化学习终了前沿水平的演绎推理才气。对期间踪迹谜题进行磨砺时,咱们使用了超参数和 GRPO 表率来磨砺 Qwen 14B 和 32B 模子,显赫低擢升了性能。这些改进使开源模子在推感性能方面达到了最前沿的水平,并大幅度低申斥了老本。咱们的照管收尾突显了强化学习在高效磨砺开源模子处理复杂演绎任务方面的庞大后劲。
此外,临了还有一个惊喜。咱们发现,仅需 16 个磨砺样本就能终了高达 10 - 15% 的性能擢升,这意味着咱们无需巨额数据就能进行推理。
原文讨好:https://openpipe.ai/blog/using-grpo-to-beat-o1-o3-mini-and-r1-on-temporal-clue
雷峰网开云体育
Powered by 开云平台皇马赞助商(中国)官方入口 @2013-2022 RSS地图 HTML地图