开yun体育网但其经过却濒临着一系列显着的流毒-开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口
无需标注数据、无需繁琐奖励瞎想开yun体育网,只用 10 步就能生效——「熵最小化」大概比强化学习更安妥大谈话模子快速升级。
强化学习(RL)比年来在大谈话模子(LLM)的微调中大获顺利,但腾贵的数据标注老本、复杂的奖励瞎想和漫长的训导周期,成为制约 RL 进一步诈欺的瓶颈。
Ubiquant 讨论团队提议了一种极为纯粹灵验的无监督要领—— One Shot 熵最小化(Entropy Minimization,EM),仅用一条无标签数据,训导 10 步内即可显贵擢升 LLM 性能,以至进步使用千千万万数据的 RL 要领。
一、从 RL 到 EM:LLM 微调的逆境与新念念路
面前,大谈话模子(LLM)在经过海量数据预训导后,展现出了惊东谈主的通用材干。然则,要让模子在特定、复杂的推理任务(举例数学、物理或编程)上达到顶尖水平,后训导(post-training)主流后训导要领是袭取强化学习(RL),非常是联结可考据奖励的强化学习(RLVR)。
尽管基于 RL 的微调在擢升模子性能上取得了显贵进展,但其经过却濒临着一系列显着的流毒,使得这种要领老本雄伟且经过繁琐。
RL,非常是 RLVR,对大限度高质地标注数据的依赖性极强。其次,RL 要领的顺利在很猛进度上取决于复杂且尽心的奖励函数瞎想。
这需要群众常识来最大化上风信号并防卫模子"奖励舞弊"。此外,好多常用的 RL 算法(如 PPO)需要很是的奖励模子,这不仅加多了算法复杂性,况兼多量的多量的训导材干和漫长的采样经过带来了无数的计较支拨。
相较之下,熵最小化(EM)提议了一种全新的念念路。EM 的中枢理念是无需任何标注数据或外部监督来训导模子。它仅依赖模子自身瞻望折柳的熵(entropy)进行优化。
具体而言,EM 训导模子将其概率质地更多地连合在其最自信的输出上。EM 背后的中枢念念想基于一个要津假定和一个纯粹直观:若是一个模子本人填塞有材干,那么当它对其瞻望法例更"自信"时,它也更有可能是正确的。
换句话说,正确谜底时时比诞妄谜底具有更低的熵值。通过优化缠绵来缩短模子生成序列的熵,EM 促使模子变得愈加"自信",从而强化其在预训导阶段一经赢得的材干
二、熵最小化(EM)到底何如作念?
具体来说,熵最小化要领的中枢公式为:
设� � 表露一个预训导自回首谈话模子 p θ 的词汇表,该模子由参数 θ 界说。给定一个输入教导 x(举例一个问题或问题形容),模子把柄其面前计谋自回首地生成一个响应序列 y= ( y1,y2, … ,yT )
其中 T 是生成序列的长度。中枢念念想是通过在每一步生成时最小化标记级别的熵,来减少模子对其自身瞻望的省略情趣。时辰步 t 的条目熵界说为:
单个输入 x 的总体 EM 耗损由以下公式给出:
纯粹而言,这个耗损函数饱读舞模子提高对自身瞻望的信心,无需依赖外部监督信号或奖励函数。由于其实足依赖于模子本人而非外部信号,和预训导缠绵实足兼容,在灵验简化优化经过的同期可能带来潜在关于模子内一致性的粗鲁。
三、为何只用一条示例就填塞?
熵最小化的顺利高度依赖示例的聘用。熵最小化(EM)依赖于模子的瞻望省略情趣不错动作挑升念念的训导信号。
然则,并非统统输入教导在这方面齐一样具有信息量。
因而讨论者袭取了一种基于模子推崇方差的示例筛选要领:通过计较模子屡次生成法例的准确性方差,挑选那些模子推崇挣扎稳的示例进行训导。
这种方差量化了模子对给定输入的瞻望不一致性。低方差意味着要么对正确性有高度信心(接近齐备的顺利),要么对失败有高度信心(实足诞妄)。
违反,推崇方差大的示例更能灵验驱动模子缩短熵值、明确决策畛域。这亦然为何只用一条高质地示例,就能快速激动模子的推感性能。
讨论东谈主员使用的独逐个条样本如下:
Problem: The pressure P exerted by wind on a sail varies jointly as the area A of the sail and the cube of the wind ’ s velocity V. When the velocity is 8 miles per hour, the pressure on a sail of 2 square feet is 4 pounds. Find the wind velocity when the pressure on 4 square feet of sail is 32 pounds.Solution: 12.8
四、推行法例:以小博大,性能比好意思以至杰出 RL
讨论东谈主员在多个数学推理任务上测试了熵最小化(EM)的法例。法例裸露,仅一条示例、10 步训导,EM 要领即大幅提高了 Qwen2.5-Math-7B 的性能:
MATH500 测试集:
准确率从 53% 擢升到 78.8%,擢升 25.8 个百分点;
Minerva Math 测试集:
准确率从 11% 擢升到 35.3%,擢升 24.3 个百分点;
AMC23 测试集:
准确率从 44.1% 擢升到 70.3%,擢升 26.2 个百分点。
更令东谈主属主见是,即使只使用一个示例和少量的训导材干(只是 10 步),EM 要领极大地缩小了 Qwen2.5-Math-7B 与 Prime-Zero-7B 和 RLVR-GRPO 等先进的基于 RL 的模子之间的差距。
非常是在 AMC23 基准测试中,经过 EM 增强的 Qwen2.5-Math-7B 达到了具有竞争力的 70.3 分,靠近当先的 RL 模子这些法例明晰地标明,熵最小化(EM),尽管比典型的强化学习要领更纯粹、数据效力更高,但在增强基础谈话模子在数学推理任务上的性能方面,具有雄伟的后劲。那么为什么熵最小化能这样有法例呢?熵在模子的训导和推理经过中起到什么样的作用呢?
五、EM vs. RL:潜入分析"置信度"与" Logits 偏移"
大谈话模子在生成每个 token 时,会先产生一组未经归一化的分数,称为 Logits。这些 Logits 随后通过 Softmax 函数转化为概率折柳,决定了下一个 token 的聘用。
因此,Logits 的折柳花式径直响应了模子对其瞻望的"置信度"和对不同 token 的偏好。这项讨论通过对模子 Logits 折柳的潜入分析发现,熵最小化(EM)和强化学习(RL)对模子里面置信度的影响地点截然有异。
EM:向右偏移,强化自身自信
讨论标明,经过 EM 训导的模子,其 Logits 折柳会显贵地向右偏移。这种右移意味着模子在生成经过中,会反复强化自身的瞻望置信度。模子将更多的概率质地连合在少数它以为"详情"的 token 上,使得原来高概率的区域进一步向高分区间膨大。
直不雅来说,这让模子对其最看好的谜底变得愈加"自信"。
在生成和采样时,这种向右的 Logits 偏移是有意的。它加多了高概率的候选 token 数目,膨大了模子能够撤职的"高概率旅途",从而潜在地增强了模子的全体生成材干。
推行中,EM 训导后的模子在评估时推崇出与采样温度的违反趋势:跟着温度升高,性能着落。这不错用策动解码(即老是聘用概率最高的 token)来讲明注解——因为 EM 训导将概率质地高度连合在少数详情趣 token 上,策动解码在这种折柳下变得至极灵验。
RL:向左偏移,受着实信号教学
与 EM 不同,经过 RL 训导的模子则推崇出 Logits 折柳向左偏移的趋势。讨论者揣测,这是受到训导经过中"着实"(ground-truth)信号的影响 2。
RL 通过外部奖励函数来诊治模子的行径,它会科罚那些模子瞻望概率很高但与大地着实不符的 token。
通过对这些高概率但不正确的 token 进行降权(reranking),RL 缩短了它们的排序,从而导致全体 Logits 折柳向左偏移。RL 训导后,即使经过 reranking,这些原来低概率的 token 往往只占据概率折柳中的中间位置,需要更高的采样温度才能被选中。
因此,RL 训导的模子推崇出与 EM 违反的趋势:性能跟着采样温度的升高而擢升。
天然 RL 的缠绵是擢升模子性能,但其导致的 Logits 左移被以为对大谈话模子的生成经过无益,因为它减少了采样时的高概率旅途数目,可能会松开模子的全体性能。
这种 Logits 偏移的各别,通过分析 Logits 折柳的偏度(Skewness)得以量化。
EM 训导显贵提高了 Logits 折柳的偏度,呈现右偏;而 RL 训导则显贵缩短了偏度,以至导致左偏。即使在 EM 后再进行 RL 训导,Logits 折柳的偏度也会从 EM 后的高值有所着落,撤职 RL 的趋势。
这样的各别和塑造了 EM 和 RL 实足不同的推理采样计谋。
在评估阶段,跟着采样温度的升高,EM 模子在四个数学推理基准测试上的平均推崇合手续着落。
这一趋势与上图中展示的经过强化学习(RL)训导的模子造成赫然对比,后者在更高的采样温度下往往推崇更佳。EM 更像是一个折柳塑造器用(distribution shaping tool),通过强化模子自身的内在一致性来擢升置信度,从而重塑了现存常识的折柳。
六、"过度自信"的罗网与立地性
讨论也揭示了这种高效性背后遮挡的"罗网"——即"过度自信"气候。
训导初期,EM 训导耗损速即着落,模子的数学推感性能也随之擢升然则,轻视在训导进行到 10 步足下时,模子的性能达到了顶峰。令东谈主随机的是,即使 EM 训导耗损继续着落,模子的数学推感性能反而启动着落。
这种"过度自信"被以为是由于合手续的 EM 训导过度放大了模子在推理经过中对其自身生成 token 的置信度。合手续的 EM 训导可能会过度强化模子已有的先验偏差,导致输出法例过度连合于局促、过度自信的 token 折柳,从而加重算法偏差并导致输出显贵偏离正确旅途,最终毁伤了模子的实质推感性能。
熵最小化的挣扎稳性和过度自信的毁伤也体目下训导时的温度上。经过 EM 训导的模子在四个数学推理基准上的平均性能跟着生成温度的升高总体呈现高潮趋势。
平均性能的最大值最初加多,随后在温度约为 0.5 时启动着落。较高的温度带来更好的平均推理材干,而适中的温度(如 0.5)则导致更大的性能波动,从而为更高的峰值性能创造了契机。
EM 训导同期展现出显贵的立地性,即便建树实足调换,四个数学推理基准测试的平均得分也会因种子不同而收支高达两倍。
七、EM 安妥哪些场景?
讨论标明,熵最小化(EM)尤其安妥:
尚未进行多量 RL 调优的基础模子或仅经过 SFT 的模子:
讨论在多个不同的基础模子上评估了 One-shot EM 的法例,法例标明,仅通过单个示例和少量的训导步数,EM 能够合手续且显贵地擢升这些模子在数学推理基准测试上的性能。
然则,讨论也发现,当诈欺于一经过多量 RL 等闲微调的模子(如 SimpleRL-Zoo)时,One-shot EM 反而可能导致性能着落 5。这与在 RL 之后诈欺 EM 可能锁定局促、过度自信的输出模式并毁伤性能的发现一致。
需要快速部署、莫得充足标注数据或资源有限的场景。
EM 的中枢上风在于其极高的效力和对数据的极低需求,讨论发现,One-shot EM 实质上比 Multi-shot EM 推崇出更好的性能和更强的泛化材干。
尽管 Multi-shot 使用了更多的示例,但 One-shot EM 通过单个示例罢了了更安靖和缜密的优化。灵验减少了样本偏差并缩小了输出方差。这进一步强化了 EM 在数据相等稀缺场景下的迷惑力。
无代价材干增强:
熵最小化(EM)不错动作现存后训导范式的有劲补充以至着手。将 EM 诈欺在 RL 之前能够带来灵验增益,使其成为 RL 的灵验"启用基础"。
EM 通过其私有的 Logits 右偏移效应擢升模子的自信度,增强模子的推理材干,并可能促进后续 RL 训导的更快不休和更安靖优化。
关于一经深度调优过的 RL 模子,再使用 EM 反而可能带来性能的着落。
八、行业远景与改日讨论
One-shot EM 的顺利,不仅在于其惊东谈主的数据和计较效力,还在于它为 LLM 后训导提供了一种实足无监督的、可落地的替代决策,它不需要东谈主工标注数据,不需要构建复杂的奖励模子,极大地缩短了后训导的门槛和老本。这项讨论一样为改日的探索掀开了繁密的空间:
训导安靖性与鲁棒性:
One-shot EM 天然高效,但也追随超参数明锐性和一定的训导挣扎稳性。讨论发现,合手续的 EM 训导可能会导致模子"过度自信",反而毁伤性能。改日的责任需要探索早停圭臬或自顺应诊治机制,以及减少训导的立地性,以进一步安靖和擢升 EM 的法例。
泛化材干预跨领域诈欺:
EM 在数学推理任务上推崇出色,但它能否泛化到对话、摘要、代码生成等其他领域?这需要进一步的推行考据。同期,面前 EM 在 Token 级别操作,改日的讨论不错探索在序列或语义单位上诈欺结构化熵,或引入任务特定先验常识和自顺应熵正则化,以开释更多后劲。
与现存时期的和会:
EM 动作一种折柳塑造器用,与 SFT、RLHF 等现存后训导时期宗旨上正交。讨论发现,在 RL 之前诈欺 EM 不错带来有意的对数折柳偏移。
改日的责任不错系统地讨论不同的 EM 与 RL 联结的时辰表、课程计谋过火互相作用,探索构建更顽强搀和要领的可能性。EM 以至不错动作 SFT 或 RLHF 经过中的一种正则化计谋,或动作现存模子的"信心压缩"层。
讨论东谈主员对置信度校准的潜入讨论法例还表露,EM 通过强化高概率推理旅途来增强模子的置信度。
这标明 EM 可能是一种轻量级的信心校准要领。改日的讨论需要开导更精准的评估左券来量化 EM 的校准效应,潜入相识其背后的机制。
(本文内容参考自论文《One-shot Entropy Minimization》,详确推行与数据参原宥文。)
一键三连「点赞」「转发」「贬抑心」
接待在褒贬区留住你的想法!
— 完 —
� � 点亮星标 � �
科技前沿进展逐日见开yun体育网
上一篇:开云体育总之举座测试下来的感受是-开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口
下一篇:没有了