AIPO: 提升迭代偏好优化的训练目标

AIPO: 提升迭代偏好优化的训练目标我们定义了 IPO 训练策略 并对不同配置进行了消融实验

大家好,欢迎来到IT知识分享网。

引言 🌟

在智能科技快速发展的今天,偏好优化(Preference Optimization,PO)逐渐成为对大语言模型(Large Language Models,LLMs)进行调整的热门选择,尤其是在与传统的近端策略优化(Proximal Policy Optimization,PPO)相较之下。近年来,研究者们在使用合成数据或部分合成数据进行迭代对齐LLMs方面取得了令人鼓舞的成果,这些成果不仅体现在学术界的探索,也体现在像Llama3这样专有训练模型的应用上。然而,尽管偏好优化已展现出其潜力,我们的研究发现,由于迭代过程的特性,偏好优化中存在的长度利用问题在迭代偏好优化(Iterative Preference Optimization,IPO)中变得更为严重。因此,我们的目标是通过改进训练目标,提出一种新的训练策略,即“关注一致性的迭代偏好优化”(Agreement-aware Iterative Preference Optimization,AIPO)。

研究背景 🔍

增强学习与人类反馈 🌐

在过去的几年中,基于人类反馈的增强学习(Reinforcement Learning with Human Feedback,RLHF)逐渐成为对LLMs进行对齐的重要手段。尽管相较于监督微调(Supervised Fine Tuning,SFT),RLHF在许多任务上表现出色,但在训练数据收集过程中所需的庞大人力标注工作使得其面临了可扩展性挑战。随着开源和专有LLMs的不断进步,已经有研究表明,这些模型在多任务中达到了人类级别的表现,这暗示着它们有潜力自主生成偏好数据。

合成数据的潜力 🔧

近年来的研究显示,使用部分生成数据以迭代方式对LLMs进行对齐是有效的。然而,长度利用问题在常规的直接偏好优化(Direct Preference Optimization,DPO)中已经存在,并且在IPO中更为显著。实际上,冗长的响应不仅对用户来说效率低下,还在生成过程中消耗了更多的硬件资源。因此,我们认为,仅依赖基准分数来反映对齐性能是不够的,长度利用问题亟需更多的研究关注。

研究贡献 🎉

我们的研究团队在探索合成数据的有效性、迭代训练策略以及优化PO训练目标方面做出了重要的贡献。我们的主要贡献可以总结如下:

  1. 合成数据的有效性研究:我们探讨了使用合成生成数据进行偏好优化的有效性。具体而言,我们关注指令创建、响应生成、偏好排名和后处理等环节,得出的结论是,使用合成数据训练的模型表现更佳。
  2. 迭代训练策略的定义:我们定义了IPO训练策略,并对不同配置进行了消融实验。在这一过程中,我们观察到,在使用合成数据的迭代训练中,长度利用问题更加严重。
  3. 优化的PO训练目标:深入研究长度利用问题后,我们发现其潜在原因之一与DPO损失有关。为了解决这一问题,我们引入了一种新的优化训练目标,即AIPO,更适合于IPO训练场景。

迭代偏好优化的训练流程 🛠️

通过综合以上的贡献,我们提出了一种有效的IPO训练方案,包括为IPO训练量身定制的AIPO训练目标。通过利用这一新训练方案,我们在MT-Bench、AlpacaEval 2.0和Arena-Hard等基准测试中达到了最先进的性能。

相关工作 🔗

直接偏好优化

直接偏好优化(DPO)是基于RLHF流程中的增强学习阶段而发展起来的一种方法。DPO的目标可以表示为:

max ⁡ π θ E x ∼ D , y ∼ π θ ( y ∣ x ) [ r ϕ ( x , y ) ] − β D K L [ π θ ( y ∣ x ) ∥ π r e f ( y ∣ x ) ] , \max_{\pi_\theta} \mathbb{E}_{x \sim D,y \sim \pi_\theta(y|x)}[r_\phi(x, y)] – \beta D_{KL}[\pi_\theta(y|x) \| \pi_{ref}(y|x)], πθmaxExD,yπθ(yx)[rϕ(x,y)]βDKL[πθ(yx)πref(yx)],

其中, π θ \pi_\theta πθ是策略模型, π r e f \pi_{ref} πref是参考策略, r ϕ r_\phi rϕ是奖励模型, β \beta β是控制偏差的超参数。DPO通过重新参数化奖励,简化了训练过程,使其更适合大规模的RLHF训练阶段。

迭代对齐方法

在迭代领域,诸如自我奖励(Self-Rewarding)和Meta-Rewarding等方法相继被提出。这些方法利用LLM自身的评判机制来缓解冻结的评判模型所带来的性能瓶颈。尽管这些方法在IPO中表现出一定的有效性,但它们并未详细解释非迭代训练和迭代训练之间的差异。

偏好优化目标

除了DPO,已经提出了多种PO目标。这些方法包括不依赖于参考模型的PO研究,以及在选择和拒绝响应之间添加边际的技术。针对长度控制的方法,如RPO和SimPO,也在不断探索中。

实验设置 🧪

基础模型

在我们的实验中,我们使用Mistral-7B-Instruct-v0.2作为基础模型进行合成数据策划和迭代训练的研究。随后,我们使用Mistral-Nemo-Instruct-2407,这是一种更先进的LLM,来开发我们的训练目标。

训练数据

我们采用UltraFeedback作为所有实验的数据源。该数据集包含约64K个来自不同来源的提示,响应由多个LLM生成,并由GPT-4根据指令遵循性、真实性、诚实性和有用性等四个不同方面进行标注。

超参数设置

为了确保训练过程的有效性,我们设置了最大提示长度为512个标记,最大响应长度为2048个标记。所有实验均采用AdamW优化器,学习率设定为 5 × 1 0 − 7 5 \times 10^{-7} 5×107

评估

我们在三个基准上评估我们的模型:MT-Bench、AlpacaEval 2.0和Arena-Hard。这些基准利用GPT-4-Turbo作为自动标注器来评估响应的质量。

结论 🎓

通过本研究,我们提出了一种新的AIPO训练目标,旨在解决迭代偏好优化中的长度利用问题。我们的实验结果表明,该方法在多个基准测试中均表现出色,为偏好优化领域的发展提供了新的思路和方向。

参考文献 📚

  1. Christiano, P. F., et al. (2017). “Deep reinforcement learning from human preferences.”
  2. Stiennon, N., et al. (2020). “Learning to summarize with human feedback.”
  3. Ouyang, L., et al. (2022). “Training language models to follow instructions with human feedback.”
  4. Park, H., et al. (2024). “Direct Preference Optimization.”
  5. Yuan, K., et al. (2024). “Self-Rewarding for iterative alignment of language models.”

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/130955.html

(0)
上一篇 2025-08-11 17:20
下一篇 2025-08-11 17:26

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信