AIPO: 提升迭代偏好优化的训练目标

大家好，欢迎来到IT知识分享网。

引言 🌟

在智能科技快速发展的今天，偏好优化（Preference Optimization，PO）逐渐成为对大语言模型（Large Language Models，LLMs）进行调整的热门选择，尤其是在与传统的近端策略优化（Proximal Policy Optimization，PPO）相较之下。近年来，研究者们在使用合成数据或部分合成数据进行迭代对齐LLMs方面取得了令人鼓舞的成果，这些成果不仅体现在学术界的探索，也体现在像Llama3这样专有训练模型的应用上。然而，尽管偏好优化已展现出其潜力，我们的研究发现，由于迭代过程的特性，偏好优化中存在的长度利用问题在迭代偏好优化（Iterative Preference Optimization，IPO）中变得更为严重。因此，我们的目标是通过改进训练目标，提出一种新的训练策略，即“关注一致性的迭代偏好优化”（Agreement-aware Iterative Preference Optimization，AIPO）。

研究背景 🔍

增强学习与人类反馈 🌐

在过去的几年中，基于人类反馈的增强学习（Reinforcement Learning with Human Feedback，RLHF）逐渐成为对LLMs进行对齐的重要手段。尽管相较于监督微调（Supervised Fine Tuning，SFT），RLHF在许多任务上表现出色，但在训练数据收集过程中所需的庞大人力标注工作使得其面临了可扩展性挑战。随着开源和专有LLMs的不断进步，已经有研究表明，这些模型在多任务中达到了人类级别的表现，这暗示着它们有潜力自主生成偏好数据。

合成数据的潜力 🔧

近年来的研究显示，使用部分生成数据以迭代方式对LLMs进行对齐是有效的。然而，长度利用问题在常规的直接偏好优化（Direct Preference Optimization，DPO）中已经存在，并且在IPO中更为显著。实际上，冗长的响应不仅对用户来说效率低下，还在生成过程中消耗了更多的硬件资源。因此，我们认为，仅依赖基准分数来反映对齐性能是不够的，长度利用问题亟需更多的研究关注。

研究贡献 🎉

我们的研究团队在探索合成数据的有效性、迭代训练策略以及优化PO训练目标方面做出了重要的贡献。我们的主要贡献可以总结如下：

合成数据的有效性研究：我们探讨了使用合成生成数据进行偏好优化的有效性。具体而言，我们关注指令创建、响应生成、偏好排名和后处理等环节，得出的结论是，使用合成数据训练的模型表现更佳。
迭代训练策略的定义：我们定义了IPO训练策略，并对不同配置进行了消融实验。在这一过程中，我们观察到，在使用合成数据的迭代训练中，长度利用问题更加严重。
优化的PO训练目标：深入研究长度利用问题后，我们发现其潜在原因之一与DPO损失有关。为了解决这一问题，我们引入了一种新的优化训练目标，即AIPO，更适合于IPO训练场景。

迭代偏好优化的训练流程 🛠️

通过综合以上的贡献，我们提出了一种有效的IPO训练方案，包括为IPO训练量身定制的AIPO训练目标。通过利用这一新训练方案，我们在MT-Bench、AlpacaEval 2.0和Arena-Hard等基准测试中达到了最先进的性能。

实验设置 🧪

基础模型

在我们的实验中，我们使用Mistral-7B-Instruct-v0.2作为基础模型进行合成数据策划和迭代训练的研究。随后，我们使用Mistral-Nemo-Instruct-2407，这是一种更先进的LLM，来开发我们的训练目标。

训练数据

我们采用UltraFeedback作为所有实验的数据源。该数据集包含约64K个来自不同来源的提示，响应由多个LLM生成，并由GPT-4根据指令遵循性、真实性、诚实性和有用性等四个不同方面进行标注。

超参数设置

为了确保训练过程的有效性，我们设置了最大提示长度为512个标记，最大响应长度为2048个标记。所有实验均采用AdamW优化器，学习率设定为 $\times 10^{-7}$ 。

评估

我们在三个基准上评估我们的模型：MT-Bench、AlpacaEval 2.0和Arena-Hard。这些基准利用GPT-4-Turbo作为自动标注器来评估响应的质量。

结论 🎓

通过本研究，我们提出了一种新的AIPO训练目标，旨在解决迭代偏好优化中的长度利用问题。我们的实验结果表明，该方法在多个基准测试中均表现出色，为偏好优化领域的发展提供了新的思路和方向。

参考文献 📚

Christiano, P. F., et al. (2017). “Deep reinforcement learning from human preferences.”
Stiennon, N., et al. (2020). “Learning to summarize with human feedback.”
Ouyang, L., et al. (2022). “Training language models to follow instructions with human feedback.”
Park, H., et al. (2024). “Direct Preference Optimization.”
Yuan, K., et al. (2024). “Self-Rewarding for iterative alignment of language models.”

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://haidsoft.com/130955.html

AIPO: 提升迭代偏好优化的训练目标

引言 🌟

研究背景 🔍

增强学习与人类反馈 🌐

合成数据的潜力 🔧

研究贡献 🎉

迭代偏好优化的训练流程 🛠️

相关工作 🔗

直接偏好优化

迭代对齐方法

偏好优化目标

实验设置 🧪

基础模型

训练数据

超参数设置

评估

结论 🎓

参考文献 📚

发表回复

AIPO: 提升迭代偏好优化的训练目标

引言 🌟

研究背景 🔍

增强学习与人类反馈 🌐

合成数据的潜力 🔧

研究贡献 🎉

迭代偏好优化的训练流程 🛠️

相关工作 🔗

直接偏好优化

迭代对齐方法

偏好优化目标

实验设置 🧪

基础模型

训练数据

超参数设置

评估

结论 🎓

参考文献 📚

相关推荐

发表回复