进化启发式奖励引导的解码时对齐

Jun, 2024

进化启发式奖励引导的解码时对齐

Reward Steering with Evolutionary Heuristics for Decoding-time Alignment

Chia-Yu Hung, Navonil Majumder, Ambuj Mehrish, Soujanya Poria

TL;DR利用进化方法，通过解码来自突变指令的探索并用周期性替换低回报一代与高回报一代来实现在 LLMs 中用户偏好的对齐。

Abstract

The widespread applicability and increasing omnipresence of llms have instigated a need to align LLM responses to user and stakeholder preferences. Many preference optimization approaches have been proposed that

llms preference optimization alignment exploration exploitation

发现论文，激发创造

DeAL: 大型语言模型解码时间对齐

提出了一种名为 DeAL 的框架，通过自定义奖励函数和解码时对齐来改善大型语言模型的对齐目标，弥补模型训练中的残缺缺陷，并探讨了与关键字约束和长度约束等程序约束以及有益和无害等抽象目标进行实验的有效性。

Feb, 2024

自我探索的语言模型：在线对齐的主动偏好引导

通过自我探索语言模型 (SELM) 优化固定在人类意图上的大型语言模型 (LLM)，比起直接优化偏离分布的模型，SELM 目标减少了无差别的偏好和提高了探索效率。

May, 2024

语言模型的解码时间对齐

对减少语言模型中的错误和偏见，与人类偏好进行对齐至关重要。我们提出解码时重新对齐（DeRa）的简单方法，用于探索和评估不同的规则化强度，从而在不重新训练的情况下实现对齐模型的规则化强度的控制，并提高超参数调优的效率。

Feb, 2024

理解与人类反馈一致性的学习动态

通过理论分析学习动态，我们提供了对人类偏好对齐的理论观察，揭示了优化算法可能优先考虑具有更高偏好区分度的行为，并通过实证验证对现代语言模型和对齐任务加深了对未来方法的认识。

Mar, 2024

参数高效调整助于语言模型对齐

对大型语言模型进行人类偏好的对齐是确保其安全和有用的关键。先前的研究主要采用强化学习和直接偏好优化等方法进行对齐，但存在某些局限性。为了克服这些限制，本文提出了一种参数高效调优的对齐方法（MEET），通过改进控制标记的质量，在两个知名数据集上相比之前的方法明显提高了可控生成的质量。

Oct, 2023

通过多目标奖励建模和专家混合解释性偏好

通过建立一个具有可解释性的绝对评分多目标奖励模型 (ArmoRM) 和一个自动选择最合适奖励目标的门控网络，我们在大型语言模型对齐领域取得了与 GPT-4 评委相比的最先进表现，并接近更大的 Nemotron-4 340B 奖励模型的性能。

Jun, 2024

对齐器：解耦 LLMs 和对齐

通过使用合成数据训练可调整的模型，我们提出了一种解耦大型语言模型和对齐过程的方法，以确保其在大多数应用中的安全性和实用性，并减少对齐对性能的潜在负面影响。我们通过训练一个 “道德” 对齐器模型并从实证角度验证其有效性来阐明我们的方法。

Mar, 2024

参数高效偏好对齐技术的深入探讨

对大型语言模型（LLM）的先前训练和参数微调的对齐方法进行了深入研究，研究了对齐数据集、对齐技术和模型对下游性能的影响，提出了帮助研究人员进行更有效参数节约 LLM 对齐的关键指南。

Jun, 2024

通过分布偏好奖励建模对齐群体反馈

分布偏好奖励模型（DPRM）是一个简单而有效的框架，通过将最大语言模型（LLM）与多样化的人类偏好对齐，以提高对人群偏好的代表性。

Feb, 2024

多目标解码时间语言模型对齐

多目标解码算法（MOD）通过线性组合基础模型的预测结果，在不同目标权重下输出下一个标记，实现语言模型（LMs）对多样用户需求的适应性优化，实验证明其在奖励改进和有害性减少方面具有显著效果。

Jun, 2024