基于语言模型的贝叶斯偏好引导

Mar, 2024

Bayesian Preference Elicitation with Language Models

Kunal Handa, Yarin Gal, Ellie Pavlick, Noah Goodman, Jacob Andreas...

TL;DR将 AI 系统与用户的兴趣相协调需要理解和融入人类复杂的价值观和偏好。我们介绍了一个名为 OPEN 的框架，它利用贝叶斯最优实验设计（BOED）指导选择信息丰富的问题，并利用语言模型（LM）提取特征和将抽象的 BOED 查询转化为自然语言问题。通过将 LM 的灵活性与 BOED 的严谨性结合起来，OPEN 能够在保持适应性于现实世界领域的同时优化查询的信息量。用户研究中显示，OPEN 在偏好获取方面优于现有的基于 LM 和 BOED 的方法。

Abstract

Aligning ai systems to users' interests requires understanding and incorporating humans' complex values and preferences. Recently, language models (LMs) have been used to gather information about the preferences

ai systems language models preference learning bayesian optimal experimental design preference elicitation

发现论文，激发创造

基于 LLM 的习得函数的贝叶斯优化在自然语言偏好了解中的应用

设计一个基于贝叶斯优化框架的自然语言查询方法，通过与用户进行对话来主动获取自然语言反馈，以减少对项目效用的不确定性，从而识别出最佳推荐。

May, 2024

大型语言模型中的深度贝叶斯主动学习偏好建模

通过提出一种新的随机获取策略，该模型可以在多种设置中以比以前的贝叶斯随机获取策略更少的偏好标签的情况下，在人类喜好数据集中获得 33% 至 68% 的偏好标签。

Jun, 2024

优化语言模型以符合人类偏好的问题的因果推断

对大型语言模型的优化进行了初步探索，为了使模型正确学习文本和结果之间的关系，提出了因果语言优化问题的形式化，开发了解决该问题的方法 —— 因果偏好优化（CPO），并扩展了双重稳健 CPO（DR-CPO），最后在困难的混淆条件下验证了 DR-CPO 对于直接结果数据上优化最先进的 LLMs 的有效性和鲁棒性。

Feb, 2024

基于语言模型和概率推理的主动偏好推断

通过使用一种熵减算法，我们提出了一种推理时算法，帮助大型语言模型快速推理用户偏好，并通过提问来优化期望熵和期望模型变化，从而使其在任务表现上胜过基线模型，在使用较少用户交互的情况下提升了性能。

Dec, 2023

学习提出有信息量的问题：利用偏好优化和期望信息增益增强 LLM

该论文介绍了一种增强大型语言模型生成问题信息性的方法，通过在 20 问游戏对话中应用直接偏好优化算法，从同一模型中抽样多个问题，创建低信息增益和高信息增益问题的配对来提高问题的效果，并在不同领域展示了该方法的有效性。

Jun, 2024

基于贝叶斯方法对齐语言模型与人类偏好

本文提出了一种新颖的方法，名为 d-PM，采用贝叶斯框架来考虑人类偏好之间的分歧分布，并利用 d-PM 模型的偏好分数使用对比学习策略来训练自然语言生成模型，实验证明该方法在自动评估和人工评估方面一直优于之前的最佳模型。

Oct, 2023

利用语言模型引导人类偏好

使用语言模型自身来引导任务规范化的学习框架，通过与用户进行自由形式的、基于语言的交互来提取和推断预期行为，在电子邮件验证、内容推荐和道德推理三个领域的实验中，我们展示了通过生成开放式问题或综合信息临界案例等方式激发语言模型表现的结果通常比用户编写的提示或标签更具信息量，用户反馈认为交互式任务引导所需的工作量较小，并能提供用户一开始未曾预见的新颖考虑。研究结果表明，基于语言模型的任务引导可以成为将模型与复杂人类偏好和价值观相一致的强大工具。

Oct, 2023

加强多模式大型语言模型的启动式优化偏好

通过利用歪曲图像输入和在原始回应中注入错误但常见元素的方式，我们提出了一种能够有效抑制预训练 LLM 偏见、提升对视觉输入的基础性的方法 ——Bootstrap Preference Optimization (BPO)，通过构建偏好数据集并进行偏好学习来解决该偏见问题。广泛的实验表明，在多个基准测试中，我们的方法显著提升了性能，推动了多模态会话系统的发展。

Mar, 2024

自我探索的语言模型：在线对齐的主动偏好引导

通过自我探索语言模型 (SELM) 优化固定在人类意图上的大型语言模型 (LLM)，比起直接优化偏离分布的模型，SELM 目标减少了无差别的偏好和提高了探索效率。

May, 2024

将语言模型与人类偏好对齐

在本研究论文中，作者通过探索多种方法来与人类偏好对齐语言模型，包括基于贝叶斯推理的方法、基于反馈的加强学习和分布匹配等，从而展现了与强化学习反馈不同且互补的对齐技术的潜力。

Apr, 2024