人类反馈的最佳设计

Apr, 2024

Optimal Design for Human Feedback

Subhojyoti Mukherjee, Anusha Lalitha, Kousha Kalantari, Aniket Deshmukh, Ge Liu...

TL;DR从人类反馈中学习偏好模型一直是人工智能领域最近进展的核心。本研究通过推广最优设计的概念，研究了用于学习偏好模型的数据收集问题，并提出了面向排名列表的有效算法，证明了模型估计器随更多数据而改善，估计器下的排名误差也随之减少，并在多个合成和真实数据集上进行实验以展示算法的统计效率。

Abstract

Learning of preference models from human feedback has been central to recent advances in artificial intelligence. Motivated by this progress, and the cost of obtaining high-quality human annotations, we study the problem of data collection for learning →

preference models data collection optimal designs ranked lists estimators

发现论文，激发创造

为奖励建模实现全面偏好数据收集

通过人类反馈进行强化学习 (RLHF) 可以与人类偏好相协调，从而提高生成的响应质量。RLHF 的一个关键组成部分是奖励模型，在推理阶段通过对偏好数据进行训练并输出标量奖励。然而，对于偏好数据的收集仍缺乏详细的调查。最近的研究表明，偏好数据是通过人工智能或人类收集的，其中在两两响应中选择和拒绝实例。我们质疑这个过程是否有效地过滤噪音并确保收集到足够的多样性数据。为了解决这些问题，我们首次提出了一个全面的偏好数据收集框架，将该过程分解为四个递增步骤：提示生成、响应生成、响应筛选和人工标注。这种结构化方法确保了高质量的偏好数据收集，同时减少对人力的依赖。我们根据不同阶段收集的数据进行了全面的实验，证明了所提出的数据收集方法的有效性。

Jun, 2024

透视偏好：解开大型语言模型对齐中的反馈获取

通过稀疏反馈的设计选择以及反馈协议对大型语言模型（LLMs）的对齐和评估进行分析，发现评分和排名所推断的偏好在人类和人工智能注释者中有显著差异，并揭示了对齐 LLMs 评估的方法中的关键缺陷和对反馈协议的强烈依赖。

Aug, 2023

推荐系统与人的交互

该研究旨在了解推荐算法对未来用户数据的影响，通过提出一个简单模型，表明忽略这个反馈循环将导致非一致性评估器，因此验证了我们的结论。

Mar, 2017

充分利用之前的数据：交互式文本摘要的偏好反馈解决方案

本研究提出了一个新的交互式框架，可通过优化离线数据和一种新型奖励模型，以少量交互式反馈的方式训练摘要模型，提高 ROUGE 得分和采样效率。这个框架在摘要的活动、少量交互式学习和在线学习的场景下均具有优势。

Apr, 2022

基于已记录的人类反馈的离线策略评估

从人类反馈中学习一直是人工智能和机器学习领域的重要进展。本文专注于从记录的人类反馈中评估新模型的政策价值，并提出了模型为基础和模型无关的估计器以及优化方法。我们分析了估计器的无偏性，并进行了实证评估，证明我们的估计器可预测评估政策的绝对值、对其进行排名和优化。

Jun, 2024

人类反馈非黄金标准

人工反馈被广泛应用于评估大型语言模型的性能，但目前尚不清楚这个单一的 “偏好” 得分到底捕捉到了生成输出的哪些特性。我们假设偏好得分是主观的，并且可能存在不可取的偏差。我们批判性地分析了人工反馈在训练和评估中的使用，以验证其是否充分捕捉到一系列关键错误标准。我们发现，虽然偏好得分的覆盖面较好，但却未充分表示重要方面，如事实性。此外，我们假设偏好得分和错误标注都可能受到混杂因素的影响，并利用针对指令的模型生成具有两个可能混杂维度（肯定性和复杂性）的输出。我们发现输出的肯定性会使事实错误的感知率产生偏倚，表明人工标注不是一个完全可靠的评估度量或训练目标。最后，我们提供初步证据，表明使用人工反馈作为训练目标会不成比例地增加模型输出的肯定性。我们鼓励未来的研究仔细考虑偏好得分是否与所期望的目标一致。

Sep, 2023

使用点击模型对排名策略进行离线评估

本文提出了一种评估算法来预测历史日志数据中排名列表上的点击数，并使用用户与项目列表的交互模型来构建统计效率更高的估计器。实验结果表明，相对于先前的估计器，该算法具有更高的性能表现。

Apr, 2018

随机化最小侵入式采集点击记录中的无偏好好处

通过处理搜索结果展示方式，消除展示偏见获取更客观的用户隐式反馈，取得更佳的排序效果。

May, 2006

利用隐含背景完成 Pareto 最优偏好学习

通过使用 Pareto Optimal Preference Learning (POPL) 模型，借助于 Lexicase 筛选过程，本研究实证评估表明 POPL 在学习奖励函数方面超过基线方法，有效满足不同的群体需求，并确保包容和公平的人工智能模型对齐。

Jun, 2024

理解从人类偏好中学习的一般理论范式

通过对人类偏好进行学习的强化学习（RLHF）部署依赖于两个重要的近似：第一个假设可以用点奖励替代成对偏好；第二个假设在这些点奖励上训练的奖励模型可以从策略采样的超出分布数据中进行泛化。最近，直接偏好优化（DPO）被提出作为一种绕过第二个近似并直接从收集到的数据中学习策略的方法。然而，该方法仍然严重依赖于第一个近似。本文尝试对这些实际算法进行更深入的理论理解。特别是，我们推导出一种新的称为 ΨPO 的通用目标，用成对偏好表示，从而绕过了两个近似。这个新的通用目标使我们能够对 RLHF 和 DPO 的行为进行深入分析（作为 ΨPO 的特殊情况），并确定它们的潜在缺陷。然后，我们通过将 Ψ 简单地设置为 Identity 来考虑 ΨPO 的另一种特殊情况，在此情况下，我们可以推导出一个有效的优化过程，证明其性能保证，并在一些示例中展示其在实证上优于 DPO。

Oct, 2023