人类反馈的最佳设计
通过人类反馈进行强化学习 (RLHF) 可以与人类偏好相协调,从而提高生成的响应质量。RLHF 的一个关键组成部分是奖励模型,在推理阶段通过对偏好数据进行训练并输出标量奖励。然而,对于偏好数据的收集仍缺乏详细的调查。最近的研究表明,偏好数据是通过人工智能或人类收集的,其中在两两响应中选择和拒绝实例。我们质疑这个过程是否有效地过滤噪音并确保收集到足够的多样性数据。为了解决这些问题,我们首次提出了一个全面的偏好数据收集框架,将该过程分解为四个递增步骤:提示生成、响应生成、响应筛选和人工标注。这种结构化方法确保了高质量的偏好数据收集,同时减少对人力的依赖。我们根据不同阶段收集的数据进行了全面的实验,证明了所提出的数据收集方法的有效性。
Jun, 2024
通过稀疏反馈的设计选择以及反馈协议对大型语言模型(LLMs)的对齐和评估进行分析,发现评分和排名所推断的偏好在人类和人工智能注释者中有显著差异,并揭示了对齐 LLMs 评估的方法中的关键缺陷和对反馈协议的强烈依赖。
Aug, 2023
本研究提出了一个新的交互式框架,可通过优化离线数据和一种新型奖励模型,以少量交互式反馈的方式训练摘要模型,提高 ROUGE 得分和采样效率。这个框架在摘要的活动、少量交互式学习和在线学习的场景下均具有优势。
Apr, 2022
从人类反馈中学习一直是人工智能和机器学习领域的重要进展。本文专注于从记录的人类反馈中评估新模型的政策价值,并提出了模型为基础和模型无关的估计器以及优化方法。我们分析了估计器的无偏性,并进行了实证评估,证明我们的估计器可预测评估政策的绝对值、对其进行排名和优化。
Jun, 2024
人工反馈被广泛应用于评估大型语言模型的性能,但目前尚不清楚这个单一的 “偏好” 得分到底捕捉到了生成输出的哪些特性。我们假设偏好得分是主观的,并且可能存在不可取的偏差。我们批判性地分析了人工反馈在训练和评估中的使用,以验证其是否充分捕捉到一系列关键错误标准。我们发现,虽然偏好得分的覆盖面较好,但却未充分表示重要方面,如事实性。此外,我们假设偏好得分和错误标注都可能受到混杂因素的影响,并利用针对指令的模型生成具有两个可能混杂维度(肯定性和复杂性)的输出。我们发现输出的肯定性会使事实错误的感知率产生偏倚,表明人工标注不是一个完全可靠的评估度量或训练目标。最后,我们提供初步证据,表明使用人工反馈作为训练目标会不成比例地增加模型输出的肯定性。我们鼓励未来的研究仔细考虑偏好得分是否与所期望的目标一致。
Sep, 2023
本文提出了一种评估算法来预测历史日志数据中排名列表上的点击数,并使用用户与项目列表的交互模型来构建统计效率更高的估计器。实验结果表明,相对于先前的估计器,该算法具有更高的性能表现。
Apr, 2018
通过使用 Pareto Optimal Preference Learning (POPL) 模型,借助于 Lexicase 筛选过程,本研究实证评估表明 POPL 在学习奖励函数方面超过基线方法,有效满足不同的群体需求,并确保包容和公平的人工智能模型对齐。
Jun, 2024
通过对人类偏好进行学习的强化学习(RLHF)部署依赖于两个重要的近似:第一个假设可以用点奖励替代成对偏好;第二个假设在这些点奖励上训练的奖励模型可以从策略采样的超出分布数据中进行泛化。最近,直接偏好优化(DPO)被提出作为一种绕过第二个近似并直接从收集到的数据中学习策略的方法。然而,该方法仍然严重依赖于第一个近似。本文尝试对这些实际算法进行更深入的理论理解。特别是,我们推导出一种新的称为 ΨPO 的通用目标,用成对偏好表示,从而绕过了两个近似。这个新的通用目标使我们能够对 RLHF 和 DPO 的行为进行深入分析(作为 ΨPO 的特殊情况),并确定它们的潜在缺陷。然后,我们通过将 Ψ 简单地设置为 Identity 来考虑 ΨPO 的另一种特殊情况,在此情况下,我们可以推导出一个有效的优化过程,证明其性能保证,并在一些示例中展示其在实证上优于 DPO。
Oct, 2023