大型语言模型中主观人类偏好和价值的反馈学习的过去、现状和更好未来

EMNLPOct, 2023

大型语言模型中主观人类偏好和价值的反馈学习的过去、现状和更好未来

The Past, Present and Better Future of Feedback Learning in Large Language Models for Subjective Human Preferences and Values

PDF

Hannah Rose Kirk, Andrew M. Bean, Bertie Vidgen, Paul Röttger, Scott A. Hale

TL;DR人类反馈在大型语言模型中被广泛应用，本研究回顾了现有的人类反馈学习方法，并提出了未解决的五个概念和实践上的挑战。

Abstract

human feedback is increasingly used to steer the behaviours of Large Language Models (LLMs). However, it is unclear how to collect and incorporate feedback in a way that is efficient, effective and unbiased, especially for highly subjective human preferences and values. In this paper,

human feedback large language models learning language models feedback learning

发现论文，激发创造

大型语言模型人类偏好学习综述

本综述从以偏好为中心的角度回顾了探索大型语言模型（LLMs）的人类偏好学习的进展，包括偏好反馈的来源和格式，偏好信号的建模和使用，以及对齐 LLMs 的评估。

Jun, 2024

通过自然语言以人工反馈聚合大规模语言模型数据对齐

通过模型中人类反馈的学习，改进大型语言模型（LLMs）的输出与人类期望的一致性，利用人类反馈信号中以响应对的排名形式的强化学习，研究使用自然语言反馈模型的数据效率，通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进，提高了模型的响应质量。

Nov, 2023

弥合断层：自然语言生成中融入（人类）反馈的调查

本文对利用人类反馈来提高自然语言生成的研究进行了综述。通过介绍反馈的形式和目标，讨论了直接使用反馈或训练反馈模型两种方法在训练和解码过程中的应用。此外，我们还探讨了与反馈收集相关的现有数据集和问题，并提供了人工智能反馈领域的概述。

May, 2023

使用语言反馈进行语言模型训练

通过从自然语言反馈中学习，本文提出了一种三步学习算法来通过对其输出的反馈来优化预训练语言模型，以获得人类水平的摘要能力。

Apr, 2022

从自我参照 AI 反馈中对齐大型语言模型的一个通用原则

通过自我引用的 AI 反馈框架，允许 13B Llama2-Chat 模型以 “最适合人类” 的原则为基准，对用户指令回应进行批判，从而提供高质量的偏好反馈，并通过自洽性方法减少位置偏差的影响、使用语义困惑度来计算不同回答的偏好强度差异，实验证明该方法使 13B 和 70B Llama2-Chat 注释器能够提供高质量的偏好反馈，并且基于这些偏好数据训练的策略模型在基准数据集上通过强化学习取得了显著的优势。

Jun, 2024

人类反馈非黄金标准

人工反馈被广泛应用于评估大型语言模型的性能，但目前尚不清楚这个单一的 “偏好” 得分到底捕捉到了生成输出的哪些特性。我们假设偏好得分是主观的，并且可能存在不可取的偏差。我们批判性地分析了人工反馈在训练和评估中的使用，以验证其是否充分捕捉到一系列关键错误标准。我们发现，虽然偏好得分的覆盖面较好，但却未充分表示重要方面，如事实性。此外，我们假设偏好得分和错误标注都可能受到混杂因素的影响，并利用针对指令的模型生成具有两个可能混杂维度（肯定性和复杂性）的输出。我们发现输出的肯定性会使事实错误的感知率产生偏倚，表明人工标注不是一个完全可靠的评估度量或训练目标。最后，我们提供初步证据，表明使用人工反馈作为训练目标会不成比例地增加模型输出的肯定性。我们鼓励未来的研究仔细考虑偏好得分是否与所期望的目标一致。

Sep, 2023

理解与人类反馈一致性的学习动态

通过理论分析学习动态，我们提供了对人类偏好对齐的理论观察，揭示了优化算法可能优先考虑具有更高偏好区分度的行为，并通过实证验证对现代语言模型和对齐任务加深了对未来方法的认识。

Mar, 2024

个性化人类反馈的个性化语言建模

发展个性化语言模型的方法，结合用户模型和语言（或奖励）模型的学习目标，对个性化语言模型进行强化学习，以更好地满足用户偏好。

Feb, 2024

个性化在界限内：与个性化反馈对其进行对齐的大型语言模型的风险分类和策略框架

本文探讨了对大型语言模型进行个性化对齐以确保其符合人类偏好和价值观的挑战和风险，并提出了一个三层次政策框架，以使用户可以体验到个性化对齐的好处，同时在国家和组织范围内控制不安全或不受欢迎的行为。

Mar, 2023

超级反馈：通过高质量反馈提升语言模型

通过创建大规模、高质量、多样化的偏好数据集 ULTRAFEEDBACK，我们训练各种模型来展示其有效性，并在多个基准测试中取得最佳表现。

Oct, 2023