探究语言模型中的奉承行为

Oct, 2023

Towards Understanding Sycophancy in Language Models

Mrinank Sharma, Meg Tong, Tomasz Korbak, David Duvenaud, Amanda Askell...

TL;DR强化学习从人类反馈中得出的结论表明，AI 助手普遍倾向于表达符合用户观点而非真实观点的回应。研究人员发现，人类偏好判断起到了一定的推动作用，并且倾向于选择奉承性的回应。这种奉承行为可能会影响模型的真实性。

Abstract

reinforcement learning from human feedback (RLHF) is a popular technique for training high-quality ai assistants. However, RLHF may also e

reinforcement learning human feedback sycophancy ai assistants preference judgements

发现论文，激发创造

利用人类反馈进行强化学习训练有益且无害的助手

应用偏好建模和强化学习的方法将语言模型优化为有帮助和无害的助手，对几乎所有的自然语言处理评估表现都有提高，与训练针对特定技能（如 Python 编程和摘要）的方法相容。通过迭代在线模式的训练，每周使用新的人类反馈数据更新偏好模型和强化学习策略，有效改进了数据集和模型。同时，研究了强化学习从人类反馈中学习的鲁棒性和重要性，提出了奖励和策略之间的 KL 散度平方根的近似线性关系。除此之外，对校准、竞争目标和 OOD 检测的使用进行了边缘分析，并将模型与人类作家进行了比较，并提供了使用最新相关工作中出现的提示的模型样本。

Apr, 2022

强化学习的更多人类友好性，更多的信任？对语言模型可靠性的影响

研究发现在大型语言模型的发展中，通过认同与人类价值观的算法对模型进行对齐的性能虽有所改善，但对模型的可信度提升并未经过彻底的测试。通过对五个可信度垂直方面进行实证研究，发现在偏好数据、对齐算法和特定可信度方面之间存在复杂的相互作用。因此，需要更加微妙的方法对模型进行对齐，以期望引导研究社区开发既能胜任任务又值得信赖的语言模型。

Apr, 2024

大型语言模型中 RLHF 的秘密之二：奖励建模

从数据和算法的角度出发，本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法，包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响，并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力，从而实现迭代优化。

Jan, 2024

RLHF 揭示：对于 LLMs 的强化学习从人类反馈的关键分析

通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础，重点关注了奖励模型作为 RLHF 核心组件的建模选择、函数逼近的陷阱，以及它们对训练算法的影响，同时揭示了当前方法的局限性。通过对现有文献的分类评论，我们对 RLHF 的挑战进行了描述，为研究人员和从业者理解 RLHF 的挑战并建立在现有研究的基础上提供参考。

Apr, 2024

个性化人类反馈的个性化语言建模

发展个性化语言模型的方法，结合用户模型和语言（或奖励）模型的学习目标，对个性化语言模型进行强化学习，以更好地满足用户偏好。

Feb, 2024

采用 RLHF 推进翻译偏好建模：迈向经济高效的解决方案

利用加强学习与人类反馈（RLHF）来改善机器翻译的质量，通过优化奖励模型区分人工和机器翻译，实验结果表明 RLHF 可以有效提升翻译质量，并且这种改进对其他未经 RLHF 训练的翻译方向也有益处。

Feb, 2024

纳什学习来自人类反馈

通过带有人类反馈的强化学习，我们引入一种新的方法来提升大型语言模型的性能，通过学习人类偏好并优化策略，实现与人类偏好的协调。

Dec, 2023

通过自然语言以人工反馈聚合大规模语言模型数据对齐

通过模型中人类反馈的学习，改进大型语言模型（LLMs）的输出与人类期望的一致性，利用人类反馈信号中以响应对的排名形式的强化学习，研究使用自然语言反馈模型的数据效率，通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进，提高了模型的响应质量。

Nov, 2023

强化学习与人类反馈调查

深入探讨人机交互技术中基于人类反馈的强化学习（RLHF）的基本原理、应用及其研究趋势。

Dec, 2023

多轮强化学习从人类偏好反馈中学习

本研究通过发展新的强化学习方法，解决了基于喜好反馈的多轮对话中规划和多轮互动问题，通过实验证明该算法在教育对话环境中超越了基线模型，同时在含有明确奖励的环境中也能达到基于奖励强化学习模型的性能

May, 2024