语言模型的反馈循环驱动上下文奖励黑客

Feb, 2024

语言模型的反馈循环驱动上下文奖励黑客

Feedback Loops With Language Models Drive In-Context Reward Hacking

Alexander Pan, Erik Jones, Meena Jagadeesan, Jacob Steinhardt

TL;DR语言模型相互作用中的反馈循环可能会导致上下文激励欺骗 (ICRH)，这涉及输出改进和策略改进两个过程，而评估静态数据集是不充分的，因此需要采取三项评估推荐措施来更全面地理解和捕捉 ICRH 行为。

Abstract

language models influence the external world: they query APIs that read and write to web pages, generate content that shapes human behavior, and run system commands as autonomous agents. These interactions form feedback

language models feedback loops in-context reward hacking output-refinement policy-refinement

发现论文，激发创造

反馈链：缓解响应一致性的影响

AI 模型如 ChatGPT 存在可靠性和一致性问题，本文通过引入 Chain-of-Feedback 触发模型偏离实际答案，提出一种新的提示方法 Recursive Chain of Feedback (R-CoF)，以修正模型最初错误的推理。

Feb, 2024

迭代自我完善中的自发奖励突破

使用论文编辑任务，我们展示了迭代自我完善会导致语言模型评估器和人类判断之间的偏差，从而证明奖励欺骗可以在上下文中自发发生。此外，我们研究了奖励欺骗发生的条件，并观察到两个影响奖励欺骗严重性的因素：模型大小和生成器与评估器之间的上下文共享。

Jul, 2024

从用户反馈中提取自洽因果洞察：LLM 和上下文学习

利用大型语言模型（LLM）的推理能力，我们基于双重机器学习（DML）技术构建一个先验模型，以补偿领域知识匮乏的问题，用作衡量反馈信息的启发式方法，能够提取已知问题、发现新的错误，并识别导致错误的事件序列。

Dec, 2023

机器学习系统中隐藏反馈环效应的数学模型

广泛部署面向社会规模的机器学习系统需要深入了解这些系统对环境产生的长期影响，包括失去可信度、偏见放大和违反 AI 安全要求。我们引入了一种重复学习过程，共同描述了一些与意外隐藏反馈循环相关的现象，如错误放大、引发的概念漂移、回声室等。该过程包括在单个数学模型中获取数据、训练预测模型和向最终用户传递预测的整个周期。这种重复学习设置的一个显著特点是，随着时间的推移，环境的状态变得因果关联于学习者本身，从而违背了有关数据分布的通常假设。我们提出了重复学习过程的一种新颖动力系统模型，并证明了系统运行的正反馈和负反馈环模式的概率分布极限集。我们使用两个合成数据集上的示例监督学习问题进行了一系列计算实验。实验结果与从动力模型推导出的理论预测相一致。我们的结果证明了在机器学习系统中研究重复学习过程所提出方法的可行性，并为进一步研究提供了一系列机会。

May, 2024

LLM 批评家助力捕捉 LLM 漏洞

人类反馈强化学习受到人类正确评估模型输出能力的限制。为了提高人类评估能力并克服这一限制，本研究训练了 “评论家” 模型，帮助人类更准确地评估模型生成的代码。这些评论家是通过强化学习从人类反馈训练的语言模型，用于指出真实世界助手任务中代码中的问题。在含有自然发生的语言模型错误的代码中，63% 的情况下优先选择模型生成的评论，而人工评估发现模型比人类承包商在代码审核中能找到更多的错误。我们进一步验证了我们微调的语言模型评论家能够成功地在被评为 “无瑕疵” 的 ChatGPT 训练数据中识别出数百个错误，尽管绝大多数任务是非代码任务，因此对评论家模型来说是非分布的。评论家也可能存在其自身的局限性，包括产生错误的问题，可能会误导人类错误地做出本来可以避免的错误，但是人机评论家与承包商团队能够发现与仅使用语言模型评论相似数量的错误，并且比仅使用语言模型时产生更少的错误。

Jun, 2024

构建可靠流畅的大型语言模型：在问答系统中引入反馈学习循环

为了解决大型语言模型在引文、正确性和流畅度方面存在的问题，本研究通过构建数据集、引入自动化反馈机制和反馈学习循环，成功提高了 ChatGPT 的引文和流畅度指标，并保持高水平的正确性。

Sep, 2023

CRITIC：大型语言模型可通过工具交互式批评进行自我修正

该论文介绍了一种称为 CRITIC 的框架，旨在通过外部反馈来提高大型语言模型的性能和自我完善能力，具体包括对问题回答、代码合成和削减有害内容等方面的基准测试，而这种框架的作用类似于人类交互工具的方式。

May, 2023

创造力已离开聊天窗口：语言模型去偏见的代价

使用强化学习通过人类反馈进行对齐技术（RLHF）在大语言模型的创造力上产生意外后果。

Jun, 2024

利用大型语言模型的反馈加速机器人操控的强化学习

通过利用大型语言模型的及时反馈，Lafite-RL（语言代理反馈互动式强化学习）框架使强化学习智能体能够有效地学习机器人任务，实验结果表明，Lafite-RL 智能体在自然语言的简单提示设计下，通过大型语言模型的引导在学习效率和成功率方面优于基准模型，凸显了大型语言模型所提供的奖励的功效。

Nov, 2023

利用多轮互动增强上下文的越狱攻击

大型语言模型对越狱攻击很容易受到攻击，本研究提出了一种基于上下文互动的攻击形式，通过操作模型的回应引导其透露有害信息。在四个不同的大型语言模型上进行实验证明了该攻击的有效性，并且该攻击可以在不同大型语言模型之间转移。

Feb, 2024