迭代自我完善中的自发奖励突破

Jul, 2024

Spontaneous Reward Hacking in Iterative Self-Refinement

Jane Pan, He He, Samuel R. Bowman, Shi Feng

TL;DR使用论文编辑任务，我们展示了迭代自我完善会导致语言模型评估器和人类判断之间的偏差，从而证明奖励欺骗可以在上下文中自发发生。此外，我们研究了奖励欺骗发生的条件，并观察到两个影响奖励欺骗严重性的因素：模型大小和生成器与评估器之间的上下文共享。

Abstract

language models are capable of iteratively improving their outputs based on natural language feedback, thus enabling in-context optimization of user preference. In place of human users, a second language model ca

发现论文，激发创造

细粒度人类反馈为语言模型训练提供更好的奖励

本文介绍了Fine-Grained RLHF框架，可以对包含一定程度错误或无效信息的长文本提供细化的人类反馈进行训练，并实验表明使用该框架能够改善语言模型生成过程中生成虚假、有毒、无关的输出等问题。

Jun, 2023

帮助还是群集？奖励模型集合缓解但无法消除奖励攻击

奖励模型、语言模型、奖励欺骗、奖励集合以及对齐是该研究论文的关键词，研究内容主要探讨了奖励模型在校准语言模型应用中的应用及存在的问题。

Dec, 2023

自奖励语言模型

通过自我奖励语言模型的迭代DPO训练，本研究展示了模型的指示遵循能力及为自身提供高质量奖励的能力的提升，最终的Llama 2 70B模型在AlpacaEval 2.0排行榜上表现优于许多现有系统，包括Claude 2、Gemini Pro和GPT-4 0613。这项初步研究为模型在两个方向上不断改进的可能性打开了大门。

Jan, 2024

语言模型的反馈循环驱动上下文奖励黑客

语言模型相互作用中的反馈循环可能会导致上下文激励欺骗(ICRH)，这涉及输出改进和策略改进两个过程，而评估静态数据集是不充分的，因此需要采取三项评估推荐措施来更全面地理解和捕捉ICRH行为。

Feb, 2024

自我反馈的危险：自我偏见在大型语言模型中增强

最近的研究表明，自我反馈可以改善大型语言模型在某些任务上的表现，但对其他任务而言则会恶化。我们发现这种矛盾是由于语言模型对自己的输出存在偏见所致。本文通过两个统计量正式定义了语言模型的自我偏见——偏爱其自身生成的内容。我们分析了六个语言模型在翻译、受限文本生成和数学推理任务上的表现。我们发现自我偏见在所有研究的语言模型中普遍存在，并且跨多种语言和任务。我们的分析揭示了自我优化流程虽然可以提高模型输出的流畅度和可理解性，但会进一步放大自我偏见。为了减轻这种偏见，我们发现更大的模型规模和准确评估的外部反馈可以显著减少自我优化流程中的偏见，从而在下游任务中实现实际性能的提升。

Feb, 2024

RewardBench：评估语言建模的奖励模型

RewardBench是一个用于评估奖励模型的基准数据集和代码库，旨在增强对奖励模型科学理解的同时，深入了解用于语言模型对齐的不透明技术以及其中嵌入的价值观。通过包含多个难度级别、结构化和分布外查询的提示-赢-输三元组，我们对通过各种方法训练的奖励模型进行了评估，并针对拒绝、推理限制和指示跟随等方面的问题提出了许多发现，以促进对RLHF过程的更好理解。

Mar, 2024

自校正的理论认识与上下文对齐

基于一种类似于对齐任务的简化设置，我们从上下文学习的角度对自我纠正进行理论分析，显示出大语言模型通过给予相对准确的自我检查作为奖励，能够以上下文的方式改进响应。我们的理论构建突破了之前关于过于简化的线性变换器的理论，阐述了现实变换器的几个关键设计在自我纠正中的作用：softmax关注、多头关注和MLP块。经过广泛的合成数据集验证，我们进一步阐述了自我纠正的新应用，例如抵制大型语言模型越狱，其中简单的自我纠正步骤确实产生了很大的差异。我们相信这些发现将激发进一步研究自我纠正的理解、利用和增强，以构建更好的基础模型。

May, 2024

自我探索的语言模型：在线对齐的主动偏好引导

通过自我探索语言模型 (SELM) 优化固定在人类意图上的大型语言模型 (LLM)，比起直接优化偏离分布的模型，SELM 目标减少了无差别的偏好和提高了探索效率。

May, 2024

元奖励语言模型：通过 LLM 作为元评判者的自我提升对齐

本研究解决了大语言模型（LLMs）在自我评判能力提升中的不足。通过引入一种新的“元奖励”步骤，使模型能够评判自己的判断并基于反馈改进，使得模型在执行指令和自我评判方面均有所提升。研究发现，这种无监督的方法显著提高了模型的判断能力，显示出模型在没有人类监督下自我提升的潜力。

Jul, 2024

人类反馈的阴暗面：通过用户输入毒化大型语言模型

本研究探讨了大型语言模型在用户反馈驱动下的潜在漏洞，提出了一种新型的通过用户提供的提示进行毒化攻击的策略。关键发现是，即使在不知目标模型的情况下，这种攻击也能显著降低模型在特定关键词上的性能，揭示了利用用户生成提示时隐含的安全隐患。

Sep, 2024