处理预期不匹配情况下的奖励误设定

Apr, 2024

处理预期不匹配情况下的奖励误设定

Handling Reward Misspecification in the Presence of Expectation Mismatch

Sarath Sreedharan, Malek Mechergui

TL;DR使用以 Theory of Mind 为基础的解释性框架 Expectation Alignment (EAL) 来理解目标错配及其原因，并提出了一种基于指定奖励的交互式算法来推断用户对系统行为的期望。

Abstract

Detecting and handling misspecified objectives, such as reward functions, has been widely recognized as one of the central challenges within the domain of Artificial Intelligence (AI) safety research. However, even with the recognition of the importance of this problem, we are unaware

misspecified objectives ai safety research expectation alignment (eal)reward misspecification interactive algorithm

发现论文，激发创造

奖励错误规划的影响：映射和缓解不匹配的模型

此研究探讨了 RL 代理程序如何利用奖励错误来获取更高的代理奖励和更低的真实奖励，并发现了能力阈值、偏差检测任务和基线探测器可以提高监测 ML 系统的安全性。

Jan, 2022

目标一致性：价值对齐问题的人类意识解释

AI 中的价值对齐问题源于 AI 代理的指定目标与其用户的真正基础目标不匹配。本文提出了一种名为目标对齐的新价值对齐问题公式，并提出了一种交互式算法，用于确定用户的真正基础目标。

Feb, 2023

奖赏推断中的选择集错误规范化

本篇研究通过引入选择集调整分类，探讨机器人从人类反馈中推断出奖励函数时选择集被错误设定的后果对性能的影响，并发现部分错误设定并不影响结果，但在某些情况下，失配会极大地损害机器人的推断结果，因此希望我们的结果能够为实际的奖励推理带来更好的预测和响应。

Jan, 2021

越狱的奖励错配问题

我们提出了一种新的观点，认为大型语言模型的脆弱性是由于在对齐过程中奖励错误规定所导致的，并引入了一种度量奖励错误规定程度的指标 ReGap。我们在此基础上提出了一种自动红队测试系统 ReMiss，用于生成针对各种目标对齐的大型语言模型的对抗性提示。ReMiss 在 AdvBench 基准测试中实现了最先进的攻击成功率，并保持了所生成提示的人类可读性。详细分析突出了所提出的奖励错误规定目标相比之前方法的独特优势。

Jun, 2024

关于奖励推断对错误人类模型的敏感性

从人类行为推断奖励函数是实现价值对齐的核心，然而需要人类行为的准确模型，我们在理论和实证研究中发现行为可能出现对抗性商业偏差，同时也能够识别出在合理假设下的奖励推断误差线性受人类模型误差影响的影响范围。

Dec, 2022

使机器人能够交流它们的目标

通过机器模拟对人类推导目标功能的学习过程，选择对人最具信息量的行为，以准确预测机器人在新情境下的行为，为此我们提出了两种候选的近似推断模型，并在自动驾驶领域中进行用户研究，结果表明，某些近似推断模型可以使机器人生成更好的行为示例，从而更好地使用户预测其行为，但我们还需要进一步研究人类从机器人行为示例中的推导过程。

Feb, 2017

利用 POMDP 树搜索进行奖励模型调和的解释

为了提高人们对人工智能系统的信任，本研究致力于调节在线部分可观察马尔可夫决策规划算法的奖励模型与人类用户所假设的奖励模型之间的差异，并通过分析算法与用户之间的差异以估计用户的目标。

May, 2023

ELIGN：基于多智能体内在奖励的期望对齐

该研究探讨在分散型训练或稀疏奖励的情况下，提出了一种自我监督的本质奖励 ELIGN - 期望对齐 - 以及其在多智能体协调问题上的有效性。通过期望对齐代理能够学习到协作行为并且可以进行零次协调，这比基于好奇心的探索方法更加可行。

Oct, 2022

通过奖励建模实现可扩展的智能体协调方向研究

本文阐述了设计适用于真实世界应用强化学习的奖励函数的难度、代理对齐问题的产生原因、以及基于奖励建模解决代理对齐问题的高层研究方向，并探讨了在实现奖励建模时可能面临的关键挑战和解决这些挑战的具体方法以及建立信任的方式。

Nov, 2018

目标错误泛化：为什么正确的规范并不足以达成正确的目标

该研究主要讨论 AI 系统可能在追求不期而至的目标时出现的问题，如规定游戏和目标误化，并提出几个研究方向以减少这些问题带来的灾难风险。

Oct, 2022