奖赏推断中的选择集错误规范化 | BriefGPT - AI 论文速递

IJCAIJan, 2021

奖赏推断中的选择集错误规范化

Choice Set Misspecification in Reward Inference

Rachel Freedman, Rohin Shah, Anca Dragan

TL;DR本篇研究通过引入选择集调整分类，探讨机器人从人类反馈中推断出奖励函数时选择集被错误设定的后果对性能的影响，并发现部分错误设定并不影响结果，但在某些情况下，失配会极大地损害机器人的推断结果，因此希望我们的结果能够为实际的奖励推理带来更好的预测和响应。

Abstract

Specifying reward functions for robots that operate in environments without a natural reward signal can be challenging, and incorrectly specified rewards can incentivise degenerate or dangerous behavior. A promising alternative to manually specifying reward functions is to enable robots to infer them from →

reward inference robot learning human feedback misspecification performance

发现论文，激发创造

奖励错误规划的影响：映射和缓解不匹配的模型

此研究探讨了 RL 代理程序如何利用奖励错误来获取更高的代理奖励和更低的真实奖励，并发现了能力阈值、偏差检测任务和基线探测器可以提高监测 ML 系统的安全性。

Jan, 2022

处理预期不匹配情况下的奖励误设定

使用以 Theory of Mind 为基础的解释性框架 Expectation Alignment (EAL) 来理解目标错配及其原因，并提出了一种基于指定奖励的交互式算法来推断用户对系统行为的期望。

Apr, 2024

量化逆强化学习对错误规范的敏感性

逆向强化学习（IRL）的关键问题是行为模型的错配性对结果的影响，本研究对此进行敏感性分析，并分析参数值和模型参数错配对结果的影响。

Mar, 2024

关于奖励推断对错误人类模型的敏感性

从人类行为推断奖励函数是实现价值对齐的核心，然而需要人类行为的准确模型，我们在理论和实证研究中发现行为可能出现对抗性商业偏差，同时也能够识别出在合理假设下的奖励推断误差线性受人类模型误差影响的影响范围。

Dec, 2022

奖励合理 (隐式) 选择：奖励学习的统一形式化

研究如何从人类的行为或反馈中学习奖励函数，并提出一种单一的形式化框架，将各种不同类型的行为诠释为人类所做出的奖励选择，这既可用于解读过去的工作，又能为今后的研究提供借鉴和启迪。

Feb, 2020

人类反馈的迭代奖励塑造用于修正奖励误设定

提出了一种利用人类反馈进行迭代奖励塑形的方法（ITERS），允许用户在训练过程中提供轨迹级别的反馈，并结合用户解释来改进奖励函数，成功纠正错误的奖励函数。

Aug, 2023

可达效用保存的保守智能机构

研究发现奖励功能易出现错误，为此介绍一种平衡主要奖励函数和辅助奖励函数优化的方法，即使辅助奖励函数是随机生成的，该方法也能诱导保守且有效的行为。

Feb, 2019

基于偏好的奖励学习中因果混淆和奖励误识别问题

通过偏好学习奖励的策略是一种定制代理行为的越来越受欢迎的方法，本文通过敏感度和消融分析，发现不能考虑多种因素会导致出乎意料和不良行为，如奖励误认和因果混淆等。

Apr, 2022

交互自主学习偏好

研究人机交互中智能机器人的学习奖励功能从而完成任务，探讨通过对多种机器人轨迹的比较反馈方式学习机器的奖励功能，包括两两比较、评分、最佳选择等，并提出主动学习技术，以优化从用户反馈中获得的期望信息，进而在自主驾驶模拟、家庭机器人、标准强化学习等领域展示了这种方法的适用性。

Oct, 2022

学习未规定模型的奖励函数

本研究提出了一种新颖的误差界限，用于解决模型不完美时生成的错误状态如何正确分配奖励值的问题，并在实验中证明其在基于模型的强化学习中的有效性。

Jan, 2018