通过占用度量规范化防止奖励攻击

Mar, 2024

通过占用度量规范化防止奖励攻击

Preventing Reward Hacking with Occupancy Measure Regularization

Cassidy Laidlaw, Shivam Singhal, Anca Dragan

TL;DR奖励破解是指代理根据「代理」奖励函数（可以是手动指定或学习得到的函数）表现出色，但在未知真实奖励方面表现差。我们提出根据状态占据度测量建立正则化模型，以代替行动分布来避免奖励破解，并进行理论和实证研究验证。

Abstract

reward hacking occurs when an agent performs very well with respect to a "proxy" reward function (which may be hand-specified or learned), but poorly with respect to the unknown true reward. Since ensuring good alignment between the proxy and true reward is extremely difficult, one app

reward hacking proxy reward function action distribution state occupancy measure regularization

发现论文，激发创造

数据有效的强化学习并发信用分配

本文提出了一种基于占据模型的强化学习算法，通过更新占据模型可实现环境状态的均匀采样，从而在经典的连续行动基准问题上提高了采样效率。

May, 2022

奖励错误规划的影响：映射和缓解不匹配的模型

此研究探讨了 RL 代理程序如何利用奖励错误来获取更高的代理奖励和更低的真实奖励，并发现了能力阈值、偏差检测任务和基线探测器可以提高监测 ML 系统的安全性。

Jan, 2022

基于广义占据模型的可转移强化学习

智能代理应该是综合性的，能够快速适应和推广不同的任务，提出了一种新的模型类别 - 广义占据模型（GOM），它在保留模型强化学习的综合性的同时避免累积误差，通过直接建模长期结果，GOM 既避免了累积误差，又在任意奖励函数下保持了综合性。

Mar, 2024

通过验证任务级别属性提供安全的深度强化学习

本文介绍了一种使用 “违规指标” 来惩罚无法确保安全的状态，从而更好地实现安全深度强化学习的方法，并在机器人地图导航任务中进行了实验研究，结果表明相较于进行 Safe DRL 的基线策略，使用违规指标的策略在性能上有了更好的表现，且能够大幅减少访问不安全状态的数量。

Feb, 2023

离散化正则化的多智能体演员 - 评论家算法

本文研究了分歧规则化在合作多智能体强化学习中的应用，提出了一种新的脱机分歧规则化多智能体演员 - 评论家框架 (DMAC)，理论上证明了 DMAC 更新规则是自然的脱机更新，并在原始 MDP 和分歧正则化 MDP 中保证单调政策改进和收敛，实验证明 DMAC 明显提高了现有 MARL 算法的性能。

Oct, 2021

自适应优势引导的策略规范化用于离线强化学习

通过自适应优势导向的策略规范化方法（A2PR），我们能够在离线强化学习中解决样本分布外问题，通过生成匹配数据点分布的样本，有效地选择高优势动作，并在保持一定保守性的同时改进行为策略，从而达到改进策略的理论保障，以及有效减轻价值函数高估的性能差距。

May, 2024

风险厌恶信任区域优化用于奖励波动率降低

本文提出了一种新的风险评估指标 —— 奖励波动率，并建立了一个基于改进后的奖励波动率指标的策略梯度定理。通过在两个模拟的金融环境下进行测试，证明了该方法的有效性。

Dec, 2019

通用效用的强化学习：更简单的方差缩减和大状态行动空间

我们提出了一种更简单的单循环，无参数归一化策略梯度算法，用于解决具有一般效用的强化学习问题，其中包括约束强化学习，纯探索以及从演示中学习等问题，同时通过线性函数逼近解决大状态 - 动作空间的设置，并展示了简单的策略梯度法的样本复杂度。

Jun, 2023

离线增强学习与在线策略 Q 函数规范化

提出了两种算法，利用行为策略的 Q 函数通过正则化来解决离线强化学习中由于数据分布变化而引起的外推误差，该方法在 D4RL 基准测试中表现出良好的性能。

Jul, 2023

FOCAL：通过距离度量学习和行为规范实现高效完全离线的元强化学习

本研究旨在通过实施行为规范化、采用确定性上下文编码器及负幂距离度量等新方法，构建一种全新的、终端到终端的离线元元强化学习算法，以解决元强化学习中 “脱离分布状态动作引起的自举误差” 和 “训练策略学习的效率和健壮性” 等两大挑战，并将该算法应用于多种元强化学习基准测试中，展示了较为出色的性能。

Oct, 2020