当行动被修改时，强化学习代理的行为表现

AAAIFeb, 2021

当行动被修改时，强化学习代理的行为表现

How RL Agents Behave When Their Actions Are Modified

Eric D. Langlois, Tom Everitt

TL;DR通过 Modified-Action Markov Decision Process 模型，分析了强化学习算法在受到监督控制时的适应方法，展示了一些算法能够避免执行操作的更改，开发人员可以通过选择正确的算法来更好地管理其代理响应。

Abstract

reinforcement learning in complex environments may require supervision to prevent the agent from attempting dangerous actions. As a result of supervisor intervention, the executed action may differ from the actio

reinforcement learning supervision markov decision process reward algorithm

发现论文，激发创造

监控的马尔可夫决策过程

在本文中，我们提出了一种新的强化学习框架 - 监控马尔可夫决策过程（Monitored MDPs），该框架解决了强化学习中奖励无法被完全观测到的问题，并讨论了该设置的理论和实践后果，提出了相应的算法。

Feb, 2024

当并非所有操作都可用时的强化学习

本文介绍了基于马尔可夫决策过程（MDP）中存在确定性可选动作集合的局限性，提出了一种新的基于随机动作集合的马尔可夫决策过程（SAS-MDP）模型，并针对旧 RL 算法在 SAS-MDP 中可能存在的发散问题，提出了包含独特的方差缩减技术的新的策略梯度算法以及收敛条件，并通过真实用例启发的任务实验表明了该方法的实用性。

Jun, 2019

Lazy-MDPs: 基于学习何时采取行动的可解释强化学习

该论文提出了一种名为 lazy-MDPs 的增强学习新形式，它可以将人类的 “懒惰” 行为方式注入到决策过程中，因此对于解释标准 MDP 的政策能力得到更好的提升，同时该方法在 Atari 游戏中可以实现与竞争水平相当的性能。

Mar, 2022

来自真实多智能体演示的强化学习中的自适应动作监督

本文提出了一种自适应动作监督的 RL 方法，通过动态时间规整的最小距离选择 RL 真实世界演示中的动作，使得 RL 模型能够在网络空间获得回报

May, 2023

突发模型变化下的强化学习

提出了一种基于模型无关算法的强化学习问题解决方案，该算法通过与环境互动学习最优策略，并利用最快的变化检测算法来检测模型变化，从而获得长期折现奖励。

Apr, 2023

具有外部时间进程的马尔可夫决策过程

本文研究在外部时间过程的影响下的马尔可夫决策过程，提出了一个策略迭代算法来解决这个问题，并对其性能进行了理论分析。

May, 2023

特征强化学习：第一部分：非结构化 MDPs

本文研究如何自动化减少任务的状态表达，以将通用的智能学习机设定为 MDP 框架，从而扩大许多现有强化学习算法和使用它们的机器人的范围，并开发一种形式化的客观标准作为搜索可行 MDPs 的指导，并在算法中将各个部分整合到一起。

Jun, 2009

实时强化学习

介绍了一种新的实时实时决策过程框架，并分析了现有算法在此新框架下的缺陷。然后使用这些洞察力创建了一个新算法实时演员评论家（RTAC），在实时和非实时设置中均优于现有最先进的连续控制算法 Soft Actor-Critic。

Nov, 2019

部分可观察马尔可夫决策过程中的动态深度强化学习算法

通过将动作序列纳入来解决部分可观察马尔可夫决策过程，本研究提出了几种结构和方法来扩展最新的深度强化学习算法与 LSTM 网络，结果显示这些算法提升了控制器对不同类型外部干扰的鲁棒性。

Jul, 2023

基于模型的延迟感知连续控制强化学习

该研究提出了延迟感知的马尔可夫决策过程的正式定义，并证明它可以通过使用马尔可夫奖励过程中的增强状态转化为标准 MDP。我们开发了一个延迟感知的模型驱动强化学习框架，可以将多步延迟纳入学习到的系统模型中，而无需进行学习。与 Gym 和 MuJoCo 平台进行的实验表明，与非策略模型无关的强化学习方法相比，所提出的延迟感知模型驱动算法在训练和各种延迟时间系统之间具有更高的效率和可传递性。

May, 2020