随机延迟的强化学习

ICLROct, 2020

Reinforcement Learning with Random Delays

Simon Ramstedt, Yann Bouteiller, Giovanni Beltrame, Christopher Pal, Jonathan Binas

TL;DR研究分析了随机延迟环境中的多步价值估计问题，提出了一种基于 Soft Actor-Critic 的延迟校正 Actor-Critic 算法来解决，实验证明其在 MuJoCo 连续控制环境中具有显著的性能优势。

Abstract

Action and observation delays commonly occur in many reinforcement learning applications, such as remote control scenarios. We study the anatomy of randomly delayed environments, and show that partially resamplin

reinforcement learning delayed environments off-policy estimation actor-critic continuous control

发现论文，激发创造

基于模型的延迟感知连续控制强化学习

该研究提出了延迟感知的马尔可夫决策过程的正式定义，并证明它可以通过使用马尔可夫奖励过程中的增强状态转化为标准 MDP。我们开发了一个延迟感知的模型驱动强化学习框架，可以将多步延迟纳入学习到的系统模型中，而无需进行学习。与 Gym 和 MuJoCo 平台进行的实验表明，与非策略模型无关的强化学习方法相比，所提出的延迟感知模型驱动算法在训练和各种延迟时间系统之间具有更高的效率和可传递性。

May, 2020

强化学习中的延迟

研究关于延迟对动态系统、马尔可夫决策过程、强化学习和实证结果的影响。

Sep, 2023

延迟、组合和部分匿名回报的强化学习

本文研究了具有延迟、组合和部分匿名奖励反馈的无限期望回报马尔可夫决策过程，并提出了名为 DUCRL2 的算法来获得近似最优策略，并证明其达到了类似于 ODS 的遗憾界。

May, 2023

连续时间延迟系统的神经拉普拉斯控制

提出了一种基于神经拉普拉斯动态模型与模型预测控制理论相结合的离线学习算法，能够学习到具有固有未知延迟难以处理的实时反馈系统，实验证明其性能接近专家策略。

Feb, 2023

延迟随机环境中的控制：基于模型的强化学习方法

本文介绍了一种用于具有延迟反馈环境中的控制问题的新的强化学习方法，该方法采用了随机规划而非以前使用的确定性规划方法，从而在策略优化问题中嵌入了风险偏好。我们展示了该方法能够恢复具有确定性转换的问题的最优策略，并将其与文献中的两种先前方法进行对比。我们将该方法应用于简单任务以了解其特点，然后比较了这些方法在控制多个 Atari 游戏方面的性能。

Feb, 2024

通过世界模型进行延迟观察的强化学习

在标准强化学习设置中，通过立即获得行为后效果的反馈是常见的假设；然而，由于物理限制，在实践中这种假设可能并不成立，可能严重影响强化学习算法的性能。本文关注部分可观测环境中观察延迟的处理。我们提出利用过去观测和学习动态的世界模型来处理观察延迟。通过将延迟型 POMDP 降低为具有世界模型的延迟型 MDP，我们的方法可以有效处理部分可观察性，在现有方法在可观察性降低时实现次优性能甚至迅速降级的情况下表现出更好的性能。实验证明，我们的方法之一可以比天真的基于模型的方法的表现高出 30%。此外，我们首次在基于视觉输入的延迟环境上评估了我们的方法，展示了延迟感知的视觉观察强化学习。

Mar, 2024

DiAReL: 机器人控制中的扰动感知鲁棒性 Sim2Real 策略迁移强化学习

本文研究了引入扰动估计的延迟条件下，通过扩展状态空间的方式应用马尔可夫决策过程的新方法，可以提高机器人控制的稳定性和鲁棒性。

Jun, 2023

人类速度：带有行动延迟的深度强化学习

该论文研究解决游戏人工智能的反应延迟问题，通过给智能体一个神经预测模型滞后，展示了超级斗地主 Bros. Melee 等游戏中对抗专业玩家的有效性。

Oct, 2018

具有不完全可观测性的高效强化学习：学会通过延迟和缺失状态观测来行动

本文研究在控制系统中如何高效地进行强化学习，以应对代理无法实时观察系统最新状态的延迟和缺失观测，通过建立新的近似损失边界方法，可以在考虑状态 - 动作大小的情况下实现学习的高效性，与完全可观测性下的最优方案进行比较。

Jun, 2023

具有延迟反馈的对抗性马尔可夫决策过程学习

本文研究了具有未知转换和拥有无限制延迟反馈的分集式马尔可夫决策过程的在线学习，表现出基于策略优化的新算法，在完全信息反馈下实现了接近最优的高概率后悔情况，同时也是第一个考虑具有延迟反馈的 MDP 的后悔最小化设置。

Dec, 2020