强化学习中的延迟
该研究提出了延迟感知的马尔可夫决策过程的正式定义,并证明它可以通过使用马尔可夫奖励过程中的增强状态转化为标准 MDP。我们开发了一个延迟感知的模型驱动强化学习框架,可以将多步延迟纳入学习到的系统模型中,而无需进行学习。 与 Gym 和 MuJoCo 平台进行的实验表明,与非策略模型无关的强化学习方法相比,所提出的延迟感知模型驱动算法在训练和各种延迟时间系统之间具有更高的效率和可传递性。
May, 2020
研究分析了随机延迟环境中的多步价值估计问题,提出了一种基于 Soft Actor-Critic 的延迟校正 Actor-Critic 算法来解决,实验证明其在 MuJoCo 连续控制环境中具有显著的性能优势。
Oct, 2020
在标准强化学习设置中,通过立即获得行为后效果的反馈是常见的假设;然而,由于物理限制,在实践中这种假设可能并不成立,可能严重影响强化学习算法的性能。本文关注部分可观测环境中观察延迟的处理。我们提出利用过去观测和学习动态的世界模型来处理观察延迟。通过将延迟型 POMDP 降低为具有世界模型的延迟型 MDP,我们的方法可以有效处理部分可观察性,在现有方法在可观察性降低时实现次优性能甚至迅速降级的情况下表现出更好的性能。实验证明,我们的方法之一可以比天真的基于模型的方法的表现高出 30%。此外,我们首次在基于视觉输入的延迟环境上评估了我们的方法,展示了延迟感知的视觉观察强化学习。
Mar, 2024
本文介绍了一种用于具有延迟反馈环境中的控制问题的新的强化学习方法,该方法采用了随机规划而非以前使用的确定性规划方法,从而在策略优化问题中嵌入了风险偏好。我们展示了该方法能够恢复具有确定性转换的问题的最优策略,并将其与文献中的两种先前方法进行对比。我们将该方法应用于简单任务以了解其特点,然后比较了这些方法在控制多个 Atari 游戏方面的性能。
Feb, 2024
本文研究了具有未知转换和拥有无限制延迟反馈的分集式马尔可夫决策过程的在线学习,表现出基于策略优化的新算法,在完全信息反馈下实现了接近最优的高概率后悔情况,同时也是第一个考虑具有延迟反馈的 MDP 的后悔最小化设置。
Dec, 2020
本文研究了引入扰动估计的延迟条件下,通过扩展状态空间的方式应用马尔可夫决策过程的新方法,可以提高机器人控制的稳定性和鲁棒性。
Jun, 2023
该研究提出了一种针对 MDP 的决策学习与规划框架,其中决策制定者执行的动作有 $m$ 步的延迟,研究表明使用非恒定的马尔科夫策略,可以在非常大的延迟下实现最大化奖励,并介绍了一种无需状态增强即可解决延迟执行任务的 Q-learning 风格模型。
Jan, 2021
在本文中,我们提出了一种新的强化学习框架 - 监控马尔可夫决策过程(Monitored MDPs),该框架解决了强化学习中奖励无法被完全观测到的问题,并讨论了该设置的理论和实践后果,提出了相应的算法。
Feb, 2024
本文研究在控制系统中如何高效地进行强化学习,以应对代理无法实时观察系统最新状态的延迟和缺失观测,通过建立新的近似损失边界方法,可以在考虑状态 - 动作大小的情况下实现学习的高效性,与完全可观测性下的最优方案进行比较。
Jun, 2023