执行 - 衡量策略：在活跃衡量中的部分可观测环境中强化学习

Mar, 2023

执行 - 衡量策略：在活跃衡量中的部分可观测环境中强化学习

Act-Then-Measure: Reinforcement Learning for Partially Observable Environments with Active Measuring

Merlijn Krale, Thiago D. Simão, Nils Jansen

TL;DR本文研究马尔可夫决策过程中的行动 - 条件无噪声可观察 MDS（ACNO-MPDs），提出了基于 “先控制再观察” 启发式的强化学习算法，并在部分可观察环境中展示了其卓越性能。

Abstract

We study markov decision processes (MDPs), where agents have direct control over when and how they gather information, as formalized by action-contingent noiselessly observable MDPs (ACNO-MPDs). In these models, actions consist of two components: a control action that affects the envir

markov decision processes action-contingent noiselessly observable mdps act-then-measure heuristic reinforcement learning partially-observable environments

发现论文，激发创造

模型不确定性下的稳健主动测量

在序列决策中，部分可观测性和不确定性是常见问题，对于使用马尔可夫决策过程（MDPs）等形式模型造成阻碍。然而，在实践中，代理可以使用昂贵的传感器来测量环境并通过收集信息来解决部分可观测性问题。此外，不精确的转移函数可以捕捉模型不确定性。我们将这些概念结合起来，扩展 MDPs 为鲁棒主动测量 MDPs (RAM-MDPs)。我们提出了一种用于高效解决 RAM-MDPs 的主动测量启发式算法，并展示了模型不确定性可以让代理方采取更少的测量，这是违反直觉的。同时，我们提出了一种方法来抵消这种行为，只产生有限的额外成本。我们通过与几种基准方法进行实证比较，并展示了其卓越的可伸缩性和性能。

Dec, 2023

带有噪声状态观测的马尔可夫决策过程

通过建模不确定性来解决马尔可夫决策过程（MDPs）中一类特定的嘈杂状态观测问题，提出了两种新的算法方法，一种是用于有限时间窗口内有效噪声估计的二阶重复动作方法，另一种是一组贝叶斯算法，通过模拟实验证实了这些方法在不同场景下尤其在具有不同稳定分布的环境中的有效性。

Dec, 2023

为了最小化观测成本的主动测量强化学习

本研究提出了一种名为活跃测量 RL（Amrl）的框架，其中代理学习最大化加权回报，以平衡奖励和观察成本。我们的实证评估表明，Amrl-Q 代理能够在在线训练期间并行学习策略和状态估计器。通过使用主动策略，Amrl-Q 实现了更高的加权回报，而且学习速度与标准 Q-learning 和 Dyna-Q 相似。

May, 2020

观测代价敏感强化学习中的动态观测策略

本文调查了最近发展的文献，采用了 RL 代理不需要每个时间步都进行昂贵测量的观点，并在 OpenAI gym 和 Atari Pong 环境上与文献中的替代方法进行对比和实证评估，结果表明 DMSOA 在较少的决策步骤和测量下学习到了更好的策略。

Jul, 2023

监控的马尔可夫决策过程

在本文中，我们提出了一种新的强化学习框架 - 监控马尔可夫决策过程（Monitored MDPs），该框架解决了强化学习中奖励无法被完全观测到的问题，并讨论了该设置的理论和实践后果，提出了相应的算法。

Feb, 2024

由学习的环境模型指导的部分可观测性下的强化学习

本文提出了一种基于 Q-learning 和 IoAlergia 的强化学习方法，用于处理部分可观察环境下的控制系统策略生成，将 RL 与学习环境模型相结合以提供抽象的环境状态获取。实验结果表明，该方法在性能表现上优于六种当下的深度 RL 技术。

Jun, 2022

部分可观察马尔可夫决策过程中的动态深度强化学习算法

通过将动作序列纳入来解决部分可观察马尔可夫决策过程，本研究提出了几种结构和方法来扩展最新的深度强化学习算法与 LSTM 网络，结果显示这些算法提升了控制器对不同类型外部干扰的鲁棒性。

Jul, 2023

马尔可夫决策过程中的主动探索

本研究针对在 Markov 决策过程中的主动探索问题进行了研究，提出了一种新的学习算法，用以解决 MDPs 中的主动探索问题并证明了其相对于 MAB 来说更为复杂，同时也给出了一个用于缓解策略收敛速度缓慢的启发式过程。

Feb, 2019

实时强化学习

介绍了一种新的实时实时决策过程框架，并分析了现有算法在此新框架下的缺陷。然后使用这些洞察力创建了一个新算法实时演员评论家（RTAC），在实时和非实时设置中均优于现有最先进的连续控制算法 Soft Actor-Critic。

Nov, 2019

关于提高 POMDP 上深度强化学习的方法

提出了 Action-specific Deep Recurrent Q-Network (ADRQN) 的新体系结构，该体系结构使用 LSTM 层来学习潜在状态，以增强在多个部分可观察领域的学习性能，包括 Atari 游戏。

Apr, 2018