带有噪声状态观测的马尔可夫决策过程

Dec, 2023

带有噪声状态观测的马尔可夫决策过程

Markov Decision Processes with Noisy State Observation

Amirhossein Afsharrad, Sanjay Lall

TL;DR通过建模不确定性来解决马尔可夫决策过程（MDPs）中一类特定的嘈杂状态观测问题，提出了两种新的算法方法，一种是用于有限时间窗口内有效噪声估计的二阶重复动作方法，另一种是一组贝叶斯算法，通过模拟实验证实了这些方法在不同场景下尤其在具有不同稳定分布的环境中的有效性。

Abstract

This paper addresses the challenge of a particular class of noisy state observations in markov decision processes (MDPs), a common issue in various real-world applications. We focus on modeling this uncertainty through a →

noisy state observations markov decision processes confusion matrix algorithmic approaches state estimation

发现论文，激发创造

强健的马尔可夫决策流程即时学习

本文介绍了一种鲁棒的任意学习方法，该方法结合了贝叶斯推断模型和计算稳健策略的方法，以不确定性马尔科夫决策过程（uMDPs）为基础，并通过实验验证了该方法的有效性。

May, 2022

间歇可观察的马尔科夫决策过程

本文研究了在不稳定状态信息下的 MDP，提出了一种基于树组织结构和值迭代算法的有限状态近似方法来寻找最优策略。

Feb, 2023

具有共同噪声和开环控制的均场马尔可夫决策过程

在条件 McKean-Vlasov MDP 模型中，对状态和行动间的平均场作用以及存在公共噪声和无限时间视野下的开环控制的优化进行了详尽的研究。通过间隔最优匹配证明了 CMKV-MDP 与概率测度空间上的一般抬升 MDP 之间的对应，并且通过构建值函数所满足的动态规划 Bellman 定点方程，证明了存在最优的随机反馈控制。

Dec, 2019

模型不确定性下的稳健主动测量

在序列决策中，部分可观测性和不确定性是常见问题，对于使用马尔可夫决策过程（MDPs）等形式模型造成阻碍。然而，在实践中，代理可以使用昂贵的传感器来测量环境并通过收集信息来解决部分可观测性问题。此外，不精确的转移函数可以捕捉模型不确定性。我们将这些概念结合起来，扩展 MDPs 为鲁棒主动测量 MDPs (RAM-MDPs)。我们提出了一种用于高效解决 RAM-MDPs 的主动测量启发式算法，并展示了模型不确定性可以让代理方采取更少的测量，这是违反直觉的。同时，我们提出了一种方法来抵消这种行为，只产生有限的额外成本。我们通过与几种基准方法进行实证比较，并展示了其卓越的可伸缩性和性能。

Dec, 2023

马尔可夫决策过程中的主动模型估计

本文研究了基于 Markov 决策过程 (MDP) 环境中的精确建模的高效探索问题，提出一种以加权熵为基础的算法用于解决贪心算法在探索初阶段表现较差的问题，并在简单的具有异构噪音的两个问题上进行了验证。

Mar, 2020

执行 - 衡量策略：在活跃衡量中的部分可观测环境中强化学习

本文研究马尔可夫决策过程中的行动 - 条件无噪声可观察 MDS（ACNO-MPDs），提出了基于 “先控制再观察” 启发式的强化学习算法，并在部分可观察环境中展示了其卓越性能。

Mar, 2023

鲁棒马尔可夫决策过程：超越矩形假设

本论文利用因子模型处理 Markov 决策过程中的参数不确定性问题，提出了一种鲁棒性方法来有效计算最优策略，并在相关领域进行了实验研究。

Nov, 2018

通过正式抽象实现非高斯噪声动态系统的鲁棒控制

该研究论文提出了一种新颖的控制器合成方法，它不需要任何明确表示噪声分布的方式，而是通过将控制系统抽象为捕捉噪声的有限状态模型，然后使用从场景方法中的工具来计算可能正确的限制，基于一些噪声的有限数量样本。通过缩小合成过程的复杂性，该方法在实际控制系统上的应用具有广泛的适用性。

Jan, 2023

针对状态观测的鲁棒深度强化学习对抗扰动

通过提出状态对抗马尔可夫决策过程 (SA-MDP) 的理论框架和一种新的策略正则化方法，并在多个强白盒对抗攻击中测试，我们成功地提高了一系列深层强化学习算法在离散和连续动作控制问题上的鲁棒性。

Mar, 2020

环境临近目标培训的意想不到的收获

通过添加可量化的参数噪声到训练的转移函数中，在新的环境中评估增强学习代理的推广能力。我们展示了在 60 个不同的 ATARI 游戏变体中，包括 PacMan、Pong 和 Breakout，通过在替代的噪声设置下训练代理能获得较好的结果。

Jan, 2024