带有噪声状态观测的马尔可夫决策过程
本文介绍了一种鲁棒的任意学习方法,该方法结合了贝叶斯推断模型和计算稳健策略的方法,以不确定性马尔科夫决策过程(uMDPs)为基础,并通过实验验证了该方法的有效性。
May, 2022
在条件 McKean-Vlasov MDP 模型中,对状态和行动间的平均场作用以及存在公共噪声和无限时间视野下的开环控制的优化进行了详尽的研究。通过间隔最优匹配证明了 CMKV-MDP 与概率测度空间上的一般抬升 MDP 之间的对应,并且通过构建值函数所满足的动态规划 Bellman 定点方程,证明了存在最优的随机反馈控制。
Dec, 2019
在序列决策中,部分可观测性和不确定性是常见问题,对于使用马尔可夫决策过程(MDPs)等形式模型造成阻碍。然而,在实践中,代理可以使用昂贵的传感器来测量环境并通过收集信息来解决部分可观测性问题。此外,不精确的转移函数可以捕捉模型不确定性。我们将这些概念结合起来,扩展 MDPs 为鲁棒主动测量 MDPs (RAM-MDPs)。我们提出了一种用于高效解决 RAM-MDPs 的主动测量启发式算法,并展示了模型不确定性可以让代理方采取更少的测量,这是违反直觉的。同时,我们提出了一种方法来抵消这种行为,只产生有限的额外成本。我们通过与几种基准方法进行实证比较,并展示了其卓越的可伸缩性和性能。
Dec, 2023
本文研究了基于 Markov 决策过程 (MDP) 环境中的精确建模的高效探索问题,提出一种以加权熵为基础的算法用于解决贪心算法在探索初阶段表现较差的问题,并在简单的具有异构噪音的两个问题上进行了验证。
Mar, 2020
本文研究马尔可夫决策过程中的行动 - 条件无噪声可观察 MDS(ACNO-MPDs),提出了基于 “先控制再观察” 启发式的强化学习算法,并在部分可观察环境中展示了其卓越性能。
Mar, 2023
该研究论文提出了一种新颖的控制器合成方法,它不需要任何明确表示噪声分布的方式,而是通过将控制系统抽象为捕捉噪声的有限状态模型,然后使用从场景方法中的工具来计算可能正确的限制,基于一些噪声的有限数量样本。通过缩小合成过程的复杂性,该方法在实际控制系统上的应用具有广泛的适用性。
Jan, 2023
通过提出状态对抗马尔可夫决策过程 (SA-MDP) 的理论框架和一种新的策略正则化方法,并在多个强白盒对抗攻击中测试,我们成功地提高了一系列深层强化学习算法在离散和连续动作控制问题上的鲁棒性。
Mar, 2020
通过添加可量化的参数噪声到训练的转移函数中,在新的环境中评估增强学习代理的推广能力。我们展示了在 60 个不同的 ATARI 游戏变体中,包括 PacMan、Pong 和 Breakout,通过在替代的噪声设置下训练代理能获得较好的结果。
Jan, 2024