该论文介绍了一种基于近似多项式时间算法的部分可观测马可夫决策过程无预言学习算法,该算法不是基于传统的探索 - 利用原则,而是采用几何拓扑中的重心跨度技术构建策略套接,并且通过对状态分布和观测分布的假设来保证合理性。
Jun, 2022
通过融合监督学习和无监督学习,部分监督强化学习(PSRL)框架能够提供更可解释的策略和丰富的潜在洞察力,从而在奖励和收敛速度等方面保持并大大超越传统方法的性能基准。
Feb, 2024
本文提出了一种新算法,用于部分可观测的马尔可夫决策过程中的反向强化学习,可增加数据效率并减少信息不对称,通过融合时间逻辑表达式作为先验信息,使用因果熵而不是熵,防止算法复杂度的通用来源,有效地解决了非凸问题,并在高级 Unity 仿真器中进行了实验,结果表明该算法具有较高的性能。
Dec, 2022
为了解释深度强化学习序列的决策,该研究提出了抽象策略图,作为一系列状态的马尔可夫链,以及基于值函数和观测到的转换的抽象策略图生成方法。该方法适用于许多现有的强化学习方法,具有二次时间复杂度和可靠性。
May, 2019
本文提出一个结合推断和强化学习的框架,通过深度强化学习对 POMDP 问题进行鲁棒解决。通过 Markov Chain Monte Carlo 抽样来联合推断出所有的转换和观察模型参数,并将参数分布通过域随机化融入到模型不确定性的解决中,解决该方法适用于铁路资产维护规划等实际问题。
Jul, 2023
通过观察其余状态以有效学习核心状态之间的状态转移规则,针对部分可观测马尔科夫决策过程 (POMDP) 提出一种面向目标的强化学习方法。 在逐步添加新的核心状态到转换图中的同时,本模型仅包含核心状态,它监督一小部分核心状态以了解动态环境并获得最佳行为策略,这使其具有良好的可解释性。 此外,该方法适用于在线学习,可以抑制内存消耗并提高学习速度。
May, 2023
本文提出了一种名为 GPOMDP 的基于模拟的算法,用于在部分可观测马尔可夫决策过程(POMDPs)中控制参数化随机策略,生成偏差估计的平均奖励梯度。
Jun, 2011
本文研究了强化学习系统在现实世界中部署的中心挑战 —— 泛化,并展示了强化学习问题的时序结构需要新的泛化方法,同时介绍了一种新的部分可观察马尔可夫决策过程(POMDP)解决方案 —— 认知 POMDP,通过简单的基于集成的技术解决了部分可观测性问题,证明了所提出的算法对 Procgen 基准套件的表现相比现有方法有显著提高。
Jul, 2021
本文提出了一种深度变分强化学习方法,该方法引入了归纳偏置,允许代理学习环境的生成模型并在该模型中执行推断以有效地聚合可用信息。通过在 Mountain Hike 和 flickering Atari 的实验中表明,我们的方法优于先前依赖于循环神经网络对过去进行编码的方法。
Jun, 2018
通过使用用户提供的反事实来生成 POMDP 策略的对比解释,探索可解释人工智能的方法以提高系统透明度并建立信任,本文以 Search and Rescue (SAR) 为例进行了分析和讨论相关挑战。
Mar, 2024