本文研究部分可观察马尔可夫决策过程(POMDPs)的解决方案,探讨如何从有限状态自动机的限制集合中找到最佳策略,进而展示了通过分支定界法和梯度上升法寻找全局最优确定性策略和局部最优随机策略的优越实验结果。
Jan, 2013
提出了一种新的强化学习算法用于部分可观察的马尔可夫决策过程(POMDP),该算法基于谱分解方法,学习参数通过固定政策生成的轨迹,并通过优化oracle返回最优的无记忆规划策略,算法可以有效缩放观测和行动空间的维度。
Feb, 2016
本文通过采用基于基线的自举算法(SPIBB),允许在更广泛的策略集合上进行策略搜索,通过控制局部模型不确定性来约束政策变化,对捕获不良行为的风险进行更全面的评估,实验结果表明相对于现有的SPI算法,本文提出的方法在有限MDP和具有神经网络函数近似的无限MDP上均有显着提高。
Jul, 2019
该论文研究了部分可观察环境下的强化学习离线策略评估的问题,针对部分可观察的马尔可夫决策过程(POMDPs)建立了离线策略评估的模型,并在新模型下对 POMDPs 进行了更准确的评估并证明了重要性采样等传统方法的局限性。
Sep, 2019
该论文探讨了如何在已知基线策略下,通过在多个奖励信号中进行权衡来改进机器学习模型的安全策略,并提出了一种新的基于安全策略迭代的方法,以保证算法的安全性和性能。
May, 2021
介绍了一个新的算法,它可以在有限的马尔可夫决策过程上提供安全保障,并且在两个基准测试中展现出最佳表现。同时,提出了一个SPI算法的分类法,发现想法限制政策集合的算法更为安全。
Jan, 2022
该论文介绍了一种基于近似多项式时间算法的部分可观测马可夫决策过程无预言学习算法,该算法不是基于传统的探索-利用原则,而是采用几何拓扑中的重心跨度技术构建策略套接,并且通过对状态分布和观测分布的假设来保证合理性。
Jun, 2022
该研究提出了一种解决增强学习自动合成策略的算法,该算法通过解决奖励形状设计和安全策略更新等挑战来实现,同时使用基于模型的RL算法来有效地利用我们收集的数据,并在标准控制基准中展示了其有效性和鲁棒性。
Oct, 2022
通过观察其余状态以有效学习核心状态之间的状态转移规则,针对部分可观测马尔科夫决策过程(POMDP)提出一种面向目标的强化学习方法。 在逐步添加新的核心状态到转换图中的同时,本模型仅包含核心状态,它监督一小部分核心状态以了解动态环境并获得最佳行为策略,这使其具有良好的可解释性。 此外,该方法适用于在线学习,可以抑制内存消耗并提高学习速度。
May, 2023
提出了一种改进强化学习应用中特定问题的方法,可以显著减少样本复杂度,该方法使用隐式变换来推导更紧密的改进边界,透过实例展示该方法在改进SPIBB算法上的功效。