基于模型的强化学习中的信息 POMDP：利用额外信息

Jun, 2023

基于模型的强化学习中的信息 POMDP：利用额外信息

Informed POMDP: Leveraging Additional Information in Model-Based RL

Gaspard Lambrechts, Adrien Bolland, Damien Ernst

TL;DR本文使用 POMDP 进行交互学习，并引入了信息学习的范例，提出了学习充分统计来实现最优控制的目标，并通过新提出的环境模型进行学习，最后在 Dreamer 算法中证明了这种方法的有效性和简单性，建议在模型为基础的 RL 的学习中系统考虑未来的附加信息

Abstract

In this work, we generalize the problem of learning through interaction in a pomdp by accounting for eventual additional information available at training time. First, we introduce the informed pomdp, a new learn

pomdp informed learning paradigm optimal control environment model model-based rl

发现论文，激发创造

POMDP 中的 Task-Guided IRL

本文提出了一种新算法，用于部分可观测的马尔可夫决策过程中的反向强化学习，可增加数据效率并减少信息不对称，通过融合时间逻辑表达式作为先验信息，使用因果熵而不是熵，防止算法复杂度的通用来源，有效地解决了非凸问题，并在高级 Unity 仿真器中进行了实验，结果表明该算法具有较高的性能。

Dec, 2022

基于深度强化学习的 POMDP 推断和鲁棒解决方案：铁路最优维护应用

本文提出一个结合推断和强化学习的框架，通过深度强化学习对 POMDP 问题进行鲁棒解决。通过 Markov Chain Monte Carlo 抽样来联合推断出所有的转换和观察模型参数，并将参数分布通过域随机化融入到模型不确定性的解决中，解决该方法适用于铁路资产维护规划等实际问题。

Jul, 2023

基于目标的冗余观测环境推断

通过观察其余状态以有效学习核心状态之间的状态转移规则，针对部分可观测马尔科夫决策过程 (POMDP) 提出一种面向目标的强化学习方法。在逐步添加新的核心状态到转换图中的同时，本模型仅包含核心状态，它监督一小部分核心状态以了解动态环境并获得最佳行为策略，这使其具有良好的可解释性。此外，该方法适用于在线学习，可以抑制内存消耗并提高学习速度。

May, 2023

多观测视角下的样本高效学习 POMDPs

该研究针对学习中的部分可观察马尔可夫决策过程的样本效率进行了研究，并提出了一种增强的反馈模型，可在后见中收集多个额外观察量来实现样本高效学习。该模型适用于两个新的 POMDP 子类：多观察揭示 POMDP 和可区分 POMDP，同时这两个子类也放宽了传统的揭示 POMDP 的要求。

Jul, 2023

利用领域知识提高 POMDP 信念估计

使用 Jeffrey 的规则和标准化，将领域专业知识整合到部分可观察马尔科夫决策过程中概率信念更新的新方法，表明领域知识可以减少数据需求，提高使用强化学习的 POMDP 策略学习的性能。

Feb, 2023

强化学习中泛化的困难之处：认知 POMDP 和隐式部分可观测性

本文研究了强化学习系统在现实世界中部署的中心挑战 —— 泛化，并展示了强化学习问题的时序结构需要新的泛化方法，同时介绍了一种新的部分可观察马尔可夫决策过程（POMDP）解决方案 —— 认知 POMDP，通过简单的基于集成的技术解决了部分可观测性问题，证明了所提出的算法对 Procgen 基准套件的表现相比现有方法有显著提高。

Jul, 2021

POMDP 数据高效模型学习的变分推断

本研究提出 DELIP 作为 POMDP 模型学习的方法，利用摊销结构化变分推理，模型结合最先进的规划器能够在不确定性环境下获得有效的控制策略。

May, 2018

具有后见可观性的 POMDP 学习具有高效样本利用率

本文针对传统 POMDP 学习在简单环境下的效率问题，提出了一种新的算法 HOMDP，并在考虑了过去的观测维度后有效地降低了算法的计算复杂度。

Jan, 2023

基于前向仿真的机器人探索规划

本研究针对部分已知环境探索问题，以信息论目标函数为目标，将其视为部分可观察马尔可夫决策过程 (POMDP)，并通过 open-loop 逼近算法求解。提出了新的互信息采样逼近方法用于移动机器人，结果显示 POMDP 探索算法在某些情况下可以提高性能。

Feb, 2015

部分观测环境下模型参数的学徒学习

通过推断专家演示背后的行动选择过程，学习具有一定不确定性的部分可观测环境中的任务，可以更准确地估计 POMDP 参数并从短暂演示中获得更好的策略，与仅从环境反应学习的方法相比更为有效。

Jun, 2012