部分观测环境下模型参数的学徒学习

ICMLJun, 2012

部分观测环境下模型参数的学徒学习

Apprenticeship Learning for Model Parameters of Partially Observable Environments

Takaki Makino, Johane Takeuchi

TL;DR通过推断专家演示背后的行动选择过程，学习具有一定不确定性的部分可观测环境中的任务，可以更准确地估计 POMDP 参数并从短暂演示中获得更好的策略，与仅从环境反应学习的方法相比更为有效。

Abstract

We consider apprenticeship learning, i.e., having an agent learn a task by observing an expert demonstrating the task in a partially observable environment when the model of the environment is uncertain. This setting is useful in applications where the explicit modeling of the environm

apprenticeship learning partially observable environment model inference pomdp parameters action selection process

发现论文，激发创造

由学习的环境模型指导的部分可观测性下的强化学习

本文提出了一种基于 Q-learning 和 IoAlergia 的强化学习方法，用于处理部分可观察环境下的控制系统策略生成，将 RL 与学习环境模型相结合以提供抽象的环境状态获取。实验结果表明，该方法在性能表现上优于六种当下的深度 RL 技术。

Jun, 2022

无模型模仿学习与策略优化

在模仿学习中，我们使用基于样本的方法开发了一种基于策略梯度的算法，即通过学习专家的样本轨迹，找到至少与专家策略一样好的参数化随机策略；该算法可以应用于高维度环境，并保证收敛到局部最小值。

May, 2016

POMDP 中的强健非对称学习

通过使用奖励最大化目标，我们提出了一种高效算法 A2D，共同训练专家和智能体，以帮助智能体模仿一个安全的专家策略，从而优于模仿固定专家所学习的策略。

Dec, 2020

学习部分可观察的确定性动作模型

研究了如何在动态部分可观测领域中识别确定性动作效果和先决条件，并提出了可行的算法来解决这个问题。

Jan, 2014

可观测 POMDP 中的学习，无需计算难以处理的预言机

该论文介绍了一种基于近似多项式时间算法的部分可观测马可夫决策过程无预言学习算法，该算法不是基于传统的探索 - 利用原则，而是采用几何拓扑中的重心跨度技术构建策略套接，并且通过对状态分布和观测分布的假设来保证合理性。

Jun, 2022

部分可观测环境中的离线策略评估

该论文研究了部分可观察环境下的强化学习离线策略评估的问题，针对部分可观察的马尔可夫决策过程（POMDPs）建立了离线策略评估的模型，并在新模型下对 POMDPs 进行了更准确的评估并证明了重要性采样等传统方法的局限性。

Sep, 2019

基于模型的强化学习中的信息 POMDP：利用额外信息

本文使用 POMDP 进行交互学习，并引入了信息学习的范例，提出了学习充分统计来实现最优控制的目标，并通过新提出的环境模型进行学习，最后在 Dreamer 算法中证明了这种方法的有效性和简单性，建议在模型为基础的 RL 的学习中系统考虑未来的附加信息

Jun, 2023

强化学习中泛化的困难之处：认知 POMDP 和隐式部分可观测性

本文研究了强化学习系统在现实世界中部署的中心挑战 —— 泛化，并展示了强化学习问题的时序结构需要新的泛化方法，同时介绍了一种新的部分可观察马尔可夫决策过程（POMDP）解决方案 —— 认知 POMDP，通过简单的基于集成的技术解决了部分可观测性问题，证明了所提出的算法对 Procgen 基准套件的表现相比现有方法有显著提高。

Jul, 2021

基于深度强化学习的 POMDP 推断和鲁棒解决方案：铁路最优维护应用

本文提出一个结合推断和强化学习的框架，通过深度强化学习对 POMDP 问题进行鲁棒解决。通过 Markov Chain Monte Carlo 抽样来联合推断出所有的转换和观察模型参数，并将参数分布通过域随机化融入到模型不确定性的解决中，解决该方法适用于铁路资产维护规划等实际问题。

Jul, 2023

部分可观察的强化学习何时不可怕？

该论文介绍了应用于部分可观测的情况下的强化学习模型，探讨了在一些特殊情况下该模型的使用，提出了一种通过乐观估计与极大似然估计相结合的简单算法，能够保证在这些特殊情况下有多项式样本复杂度可行的方法。

Apr, 2022