针对 POMDP 的模仿学习中的信仰表征学习

Jun, 2019

针对 POMDP 的模仿学习中的信仰表征学习

Learning Belief Representations for Imitation Learning in POMDPs

Tanmay Gangwani, Joel Lehman, Qiang Liu, Jian Peng

TL;DR该研究使用生成对抗（GAN）深度神经网络引导非马尔可夫策略策略的置信度表示，在一定程度上解决了部分可观察马尔可夫决策过程（POMDP）中的模仿学习问题。

Abstract

We consider the problem of imitation learning from expert demonstrations in partially observable markov decision processes (POMDPs). Belief representations, which characterize the distribution over the latent sta

imitation learning partially observable markov decision processes belief representations generative adversarial imitation learning task-aware imitation loss

发现论文，激发创造

通过双层优化实现模仿学习的可证明表示学习

本文研究了在马尔可夫决策过程中多项专家经验和仿真学习设置下的表征学习，并将其实例化到行为克隆和仅观测的仿真学习设置中。理论上，我们展示了在两种设置下，表征学习可以为仿真学习提供样本复杂性优势，并提供了具体实验来验证我们的理论。

Feb, 2020

Wasserstein 信仰者：通过可靠潜在空间模型学习部分可观测环境的信仰更新

本文提出了 Wasserstein-Belief-Updater (WBU)，一种强化学习算法，它学习 POMDP 的潜在模型和信仰更新的近似，并具有理论保证，确保输出的信仰可以学习最优值函数。

Mar, 2023

利用领域知识提高 POMDP 信念估计

使用 Jeffrey 的规则和标准化，将领域专业知识整合到部分可观察马尔科夫决策过程中概率信念更新的新方法，表明领域知识可以减少数据需求，提高使用强化学习的 POMDP 策略学习的性能。

Feb, 2023

POMDP 中的 Task-Guided IRL

本文提出了一种新算法，用于部分可观测的马尔可夫决策过程中的反向强化学习，可增加数据效率并减少信息不对称，通过融合时间逻辑表达式作为先验信息，使用因果熵而不是熵，防止算法复杂度的通用来源，有效地解决了非凸问题，并在高级 Unity 仿真器中进行了实验，结果表明该算法具有较高的性能。

Dec, 2022

神经预测信念表示

本文探讨了使用现代神经网络结构学习信念表示的可能性，并使用一步帧预测和两个变体的对比预测编码作为目标函数来学习表示。我们发现，神经表示能够捕获到环境的信念信息，这有潜力在部分可观测领域中促进学习和规划的新进展。

Nov, 2018

对有限记忆 POMDP 的表示学习进行多步逆模型的泛化

学习代理中心状态表示的关键挑战在于在强化学习算法扩展和高效应用于下游任务时，仅对相关信息进行编码而舍弃无关信息。该研究考虑在更具挑战性的高维非马尔可夫环境中，从过去观察序列中译码状态的发现代理中心状态问题，并通过适应广义逆模型来解决此任务。研究结果包括确定性动力学环境下的渐近理论以及对替代直观算法的反例。我们通过对所提出的不同替代方案的代理中心状态发现能力进行了彻底的实证研究，其中对过去行动的分析尤为引人注目：我们表明，当正确使用时，过去行动可以使算法更加成功，而错误使用时则会导致严重的失败。

Apr, 2024

POMDP 数据高效模型学习的变分推断

本研究提出 DELIP 作为 POMDP 模型学习的方法，利用摊销结构化变分推理，模型结合最先进的规划器能够在不确定性环境下获得有效的控制策略。

May, 2018

POMDP 中的策略指导的逻辑规范学习：归纳逻辑编程方法

从 POMDP 执行的痕迹中学习得到高质量的启发式方法，通过转换为逻辑语义并利用数据和时间高效的归纳逻辑编程生成可解释的基于信念的策略规范，以在线方式引导 POMDP 求解器的行动选择过程。使用 Answer Set Programming (ASP) 表达的学习启发式方法展现了性能优于神经网络且与最佳手工设计的任务特定启发式方法相当的特点。

Feb, 2024

学习部分可观测环境的因果状态表示

本文提出了一种基于循环神经网络（RNN）的近似因果状态算法，该方法学习从 POMDP 中的历史动作和观察预测未来观察情况的因果状态表示。实验证明，所学习的状态表示可用于有效学习具有丰富观察空间的强化学习问题，并与之前的方法进行比较。

Jun, 2019

基于机器人的 POMDP 的贝叶斯强化学习

该论文提出了一个面向物理系统的专门框架，利用 Bayesian reinforcement learning（BRL）和专家知识对机器人的学习进行优化，实现了在人机交互任务中的快速学习和处理环境中的不确定性。

Jul, 2023