学习 POMDP 策略的可解释且性能更好的表示

Jan, 2024

学习 POMDP 策略的可解释且性能更好的表示

Learning Explainable and Better Performing Representations of POMDP Strategies

Alexander Bork, Debraj Chakraborty, Kush Grover, Jan Kretinsky, Stefanie Mohr

TL;DR部分可观察马尔科夫决策过程（POMDP）的策略通常需要记忆，本文介绍了一种使用 L*- 算法学习策略的自动机表示的方法，相比于策略的表格表示，生成的自动机规模更小、更易解释，同时在学习过程中，我们的启发式方法甚至可以改善策略的性能，相较于直接从 POMDP 综合出自动机以解决问题的方法，我们的方法具有更高的可扩展性。

Abstract

Strategies for partially observable markov decision processes (POMDP) typically require memory. One way to represent this memory is via

partially observable markov decision processes memory automata l*-algorithm strategy

发现论文，激发创造

通过同态 POMDP 诱导个体学生的学习策略

基于多种认知模式构建同态 POMDP 模型，提高个性化学习策略的精确性。

Mar, 2024

POMDP 中的策略指导的逻辑规范学习：归纳逻辑编程方法

从 POMDP 执行的痕迹中学习得到高质量的启发式方法，通过转换为逻辑语义并利用数据和时间高效的归纳逻辑编程生成可解释的基于信念的策略规范，以在线方式引导 POMDP 求解器的行动选择过程。使用 Answer Set Programming (ASP) 表达的学习启发式方法展现了性能优于神经网络且与最佳手工设计的任务特定启发式方法相当的特点。

Feb, 2024

具有随时确定性保证的在线 POMDP 规划

通过简化解决方案与理论上最优解之间的确定性关系，解决了在计算上昂贵的部分可观测马尔可夫决策过程（POMDPs）困难，为自主代理在不完全信息环境下的规划提供了确定性界限。

Oct, 2023

低秩 POMDP 中可证明高效且具可行性的表示学习

本文研究部分可观测马尔可夫决策过程的表示学习，其中智能体学习将高维原始观察映射到紧凑表示并用于更高效的探索和规划，并提出一种基于最大似然估计和不确定性乐观算法的表示学习算法，从而在计算复杂度上获得高效的采样复杂度。

Jun, 2023

基于记忆的深度强化学习在 POMDPs 中的应用

本文介绍了一种基于 LSTM-TD3 的方法，该方法引入了记忆组件以应对部分可观察 MDPs，相比其他 DRL 算法，在具有部分可观察 MDPs 的情况下，该方法具有显著的优势，包括处理丢失和噪声观察数据的能力。

Feb, 2021

POMDPs 和可解释的代理的端到端策略梯度方法

一个 RL 算法，可以通过端到端训练来估算隐藏状态，并将估算可视化为状态转换图。实验结果表明，该算法可以解决简单的 POMDP 问题，并使代理行为可解释给人类。

Apr, 2023

部分可观察马尔可夫决策过程的值函数逼近

本文介绍了部分可观测马尔可夫决策过程 (POMDP) 的近似（启发式）方法，研究其性质和关系，并提供一些新见解。该理论结果在代理导航领域的问题上得到了实验支持。

Jun, 2011

部分可观测环境下自主智能体复杂任务的无模型运动规划

该研究使用无模型强化学习方法解决了部分已知环境下自主智能体的运动规划问题，提出了一种基于线性时态逻辑和 Markov 决策过程的方法，并应用于无人机的实际控制中。

Apr, 2023

可观测 POMDP 中的学习，无需计算难以处理的预言机

该论文介绍了一种基于近似多项式时间算法的部分可观测马可夫决策过程无预言学习算法，该算法不是基于传统的探索 - 利用原则，而是采用几何拓扑中的重心跨度技术构建策略套接，并且通过对状态分布和观测分布的假设来保证合理性。

Jun, 2022

POMDP 数据高效模型学习的变分推断

本研究提出 DELIP 作为 POMDP 模型学习的方法，利用摊销结构化变分推理，模型结合最先进的规划器能够在不确定性环境下获得有效的控制策略。

May, 2018