POMCP 中软策略引导的逻辑规范学习

Mar, 2023

POMCP 中软策略引导的逻辑规范学习

Learning Logic Specifications for Soft Policy Guidance in POMCP

Giulio Mazzi, Daniele Meli, Alberto Castellini, Alessandro Farinelli

TL;DR本文介绍了如何使用归纳逻辑编程从 POMCP 执行的跟踪中学习规则并将它们集成到 POMCP 中，以提供对有前途的动作的软性策略偏向，我们在两个基准情景下说明，从小任务实例中学习到的规则的集成可以提高性能，并且需要更少的蒙特卡罗模拟并且处理更大的任务实例。

Abstract

partially observable monte carlo planning (POMCP) is an efficient solver for Partially Observable Markov Decision Processes (pomdps). It allows scaling to large state spaces by computing an approximation of the o

partially observable monte carlo planning pomdps monte carlo tree search inductive logic programming answer set programming

发现论文，激发创造

POMDP 中的策略指导的逻辑规范学习：归纳逻辑编程方法

从 POMDP 执行的痕迹中学习得到高质量的启发式方法，通过转换为逻辑语义并利用数据和时间高效的归纳逻辑编程生成可解释的基于信念的策略规范，以在线方式引导 POMDP 求解器的行动选择过程。使用 Answer Set Programming (ASP) 表达的学习启发式方法展现了性能优于神经网络且与最佳手工设计的任务特定启发式方法相当的特点。

Feb, 2024

在线随机情况规划的展开策略

部分可观察马尔可夫决策过程 (POMDP) 是在部分可观察性和随机行为下进行决策的有用模型。本文将 POMDP 建模为随机条件规划问题，并提出了两种领域独立的启发式算法，一种基于经典规划中著名的 h_add 启发式算法，另一种在信念空间中计算并考虑信息价值。

Oct, 2023

逻辑约束部分可观测多智能体马尔科夫决策过程的最优控制

本文讲述了一种基于特定约束的自主系统与多智能体的优化控制方法，以实现其最大化收益并同时满足时间逻辑约束的概率足够高。

May, 2023

部分可观察马尔可夫决策过程的基于点的模型检验方法

提出了一种在部分可观察的马尔可夫决策过程（POMDP）中实现满足线性时间逻辑公式的策略的方法，该方法使用基于点的价值迭代方法来高效地近似满足所需逻辑公式的最大概率，并计算相应的置信状态策略。证明该方法适用于大型 POMDP 领域，并为最终策略的性能提供了强大的边界。

Jan, 2020

POMDP 中的 Task-Guided IRL

本文提出了一种新算法，用于部分可观测的马尔可夫决策过程中的反向强化学习，可增加数据效率并减少信息不对称，通过融合时间逻辑表达式作为先验信息，使用因果熵而不是熵，防止算法复杂度的通用来源，有效地解决了非凸问题，并在高级 Unity 仿真器中进行了实验，结果表明该算法具有较高的性能。

Dec, 2022

具有随时确定性保证的在线 POMDP 规划

通过简化解决方案与理论上最优解之间的确定性关系，解决了在计算上昂贵的部分可观测马尔可夫决策过程（POMDPs）困难，为自主代理在不完全信息环境下的规划提供了确定性界限。

Oct, 2023

机器人应用中基于时间逻辑规范的 POMDP 定性分析

本文探讨了具有标准框架的 POMDPs，以模拟现实世界中存在的不确定性，以及时间逻辑规范。我们研究了帕里目标下的 POMDP 定性分析问题，该问题在理论上难以计算，但我们提出了解决该问题的实用方法，并在许多机器人应用的已知示例中使用了我们的实现。

Sep, 2014

通过概率动作语言桥接常识推理和概率规划

本研究介绍了一个统一框架来集成先前的 commonsense reasoning and probabilistic planning（icorpp）框架的推理和计划组件，并扩展了概率动作语言 pBC+ 以表达常识知识，避免手动努力。

Jul, 2019

线性规划方法求解约束部分可观测的马尔可夫决策过程

使用 LP 模型结合基于网格的近似方法生成近似策略，研究了解决限制观测 Markov 决策过程的效果。结果表明，LP 模型可有效地生成有限和无限时间段问题的近似策略，同时提供将各种附加约束集成到模型中的灵活性。

Jun, 2022

在时间逻辑约束下的大致近似正确的 MDP 学习与控制

此篇论文探讨了在未知、随机环境中，通过建立模型、构造符合某些临时逻辑规则要求的 MDP，并通过 PAC-MDP 的方法，利用数据、空间和时间进行迭代更新，得到了一个在一定条件下接近最优的策略，从而达到在给定规则下最大化概率的目的。

Apr, 2014