具有时态目标部分有序偏好的概率规划

Sep, 2022

具有时态目标部分有序偏好的概率规划

Probabilistic Planning with Partially Ordered Preferences over Temporal Goals

Hazhar Rahmani, Abhishek N. Kulkarni, Jie Fu

TL;DR本文研究了具有对时间目标的偏好的随机系统规划，并引入了一种特殊类型的有限状态自动机，它被称为 “喜好自动机”。作者将该自动机转化为被用于概率规划的策略偏好，建立了多目标马尔可夫决策过程并证明了其有效性。

Abstract

In this paper, we study planning in stochastic systems, modeled as Markov decision processes (MDPs), with preferences over temporally extended goals. Prior work on temporal planning with →

markov decision processes temporal planning preferences partial order probabilistic planning

发现论文，激发创造

偏好基于规划的随机环境：从部分有序时态目标到最受欢迎的策略

使用局部有序偏好对具有时限目标的马尔可夫决策过程进行决策和概率规划，将部分有序偏好通过引入顺序理论映射到这些目标的偏好决策，从而综合出最喜欢的策略。

Mar, 2024

基于优先级偏好的概率化时态逻辑规划

本文利用标记的马尔可夫决策过程研究在有多个时间目标的用户偏好下的概率环境中的时间规划。提出了一种新的优先定性选择线性时间逻辑的规范语言，通过对有限的轨迹进行优先排序的连接和有序分离，使得可以简洁地指定每个时间任务的相应优先级。利用该计算模型，提出了一种计算最优策略的问题，该策略以最小化用户偏好的期望不满意度分数为目标。在几个案例研究中，我们演示了该逻辑和算法的有效性和适用性，并对每个案例进行了详细分析。

Apr, 2023

在具有不完全可达目标偏好的随机系统中的机会定性规划

本文研究在随机系统中如何综合具有时间扩展目标的偏好满足规划，并提出了安全和积极改进（SPI）和安全几乎肯定改进（SASI）两种解决方案概念以保证改进，并展示了用于合成 SPI 和 SASI 策略的算法。

Oct, 2022

多个时间任务下的最优成本偏好权衡规划

本文提出一种新颖的优先级概念，可表达对每个任务及其关系的偏好，并通过对 A * 搜索的扩展来生成符合用户偏好和资源优化的帕累托最优计划。同时，通过多目标 A * 算法适应性改进计算所有最优的取舍，并提出一个问题无关搜索启发式以实现可扩展性，在移动机器人和机器人操纵者上展示框架的效力，达到了 2 个数量级的加速。

Jun, 2023

带拓扑约束的多目标策略梯度

本文研究了针对连续状态空间和未知状态转移动态的拓扑马尔科夫决策过程（TMDPs）的策略梯度定理及其实现，进一步扩展了 TMDPs 在面对多种复杂问题方面的应用，提出了一种针对多目标导航问题的新算法，并在模拟环境和实际机器人上进行了演示。

Sep, 2022

逻辑约束部分可观测多智能体马尔科夫决策过程的最优控制

本文讲述了一种基于特定约束的自主系统与多智能体的优化控制方法，以实现其最大化收益并同时满足时间逻辑约束的概率足够高。

May, 2023

基于部分可观测性的偏好规划的信念状态查询策略

利用参数化信念查询（BSQ）偏好在部分可观测环境中表达用户对代理行为的偏好的新框架，在目标导向的部分可观测马尔可夫决策过程（gPOMDPs）的设定中进行介绍。我们首次对这种偏好进行了形式化分析，并证明 BSQ 偏好的期望值虽然不是关于其参数的凸函数，但具有分段常数特性，并产生一个对于有限时间限制而言有限的离散参数搜索空间。这个理论结果导致了新的算法，可以在优化 gPOMDP 代理行为的同时保证用户偏好的一致性。理论分析证明了我们的算法在极限情况下收敛于最优的偏好一致行为。实证结果表明，在部分可观测环境中，BSQ 偏好为基于偏好的规划提供了一种计算上可行的方法。

May, 2024

带有线性时态逻辑规约的 POMDPs 的随机有限状态控制

本研究提出了一种基于 POMDPs 的任意时间算法，通过在线性时态逻辑（LTL）清单约束条件下最大化满足概率来合成次优随机有限状态控制器（sFSCs），并通过机器人导航案例研究表明了该方法的有效性。

Jan, 2020

在时间逻辑约束下的大致近似正确的 MDP 学习与控制

此篇论文探讨了在未知、随机环境中，通过建立模型、构造符合某些临时逻辑规则要求的 MDP，并通过 PAC-MDP 的方法，利用数据、空间和时间进行迭代更新，得到了一个在一定条件下接近最优的策略，从而达到在给定规则下最大化概率的目的。

Apr, 2014

动态、部分已知环境下的概率系统控制与时间逻辑规格

针对由马尔可夫决策过程建模的概率系统，考虑在部分已知环境下综合控制策略，环境由一组马尔可夫链建模，其中每个马尔可夫链描述了环境的不同模式，但环境的模式对于系统是未知的。控制目标为最大化系统满足给定规范的期望概率和最大化最坏情况下满足规范的概率。

Mar, 2012