具有时态目标部分有序偏好的概率规划
使用局部有序偏好对具有时限目标的马尔可夫决策过程进行决策和概率规划,将部分有序偏好通过引入顺序理论映射到这些目标的偏好决策,从而综合出最喜欢的策略。
Mar, 2024
本文利用标记的马尔可夫决策过程研究在有多个时间目标的用户偏好下的概率环境中的时间规划。提出了一种新的优先定性选择线性时间逻辑的规范语言,通过对有限的轨迹进行优先排序的连接和有序分离,使得可以简洁地指定每个时间任务的相应优先级。利用该计算模型,提出了一种计算最优策略的问题,该策略以最小化用户偏好的期望不满意度分数为目标。在几个案例研究中,我们演示了该逻辑和算法的有效性和适用性,并对每个案例进行了详细分析。
Apr, 2023
本文研究在随机系统中如何综合具有时间扩展目标的偏好满足规划,并提出了安全和积极改进(SPI)和安全几乎肯定改进(SASI)两种解决方案概念以保证改进,并展示了用于合成 SPI 和 SASI 策略的算法。
Oct, 2022
本文提出一种新颖的优先级概念,可表达对每个任务及其关系的偏好,并通过对 A * 搜索的扩展来生成符合用户偏好和资源优化的帕累托最优计划。同时,通过多目标 A * 算法适应性改进计算所有最优的取舍,并提出一个问题无关搜索启发式以实现可扩展性,在移动机器人和机器人操纵者上展示框架的效力,达到了 2 个数量级的加速。
Jun, 2023
本文研究了针对连续状态空间和未知状态转移动态的拓扑马尔科夫决策过程(TMDPs)的策略梯度定理及其实现,进一步扩展了 TMDPs 在面对多种复杂问题方面的应用,提出了一种针对多目标导航问题的新算法,并在模拟环境和实际机器人上进行了演示。
Sep, 2022
利用参数化信念查询(BSQ)偏好在部分可观测环境中表达用户对代理行为的偏好的新框架,在目标导向的部分可观测马尔可夫决策过程(gPOMDPs)的设定中进行介绍。我们首次对这种偏好进行了形式化分析,并证明 BSQ 偏好的期望值虽然不是关于其参数的凸函数,但具有分段常数特性,并产生一个对于有限时间限制而言有限的离散参数搜索空间。这个理论结果导致了新的算法,可以在优化 gPOMDP 代理行为的同时保证用户偏好的一致性。理论分析证明了我们的算法在极限情况下收敛于最优的偏好一致行为。实证结果表明,在部分可观测环境中,BSQ 偏好为基于偏好的规划提供了一种计算上可行的方法。
May, 2024
本研究提出了一种基于 POMDPs 的任意时间算法,通过在线性时态逻辑(LTL)清单约束条件下最大化满足概率来合成次优随机有限状态控制器(sFSCs),并通过机器人导航案例研究表明了该方法的有效性。
Jan, 2020
此篇论文探讨了在未知、随机环境中,通过建立模型、构造符合某些临时逻辑规则要求的 MDP,并通过 PAC-MDP 的方法,利用数据、空间和时间进行迭代更新,得到了一个在一定条件下接近最优的策略,从而达到在给定规则下最大化概率的目的。
Apr, 2014
针对由马尔可夫决策过程建模的概率系统,考虑在部分已知环境下综合控制策略,环境由一组马尔可夫链建模,其中每个马尔可夫链描述了环境的不同模式,但环境的模式对于系统是未知的。控制目标为最大化系统满足给定规范的期望概率和最大化最坏情况下满足规范的概率。
Mar, 2012