本研究考虑了有限状态和动作空间的无穷时部分观察到的马尔可夫决策问题中,根据折扣或平均收益准则找到最佳的无记忆随机策略并描述了优化问题作为可行状态 - 动作频率空间中的线性优化问题并使用了多项式优化的最大化奖励来解决导航问题。
Oct, 2021
该研究旨在设计面向具有动态一致风险目标和约束的马尔可夫决策过程的策略。作者提出了一个基于优化的方法来综合最小化受约束的风险 - 厌恶问题的可行马尔可夫策略,并通过数值实验验证了该方法的有效性。
Dec, 2020
本研究旨在解决部分可观测的马尔科夫决策过程中最大化期望奖励的问题,将其转化为线性规划问题,并研究了用于减少搜索空间的有限随机性的最优无记忆策略的几何框架,进而通过实验说明了该方法有助于更好更快地收敛到策略梯度。
Mar, 2015
本研究提出了一种基于 MDPs 的风险受限规划算法,它将 UCT-like 搜索与通过线性规划实现的风险受限动作选择相结合,以最大化在低于所需阈值的情况下遇到故障状态的预期贴现总和回报。
Feb, 2020
本文研究了带安全可达性目标的部分可观测马尔可夫决策过程(POMDPs),提出了一种基于目标约束信念空间和符号约束的方法来合成能实现安全可达性目标的策略,并通过实验结果表明,该方法能够在大量信念空间中高效地搜索有效策略。
Jan, 2018
本文研究部分可观察马尔可夫决策过程(POMDPs)的解决方案,探讨如何从有限状态自动机的限制集合中找到最佳策略,进而展示了通过分支定界法和梯度上升法寻找全局最优确定性策略和局部最优随机策略的优越实验结果。
Jan, 2013
通过简化解决方案与理论上最优解之间的确定性关系,解决了在计算上昂贵的部分可观测马尔可夫决策过程(POMDPs)困难,为自主代理在不完全信息环境下的规划提供了确定性界限。
Oct, 2023
该研究提出了一种基于贝叶斯思想和汤普森抽样的算法来解决优化数量可数的马尔可夫决策过程的控制问题,在未知参数和固定先验分布的情况下,能够稳定地获得近似最优解,适用于诸如通信网络和计算系统等不确定动力系统以及一些数量可数的排队模型。
Jun, 2023
本研究针对部分可观察领域的连续 POMDP 问题,提出了一种新的风险厌恶且基于信念的概率限制解决方案,并给出了对应的算法。通过对信念相关的奖励和约束算子的处理,本文提出的方法在满足相同约束条件下,比现有技术更加风险厌恶、更加灵活。实验结果表明,该方法在解决连续 POMDP 问题中具有显著的优势。
Sep, 2022
本研究提出了一种基于 POMDPs 的任意时间算法,通过在线性时态逻辑(LTL)清单约束条件下最大化满足概率来合成次优随机有限状态控制器(sFSCs),并通过机器人导航案例研究表明了该方法的有效性。
Jan, 2020