间歇可观察的马尔科夫决策过程
该研究提出了一种基于贝叶斯思想和汤普森抽样的算法来解决优化数量可数的马尔可夫决策过程的控制问题,在未知参数和固定先验分布的情况下,能够稳定地获得近似最优解,适用于诸如通信网络和计算系统等不确定动力系统以及一些数量可数的排队模型。
Jun, 2023
本文介绍了一种鲁棒的任意学习方法,该方法结合了贝叶斯推断模型和计算稳健策略的方法,以不确定性马尔科夫决策过程(uMDPs)为基础,并通过实验验证了该方法的有效性。
May, 2022
通过建模不确定性来解决马尔可夫决策过程(MDPs)中一类特定的嘈杂状态观测问题,提出了两种新的算法方法,一种是用于有限时间窗口内有效噪声估计的二阶重复动作方法,另一种是一组贝叶斯算法,通过模拟实验证实了这些方法在不同场景下尤其在具有不同稳定分布的环境中的有效性。
Dec, 2023
本文提出了一种名为增量马尔可夫决策过程(iMDP)的算法,该算法基于最近在确定性路径规划的马尔可夫链逼近方法和基于采样的算法的进展,用于计算一类连续时间、连续空间随机最优控制问题的最优控制策略,该算法通过状态空间的随机采样生成原问题的有限离散化序列,并且在计算过程中,能够以随时随地的方式更新控制策略。
Feb, 2012
本文研究了在部分观测状态的不确定系统中的离散决策问题,并通过开发信息状态和近似信息状态的概念,提出了一个可行的决策框架。我们使用这一概念定义了近似动态规划,通过输出数据进行学习,以达到有界性能的策略,最后提供了数值实验来说明这一结果在控制和强化学习中的应用。
Jan, 2023
本文提出简单算法来解决在短期内实现理论驱动的探索方法和实际需求之间的纠葛,并通过理论分析和数字示例展示所提出的放宽条件的好处,同时维持任何时候的误差边界和平均损失边界,并且适用于贝叶斯和非贝叶斯方法。
Apr, 2016
本文介绍了部分可观测马尔可夫决策过程 (POMDP) 的近似(启发式)方法,研究其性质和关系,并提供一些新见解。该理论结果在代理导航领域的问题上得到了实验支持。
Jun, 2011
本研究在部分可观察马尔可夫决策过程 (POMDPs) 的基础上,将代理模型纳入到状态空间中,使其扩展到了多智能体的情景下。代理人通过贝叶斯更新来维护对物理环境状态和其他代理模型的信念,并使用基于置信状态的映射来求得最优方案。虽然我们的方法中代理人的模型不可直接被操纵或观察,但我们证明了 POMDPs 的重要特性如收敛率、价值函数的分段线性和凸性等在我们的框架下仍然成立。
Sep, 2011
在随机控制的领域中,尤其是在经济学和工程学中,马尔可夫决策过程(MDPs)能够有效地建模各种随机决策过程,从资产管理到运输优化。本文定义了一个 MDP 框架,SD-MDP,通过解开 MDPs 的转移和奖励动态的因果结构,提供了时间因果图上的不同分区。通过将这个估计器集成到著名的蒙特卡洛规划算法中,如蒙特卡洛树搜索(MCTS),我们还得出了算法的简单遗憾界限。最后,我们通过在基于海上加油的实际经济示例中展示 MCTS 规划算法在 SD-MDP 框架下取得更高预期奖励(更低成本)的政策改进。
Jun, 2024
论文提出了一种基于动态规划算法框架的近似方法,针对具有快慢结构的无穷状态空间的马尔可夫决策过程,其中 “冻结” 慢状态,通过解决一组简单的有限时段 MDP 以及在一个慢时间尺度(上层 MDP)上进行价值迭代的辅助 MDP 等步骤,生成有效策略,以更少的计算代价实现了决策建模中遗漏慢状态的可行性。
Jan, 2023