面向目标的 MDP 模型中的死路理论
本文通过分析满足特定漂移条件的随机最短路径问题的子类,引入降低可达性的概念,提出了一种构建并求解随机最短路径问题和马尔可夫决策过程的多项式时间算法,经实验验证效果良好。
May, 2022
本研究针对马尔科夫决策过程中随机最短路径问题提出了一种基于条件风险价值优化的风险感知控制方法,并通过线性规划和价值迭代两种算法实现了精确而可靠的解决方案。实验结果表明该方法在多个中等规模的问题实例上是可行的。
Mar, 2022
本研究提出了一种基于代数决策图来表示价值函数和策略的 Markov 决策过程的值迭代算法,并将其应用于波西网络和 ADDs 表示的大规模 MDPs 中,相较于树形结构表示方式大幅降低了节点数量。
Jan, 2013
本文研究了离线情况下有限状态和动作空间下的目标导向强化学习,提出基于简单值迭代的算法来解决离线策略评估和学习任务,并分析了这些算法的强实例相关界限。
Jun, 2022
在随机控制的领域中,尤其是在经济学和工程学中,马尔可夫决策过程(MDPs)能够有效地建模各种随机决策过程,从资产管理到运输优化。本文定义了一个 MDP 框架,SD-MDP,通过解开 MDPs 的转移和奖励动态的因果结构,提供了时间因果图上的不同分区。通过将这个估计器集成到著名的蒙特卡洛规划算法中,如蒙特卡洛树搜索(MCTS),我们还得出了算法的简单遗憾界限。最后,我们通过在基于海上加油的实际经济示例中展示 MCTS 规划算法在 SD-MDP 框架下取得更高预期奖励(更低成本)的政策改进。
Jun, 2024
介绍了一种新的方法,确切高效地解决了具有稀疏奖励来源的确定性连续 MDP 问题,可以提高在机器人和无人系统等领域的应用价值,减少计算复杂度。
May, 2018
利用规划和运筹学的新框架,解决了随机最短路径问题中冗余计算的问题,提出了一种有效的约束生成技术,应用到了新算法 CG-iLAO*,实验证明 CG-iLAO * 相较于 LRTDP 和 iLAO * 在解决问题时速度提高了 8 倍和 3 倍,并忽略了 iLAO * 的多达 57% 的动作。
Jan, 2024
本研究中,我们针对没有固定假设的广义 SSP 问题,提出了第一个无悔算法 UC-SSP,并且证明了它在任意未知 SSP 上的后悔上界,该后悔上界与状态数 S、动作数 A、代价和 SSP 直径 D 有关,同时引入了一套新的停止规则,用以中断当前策略并切换到新的策略以提高效率。
Dec, 2019
本文旨在解决随机最短路径问题中的学习问题,并设计了一种名为 EB-SSP 的基于模型的算法。该算法通过探索奖励来诱导一个乐观的 SSP 问题,其值迭代方案已被证明会收敛,并获得与下限之间的效果。同时,该算法在不使用任何先前知识的情况下获得最小化后悔率,并在如正成本或一般成本等各种情况下均有所改善。
Apr, 2021