我们研究了基于关系型马尔可夫决策过程的最优泛化策略计算问题,提出了一种结合归纳技术和符号动态规划方法的方法,以自动生成与问题领域相关的假设语言作为归纳求解器的输入来回避复杂的符号动态规划推理。
Jul, 2012
研究如何解决具有不确定转移内核的折现,有限状态,有限行动空间 MDP 的强鲁棒性问题,旨在寻找一个抵抗传递不确定性的最佳策略。与标准 MDP 规划相比,本文提出了一个名为 RPMD 的策略型一阶方法,并对于两种递增步长的情形,建立了寻找 ε- 最优策略的 O (log (1/ε)) 和 O (1/ε) 迭代复杂度。本文还提出了一种名为 SRPMD 的随机变量。
Sep, 2022
本文提出了一种基于线性规划的解决方法,通过将价值函数在一组一阶基函数的线性表示中计算适当的权值,解决了一阶马尔科夫决策过程中与特定领域实例无关的解决方案。并将该解决方法应用于电梯调度方面,具有丰富的特征空间和多标准加性奖励,证明了其优于许多直观、启发式指导政策。
本文研究了针对连续状态空间和未知状态转移动态的拓扑马尔科夫决策过程(TMDPs)的策略梯度定理及其实现,进一步扩展了 TMDPs 在面对多种复杂问题方面的应用,提出了一种针对多目标导航问题的新算法,并在模拟环境和实际机器人上进行了演示。
使用局部有序偏好对具有时限目标的马尔可夫决策过程进行决策和概率规划,将部分有序偏好通过引入顺序理论映射到这些目标的偏好决策,从而综合出最喜欢的策略。
Mar, 2024
线性马尔科夫决策过程(MDP)中的特征选择和零稀疏线性 MDP,以及通过凸规划有效计算的模拟器、低深度决策树上的区块 MDP 的学习算法。
Sep, 2023
研究证明,使用新的紧凑表示 ——FODD,可以解决 RMDPs,通过 FODDs 操作开发价值迭代算法,并证明该算法完全收敛且具有独立于领域大小或实例化的最佳策略。
Oct, 2011
本研究提出了利用对比估计自动保证规范化的线性马尔可夫决策过程(MDPs)的可行性,实现了优秀的理论保证和实证性能,并引入了信心调整指数算法,实现了在面对不确定性时的高效和本质的乐观(或悲观)策略。
Jul, 2022
本研究提出了一种基于代数决策图来表示价值函数和策略的 Markov 决策过程的值迭代算法,并将其应用于波西网络和 ADDs 表示的大规模 MDPs 中,相较于树形结构表示方式大幅降低了节点数量。
Jan, 2013
我们采用政策优化观点对具有 s - 矩形不确定性集的鲁棒马尔可夫决策过程进行政策评估。所开发的方法被称为一阶政策评估(FRPE),为确定性(离线)和随机(在线)设置下的鲁棒政策评估提供了第一种统一框架,无论是表格表示还是通用函数逼近。具体而言,我们在确定性设置中建立了线性收敛性,并在随机设置中具有 O (1/ε^2) 的抽样复杂度。FRPE 还自然地推广到具有 (s, a)- 矩形不确定性集的鲁棒状态 - 动作值函数的评估。我们讨论了将所开发结果应用于大规模鲁棒 MDP 的随机政策优化。
Jul, 2023