本研究提出了一种基于代数决策图来表示价值函数和策略的 Markov 决策过程的值迭代算法,并将其应用于波西网络和 ADDs 表示的大规模 MDPs 中,相较于树形结构表示方式大幅降低了节点数量。
Jan, 2013
本文研究可决策的关系领域中采用广义一阶决策图(GFODD)的启发式推理算法,在假设预期模型的大小为已知时,证明 GFODD 的计算问题可在多项式函数层次内解决。
Jul, 2014
引入一种新型的 omega-regular 决策过程 (ODPs),通过将其规约为有限 MDPs 上的字典序优化和学习,实现了对 ODPs 的优化和学习。
Dec, 2023
通过训练一组共享参数的 SymNet 模型,将 RDDL 的关系建模与神经网络结合,达到单次前向传播即可获得包括实例无关的策略和值函数在内的更加复杂的泛化策略,优于随机和现有策略,适用于九个 IPP C 领域。
Feb, 2020
本文介绍了一种符号规划算法,该算法是面向以对象为中心、独立的外部事件和捕捉库存控制等问题的服务域的,该算法具有明确的关于外部事件的关系 MDP 的性能保证,在某些技术条件下,我们的规划算法提供了关于最优值函数的单调下界。为了支持这种算法,我们使用广义一阶决策图作为知识表示,提出了新颖的评估和约简技术。我们的规划算法使用一组焦点状态,这组状态作为一个训练集,简化和近似符号解,并且可以被视为执行规划的学习。一项初步的实验评估证明了这种方法的有效性。
Jun, 2013
通过使用第一阶表示中的紧凑策略来选择大型马尔可夫决策过程的策略,我们通过训练数据来诱导第一阶策略,使用具有分类概念语言的决策列表的合集来表示我们的策略,我们发现此方法在概率领域中具有优越的效果,并讨论了此方法在关系加固学习问题上的应用。
Dec, 2012
研究如何解决具有不确定转移内核的折现,有限状态,有限行动空间 MDP 的强鲁棒性问题,旨在寻找一个抵抗传递不确定性的最佳策略。与标准 MDP 规划相比,本文提出了一个名为 RPMD 的策略型一阶方法,并对于两种递增步长的情形,建立了寻找 ε- 最优策略的 O (log (1/ε)) 和 O (1/ε) 迭代复杂度。本文还提出了一种名为 SRPMD 的随机变量。
Sep, 2022
本文提出了一种基于线性规划的解决方法,通过将价值函数在一组一阶基函数的线性表示中计算适当的权值,解决了一阶马尔科夫决策过程中与特定领域实例无关的解决方案。并将该解决方法应用于电梯调度方面,具有丰富的特征空间和多标准加性奖励,证明了其优于许多直观、启发式指导政策。
Jul, 2012
本文介绍了一种鲁棒的任意学习方法,该方法结合了贝叶斯推断模型和计算稳健策略的方法,以不确定性马尔科夫决策过程(uMDPs)为基础,并通过实验验证了该方法的有效性。
May, 2022
本文研究了在 FMDP 中使用最小最大算法的强化学习,提出了两种基于模型的算法,并通过结构相关的阈值证明了其保证。
Jun, 2020