用于计算马尔可夫决策过程近似最优解的模型简化技术
本文提出了两种近似解决因子化马尔可夫决策过程的算法,利用基函数表示近似值函数,其中每个基函数仅涉及一个小的子集,使用类似于变量消除的线性规划分解技术将指数级的 LP 规模缩小到多项式级别。我们的动态规划算法使用 max-norm 近似技术,对于超过 10^40 个状态的问题,我们的算法展示了有希望的可扩展性,并将其与现有的最新技术方法进行了比较,在某些问题上计算时间得到了指数级的提升。
Jun, 2011
本文介绍了一种可对连续和离散变量的大决策问题进行紧凑表示的混合分解 Markov 决策过程(MDP)模型和一种新的混合近似线性规划(HALP)框架,HALP 的核心思想是通过一组基函数的线性组合来近似最优价值函数,并通过线性规划来优化其权重, 并证明其在多种混合优化问题中的可扩展潜力。
Sep, 2011
提出了一种采用采样技术的快速算法来解决折扣马尔可夫决策过程的近似求解,并证明了算法的收敛性和复杂度。同时,结合经典的价值迭代与方差约减技术,改进了该算法的性能,使其具有线性收敛性和渐进最优性。
Oct, 2017
本文研究了基于 Markov 决策过程 (MDP) 环境中的精确建模的高效探索问题,提出一种以加权熵为基础的算法用于解决贪心算法在探索初阶段表现较差的问题,并在简单的具有异构噪音的两个问题上进行了验证。
Mar, 2020
本文提出了利用基于粒子滤波置信转移模型的有限样本粒子置信 MDP 近似解决 POMDP 的方法。在五个基准 POMDP 实验中,与其他领先的连续观察 POMDP 求解器相比,表明这种方法可以实现与其他领先的连续观察 POMDP 求解器竞争力的表现。
Oct, 2022
本文针对局限于有限状态下的马尔可夫决策过程,对于包括折扣和平均成本标准在内的情况进行了研究,获得了近似最优策略,使用预处理步骤将操作空间有限近似,可以使用众所周知的算法计算近似最优政策。
Mar, 2015
提出了一种新方法,即等效效果抽象,该方法利用环境动态的部分模型推断导致相同状态的状态动作对,从而将状态动作空间的大小减少一个等于动作空间基数的因子,以提高采样效率和规划效率。在网格世界环境下,通过实验证明,等效效果抽象可以在模型自由设置和基于模型的方法的规划效率中提高采样效率。此外,通过在车杆环境中进行实验,还表明本方法比现有方法更优秀,在使用 33 倍少的训练数据的情况下实现了更好的表现。
Sep, 2022
我们引入了一种网格型方法来解决具有一般特征的离散时间有限时间马尔科夫决策过程(MDPs),该过程具有一般的状态和动作空间,包括欧几里得空间的有限和无限(但合适地规则的)子集。
Jun, 2024
本文介绍了部分可观测马尔可夫决策过程 (POMDP) 的近似(启发式)方法,研究其性质和关系,并提供一些新见解。该理论结果在代理导航领域的问题上得到了实验支持。
Jun, 2011
本文提出了一种针对状态空间较大的 MDP 问题进行优化的方法,该方法基于一小组策略的占用度量的低维度逼近,并提出了一个有效的算法,可用于在该类策略中找到低过度损失相对于最佳策略的策略。作者限定了平均成本和折扣成本情况下的过量损失,并在队列应用中展示了该方法的有效性。
Jan, 2019