本文提出了一种针对状态空间较大的 MDP 问题进行优化的方法,该方法基于一小组策略的占用度量的低维度逼近,并提出了一个有效的算法,可用于在该类策略中找到低过度损失相对于最佳策略的策略。作者限定了平均成本和折扣成本情况下的过量损失,并在队列应用中展示了该方法的有效性。
Jan, 2019
提出一种新的随机线性规划算法,利用价值 - 策略对偶和二叉树数据结构,自适应地采样状态 - 动作 - 状态转移,并进行指数原始 - 对偶更新,从而以几乎线性的运行时间在最坏情况下找到一个 ε- 最优策略。当马尔可夫决策过程是遍历的并且以某些特殊的数据格式指定时,该算法使用线性的运行时间,在状态 - 动作对的总数中是次线性的,为解决随机动态规划问题提供了新的途径和复杂性基准。
Apr, 2017
本文着重于线性马尔可夫决策过程(MDP)问题中的低转换成本,并提出了第一个具有低转换成本的线性 MDP 算法,同时通过低转换成本较小而达到了大体积的泛化。
Jan, 2021
本文提出了一种基于采样的原始 - 对偶算法来解决带约束的马尔科夫决策过程,通过应用正则化策略迭代来改善策略,应用次梯度上升来保持约束。在弱耦合结构的情况下,通过嵌入式分解方法,能够显著减少问题的维度。将算法应用于多产品库存管理和多类队列调度,并表明它产生优于现有启发式算法的控制。
我们提出了适用于合作多智能体有限和无限时域折扣马尔可夫决策过程的逼近策略迭代算法,其中使用近似线性规划计算近似值函数并实施分散策略改进。
Nov, 2023
本文提出了一种基于线性规划的解决方法,通过将价值函数在一组一阶基函数的线性表示中计算适当的权值,解决了一阶马尔科夫决策过程中与特定领域实例无关的解决方案。并将该解决方法应用于电梯调度方面,具有丰富的特征空间和多标准加性奖励,证明了其优于许多直观、启发式指导政策。
Jul, 2012
使用 LP 模型结合基于网格的近似方法生成近似策略,研究了解决限制观测 Markov 决策过程的效果。结果表明,LP 模型可有效地生成有限和无限时间段问题的近似策略,同时提供将各种附加约束集成到模型中的灵活性。
Jun, 2022
本文研究在平均回报马尔科夫决策过程中计算最优策略的问题,使用鞍点优化方法直接构建一个可行的线性规划问题,但变量数目与状态数成线性关系,因此提出了线性松弛版本。论文从特征化的角度提出了一些潜在问题,设计了一个算法,可以获得快速的收敛率,不受状态空间大小的影响。
Sep, 2019
本文介绍了一种可对连续和离散变量的大决策问题进行紧凑表示的混合分解 Markov 决策过程(MDP)模型和一种新的混合近似线性规划(HALP)框架,HALP 的核心思想是通过一组基函数的线性组合来近似最优价值函数,并通过线性规划来优化其权重, 并证明其在多种混合优化问题中的可扩展潜力。
Sep, 2011
本文研究了面临参数不确定性的大规模马尔可夫决策过程(MDP),并基于鲁棒 MDP 范式,应用增强学习方法解决了规模巨大且无法使用动态规划技术的实际问题解决方法。该方法在特定技术条件下被证明可以成功,通过对期权定价问题的模拟的证明其有效性,是首次尝试扩大鲁棒 MDPs 范式的尝试。
Jun, 2013