- 基于特征聚合和深度强化学习的调查与一些新实现
本文介绍了针对有限状态折扣马尔可夫决策问题的近似解法 - 政策迭代方法,重点关注基于特征聚合的方法以及它们与深度强化学习方案的关系。本文提出了原问题状态的特征并且制定了一个更小的 “聚合” 的马尔可夫决策问题,其状态与特征相关。我们讨论了这 - MM弱链式矩阵、策略迭代和脉冲控制
本研究探讨了与随机控制和脉冲控制相关的 Hamilton-Jacobi-Bellman 准变分不等式(HJBQVIs)的数字解法,提出了三种离散化方案并比较了其在不同实例中的表现。其中,直接控制的方案的表现较差,不推荐使用。
- Lambda-Policy Iteration: 评述与新实现
本文介绍了一种精确和近似动态规划的方法即 λ- 策略迭代,并讨论了基于模拟的费用函数逼近中的偏差和探索问题。此外,讨论了多种基于此方法的实现,其中一种实现是基于一种新的模拟方案,称为几何采样。
- ICML近似策略迭代方案对比
本文考虑了马尔可夫决策过程所形式化的无限时间折扣率下的最优控制问题,研究了几种近似策略迭代算法,对它们进行了性能分析,显示了非静态策略迭代算法可以在内存和性能之间进行平衡。
- 具有有界首次回归时间的完全信息随机平均收益博弈的策略迭代是强多项式的
这篇论文采用非线性 Perron-Frobenius 理论的方法,将 mean-payoff 问题转化为一个具有状态依赖性折现率的折扣问题,从而证明了一个有界的第一次均值回报时间的固定状态,是广义策略迭代强多项式可解的,同时如果所有策略涉及 - MM策略迭代复杂度的改进和推广的上界
本文研究了两种策略迭代算法在马尔可夫决策过程中收敛所需的迭代次数,并通过结构性质得到了与折扣因子无关的上界,在假设状态空间分为瞬态和常态状态的情况下,Howard's PI 和 Simplex-PI 都可以在强多项式时间内终止。
- 政策迭代的复杂性
本文研究关于 Markov 决策过程的策略迭代算法的收敛性和复杂度,提出了一种复杂度上界的限制方法,不依赖于折扣因子的价值,有效地限制了策略迭代算法收敛至最优策略所需的迭代次数。
- 分解型 MDPs 的策略迭代
该论文提出了一种新的价值确定方法,借助简单的闭合计算来直接计算价值函数的分解逼近,以及一个基于此方法的策略迭代过程。
- 在有限时间无限阶段马尔可夫决策过程中使用非平稳策略
论文提出了为无限时域的马尔科夫决策过程 (即 MDP) 设计出计算非平稳最优策略的算法,其中引入了价值迭代和策略迭代,可以使得计算出的平稳或非平稳最优策略与实际的最优策略的距离最多相差一定精度。
- 策略迭代的指数下界
本文研究无限期 Markov 决策过程的策略迭代,扩展了两个玩家博弈中策略迭代算法的指数下界到具有总奖励和平均奖励优化标准的 Markov 决策过程。
- 策略迭代的概率采样法近似实现
本文提出了一种改进的策略迭代算法,使用分类器代替值函数,并将策略学习作为监督学习问题进行处理,解决了通过模拟评估策略时的核心抽样问题,实验验证表明其能在反摆杆和车山等领域内实现可比较的性能提升,并显著减少计算工作量。