本文介绍了关于随机最短路径问题的算法和策略,提供多种保证路径长度分布,而不仅是期望值最小的解决方案,并对最近在马尔科夫决策过程的研究成果进行了应用。
Nov, 2014
本文考虑了有限状态和折扣回报标准下的马尔科夫决策过程策略评估问题中的离策略时间差分 (TD) 学习方法,并针对几个基于梯度的 TD 算法提出了一组收敛性结果。
Dec, 2017
本文提出解决一种强化学习中的长期悬而未决的问题,通过使用前瞻而非简单的贪心策略迭代来提高策略,同时在表格和函数逼近设置中都提供了结果。我们证明了这种策略迭代方案收敛于最优策略。
Jan, 2023
本文研究了在带有有限状态的折扣马尔可夫决策过程中对策略进行强调时间差分学习的算法。我们提出了 ELSTD(λ)和 ETD(λ)的首个收敛性证明,并针对一般的离线策略研究了 ELSTD(λ)迭代的 $L^1$ 收敛和使用单个无限长轨迹计算的近似值函数的两种算法的几乎必然收敛性。
Jun, 2015
该论文提供了一个简单的证明,从头开始验证了连续时间熵正则化随机控制问题的策略改进算法的收敛性。通过利用 PIA 所涉及的迭代 PDE 中的复杂 PDE 估计,Huang-Wang-Zhou (2023) 已经建立了这样的收敛性。我们的方法基于一些 Feynman-Kac 类型的概率表示公式及其导数的解。此外,在具有较大折扣因子的无穷时间模型和有限时间模型中,我们通过类似的论证得到了指数级收敛速度。
Jun, 2024
本文研究关于 Markov 决策过程的策略迭代算法的收敛性和复杂度,提出了一种复杂度上界的限制方法,不依赖于折扣因子的价值,有效地限制了策略迭代算法收敛至最优策略所需的迭代次数。
Jan, 2013
本文研究了策略梯度方法在强化学习中的应用,提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化,并探究了参数化策略和表格化策略参数化的差异,其中一个主要贡献是提供了平均情况下的逼近保证,通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。
Aug, 2019
提出了一种采用采样技术的快速算法来解决折扣马尔可夫决策过程的近似求解,并证明了算法的收敛性和复杂度。同时,结合经典的价值迭代与方差约减技术,改进了该算法的性能,使其具有线性收敛性和渐进最优性。
Oct, 2017
本文主要探讨关于马尔可夫决策过程解决方案的复杂度问题,研究表明,虽然使用线性规划技术解决方案可以在多项式时间内完成,但使用迭代方法,如策略迭代算法,通常在实践中更高效。同时,本文提出了关于策略迭代算法收敛步数的改进,得出了一个更合理的上限。
Oct, 2014
该研究利用隐式有限时间近似技术,提出一种通用的模板,用于开发 Stochastic Shortest Path 模型中的情感极小化算法,并且开发了两个新算法,一个是无模型算法,一个是基于模型的算法。这两个算法具有高度稀疏更新,比所有现有算法的计算效率更高,并且都可以实现完全无参数。
Jun, 2021