该研究论文在马可夫采样、小批量数据和通用策略类逼近等条件下,对比了演员 - 评论家算法(AC)和自然演员 - 评论家算法(NAC)的收敛速率和样本复杂度。实验表明在无限时间范围内,AC 和 NAC 可以比策略梯度(PG)和自然策略梯度(NPG)更快地达到精确的稳态点或全局最优点,而且收敛速度比之前的算法更快。
Apr, 2020
本文提出了改进的强化学习算法及其复杂度分析,该算法使用离线学习和线性函数逼近,并使用时间差分学习和自然策略梯度优化,其采样复杂度为 O (ϵ^−3)。
May, 2021
本文旨在探究 Actor-critic 风格的两个时间尺度算法在强化学习中的应用,提出了一种在线自然 Actor-critic 算法在表格环境下的全局收敛特性,评估其采样轨迹的有效性,并以样本数为单位展开学习效率的分析,为优化全局最优解的搜索提出了提高性能的方法。
Jan, 2021
本文提出了第一种具有非渐近收敛率的二次时间尺度演员 - 评论家和自然演员 - 评论家算法的样本复杂度,通过使用新技术对动态变化 Markovian 采样的 actor 偏差误差进行边界估计并分析带有动态变化基函数和转换内核的线性评论家的收敛速率。
May, 2020
本文针对神经网络近似的 NAC 算法进行了有限时间分析,并指出了神经网络、正则化和优化技术在样本复杂性、迭代复杂性和过度参数化上达到证明良好性能的作用,特别地,我们证明熵正则化和平均化通过提供足够的探索避免了过于确定性和严格次优策略,正则化导致了在正则化 MDPs 中的尖锐样本复杂度和网络宽度,这在策略优化中产生了有利的偏差 - 方差权衡,而在此过程中,我们还发现了在全局优化中实现演员神经网络的均匀逼近能力的重要性,因为其具有分布转移的特征。
Jun, 2022
本文探讨利用神经网络代表评论家的自然演员评论算法的研究,并建议了一种涉及通过凸优化问题估计每个迭代中的 Q 函数的 2 层评论家参数化的自然演员评论算法,证明了我们提出的方法达到了样本复杂度的~O (1 / (ε^4 (1-γ)^4)),适用于可数状态空间,不需要线性或低秩结构的 MDP。
Jun, 2023
该研究提供了 Actor-Critic(AC)算法和 Natural Actor-Critic(NAC)算法的最紧密的非渐近收敛界限,并使用兼容函数逼近进行收敛性分析。
Jun, 2024
本文提供了对于两种时间尺度的 Actor-critic 方法进行非渐进分析的研究,证明了该方法可以找到非凸性能函数的一阶稳定点,并提供了样本复杂度的有限时间约束。
本文研究了基于离线数据的深度强化学习算法,提出了一种新的策略相似度度量方法来提高算法的采样效率和泛化能力,并且证明了该方法可以实现安全的离线学习。实验证明,该方法相较于其他竞争算法在大多数情况下能够更高效地提高学习效率。
Aug, 2022
本研究提出了一种新的 Actor-Critic 算法变体,使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差,不论策略评估技术的选择,我们都能提供 Actor-Critic 算法的收敛速度,特别是当值函数采用线性函数近似且为连续状态和动作空间时,这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。
Oct, 2019