块策略镜像下降
该论文探讨了基于在线凸优化的强化学习的新框架,特别是镜像下降及相关算法,提出了一种新的类似于梯度下降的迭代方法。其中,基于不同Bregman散度的抛物线梯度强化学习法比常规TD学习更为普适。还提出了一种新型的稀疏镜像下降强化学习方法,相比之前基于二阶矩阵方法的方法,在寻找一个l1正则化Bellman方程的稀疏不动点时具有显著的计算优势。
Oct, 2012
本文提出了新的政策镜反射(PMD)方法,用于解决具有强凸性或一般凸性正则化的强化学习(RL)问题,并使用不同的采样方案建立了这些问题的随机对应物。我们证明了PMD方法在快速收敛到全局最优解方面的线性速率,提出了计算这些正则化梯度的复杂度,并展示了此正则化的应用性。
Jan, 2021
本研究提出一种简单且有效的梯度截断机制,可用于加速政策梯度算法的变化减少技术,进而设计了一种名为TSIVR-PG的新方法,它不仅能够最大化累积奖励总和,还能在政策的长期访问分布上最大化一般效用函数,并对TSIVR-PG进行了理论分析。
Feb, 2021
提出了一种广义的策略镜像下降算法 (GPMD) 以解决正则化强化学习问题,具有线性收敛特性,支持一般类别的凸正则化器,并在数值实验中得到验证。
May, 2021
本文研究应用动量项的随机策略梯度方法的全局收敛性,并展示了在softmax和非退化Fisher策略参数化中增加动量项可以提高PG方法的全局最优采样复杂度。此外,作者提供了分析随机PG方法全局收敛速率的通用框架。
Oct, 2021
研究无限时间折扣马尔可夫决策问题,并以策略空间的直接参数化研究投影策略梯度方法和一般类别的策略镜像下降方法的收敛速度,包括不需要熵或其他强凸正则化的自然策略梯度方法及投影Q-下降方法,并分析近似策略镜像下降方法的收敛速度和样本复杂性估计。
Jan, 2022
提出了一种新的策略梯度方法——同伦策略镜像下降(HPMD),用于解决具有有限状态和动作空间的折扣、无限时间MDPs,并具有多种计算性质。该方法在全局和局部上均具有收敛性,并且能够在一定条件下证明和表征极限策略。同时,使用该方法可同时获得非渐近最优策略和极大信息熵的极限策略,在不同Bregman散度之间进行扩展,以及是一些常见Bregman散度的有限时间精确收敛。
Jan, 2022
提出了一种名为$h$-PMD的新型PMD算法类,它将多步贪心策略改进与PMD更新规则相结合,以解决具有lookahead深度$h$的折扣无限时间马尔可夫决策过程,并且拓展到线性函数逼近以适应大状态空间。
Mar, 2024
熵正则化在政策优化中被广泛使用,有助于优化收敛,本文通过分析连续时间政策镜像下降动态,证明了固定熵水平下的动态指数级收敛到正则化问题的最优解,并通过调整熵正则化的衰减速率得出在离散和一般动作空间中的收敛速率。
May, 2024
本研究解决了强化学习中缺乏最佳性原则度量的问题,通过发展一种简单可计算的间隙函数,提供了最佳性间隙的上下界。研究表明,基本的政策镜像下降法在确定性和随机性设置下表现出快速的无分布收敛,这一新结果有助于在强多项式时间内解决未正则化的马尔可夫决策过程,并在运行随机政策镜像下降时无需额外样本即可获得准确性估计。
Sep, 2024