引导策略搜索作为近似镜像下降

Jul, 2016

Guided Policy Search as Approximate Mirror Descent

William Montgomery, Sergey Levine

TL;DR该论文提出了一种新的指导策略搜索算法，将其解释为镜像下降的近似变体，并提供了改善收敛性的保证。实验结果表明，该算法在机器人导航和操作任务中的表现优于之前的指导策略搜索方法，并且具有更简单的公式和更少的超参数。

Abstract

guided policy search algorithms can be used to optimize complex nonlinear policies, such as deep neural networks, without directly computing policy gradients in the high-dimensional parameter space. Instead, thes

guided policy search deep neural networks supervised learning mirror descent robotic navigation

发现论文，激发创造

带正则化的政策镜像下降算法：具有线性收敛的广义框架

提出了一种广义的策略镜像下降算法 (GPMD) 以解决正则化强化学习问题，具有线性收敛特性，支持一般类别的凸正则化器，并在数值实验中得到验证。

May, 2021

路径积分导向的策略搜索

本文提出了一种通过策略搜索学习复杂的反馈控制策略的方法，该策略可将高维度感知输入映射到电机扭矩以执行具有不连续性接触动力学的操纵任务，该方法在使用先前的技术基础上进行了改进，使用了基于 PI2 的无模型本地优化器和使用 on-policy 抽样来训练针对一系列任务实例的复合全局策略，从而实现了直接从视觉输入执行扭矩控制的深度神经网络策略。

Oct, 2016

关于连续动作空间中策略镜像上升的隐藏偏差

本文针对连续动作空间下的强化学习问题，提出一种基于重尾分布参数化的策略梯度算法，并对该算法进行了理论和实验研究，表明该算法相比于标准基准在多种场景下都能得到改进的奖励累积结果。

Jan, 2022

稀疏 Q 学习和镜像下降

该论文探讨了基于在线凸优化的强化学习的新框架，特别是镜像下降及相关算法，提出了一种新的类似于梯度下降的迭代方法。其中，基于不同 Bregman 散度的抛物线梯度强化学习法比常规 TD 学习更为普适。还提出了一种新型的稀疏镜像下降强化学习方法，相比之前基于二阶矩阵方法的方法，在寻找一个 l1 正则化 Bellman 方程的稀疏不动点时具有显著的计算优势。

Oct, 2012

关于策略梯度方法的收敛速度

研究无限时间折扣马尔可夫决策问题，并以策略空间的直接参数化研究投影策略梯度方法和一般类别的策略镜像下降方法的收敛速度，包括不需要熵或其他强凸正则化的自然策略梯度方法及投影 Q - 下降方法，并分析近似策略镜像下降方法的收敛速度和样本复杂性估计。

Jan, 2022

关于策略梯度方法的理论：最优性、逼近和分布偏移

本文研究了策略梯度方法在强化学习中的应用，提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化，并探究了参数化策略和表格化策略参数化的差异，其中一个主要贡献是提供了平均情况下的逼近保证，通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。

Aug, 2019

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019

镜像下降策略优化

提出了一种称为镜像下降策略优化（Mirror Descent Policy Optimization，MDPO）的高效强化学习算法，MDPO 是一个迭代更新策略的算法，其目标函数由标准强化学习目标的线性化和一个限制连续策略之间接近的接近项组成，是由 MD 原则推导而来的，同时通过采取多个梯度步骤进行逼近。

May, 2020

强化学习中的种群指导并行策略搜索

提出了一种新的基于群体引导的并行学习方法，通过在共享经验回放缓冲区中搜索良好的策略，结合最佳策略信息，软融合构建损失函数，以实现稀疏奖励环境下提升最佳期望累计回报的目的，其中 TD3 算法是工作算法之一。

Jan, 2020

蒙特卡罗树搜索用于策略优化

本文提出了一种基于蒙特卡罗树搜索和无梯度优化的策略优化方法，称为 MCTSPO，通过使用上界置信度启发式获得更好的探索 - 利用平衡，相对于基于梯度和深度遗传算法的基准，在具有欺骗性或稀疏奖励函数的强化学习任务中表现更佳。

Dec, 2019