识别政策梯度子空间

ICLRJan, 2024

Identifying Policy Gradient Subspaces

Jan Schneider, Pierre Schumacher, Simon Guist, Le Chen, Daniel Häufle...

TL;DR通过评估两种常用的深度策略梯度方法在各种模拟基准任务上的表现，我们的研究结果表明，尽管强化学习所固有的数据分布不断变化，梯度子空间仍然存在，这为未来更高效的强化学习提供了有益的方向，例如通过改善参数空间探索或实现二阶优化。

Abstract

policy gradient methods hold great potential for solving complex continuous control tasks. Still, their training efficiency can be improved by exploiting structure within the optimization problem. Recent work indicates that →

policy gradient methods continuous control tasks supervised learning gradient subspaces reinforcement learning

发现论文，激发创造

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019

构建一个用于可扩展连续学习的策略子空间

本文介绍了一种基于 Continual Subspace of Policies 的自适应增量学习方法，使得机器人能够不断学习适应一系列任务，避免过多的模型大小或随着任务数量的增加导致性能下降的问题。实验表明该方法有效，没有出现遗忘现象，并且在 Brax（运动）和 Continual World（操作）两个领域的多个任务上表现较好。

Nov, 2022

政策梯度背后的探索神话

我们提出了一种新的分析方法，并区分了探索技术的两个不同影响。首先，它们使得能够平滑学习目标并消除局部最优解，同时保留全局最优解。其次，它们修改了梯度估计，增加了随机参数更新最终提供最优策略的概率。在这些影响的基础上，我们讨论并通过熵奖励进行了实证研究，突出了其局限性，并为该策略的设计和分析开辟了未来的研究方向。

Jan, 2024

隐私学习子空间

该研究探讨了差分隐私算法如何应用于低维线性子空间，以发现数据的低维结构并尽可能避免在隐私或准确性方面的代价。

May, 2021

逆强化学习与梯度方法的学徒学习

本文提出了一种新的梯度算法，用于从专家观察行为中学习策略，假设专家根据某种未知奖励函数行动最优，算法的目标是找到一个奖励函数使得最优策略与专家观察行为匹配良好，并且在两个人工数据集中表现更加可靠和高效。

Jun, 2012

学习神经网络子空间

本文通过一次性的方法在神经网络中学习高准确度的线、曲线、和单纯形来寻找各种应对方法，达到了独立训练网络套索并在训练成本上类似的计算成本，增加了分类器的鲁棒性和准确性。

Feb, 2021

关于策略梯度方法的理论：最优性、逼近和分布偏移

本文研究了策略梯度方法在强化学习中的应用，提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化，并探究了参数化策略和表格化策略参数化的差异，其中一个主要贡献是提供了平均情况下的逼近保证，通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。

Aug, 2019

深度策略梯度的深入探讨

研究了深度策略梯度算法的行为如何反映驱动其发展的概念框架，并提出了对最先进方法的细粒度分析。结果表明，深度策略梯度算法的行为经常偏离其驱动框架所预测的行为，这表明了我们对当前方法的了解不足，并提示需要超越当前基准中心的评估方法。

Nov, 2018

梯度下降发生在一个极小的子空间中

本文研究表明，在大规模深度学习场景中，梯度在短时间训练后动态地收敛到一个非常小的子空间。该子空间由海森矩阵的前几个特征向量构成，并在长时间训练中大部分保持不变。我们给出了一个分类问题可解模型的例子，并对此效应对优化和学习的潜在影响进行了评论。

Dec, 2018

分层策略学习对目标空间设计敏感

通过对理想目标空间的研究，系统地分析的各种修改对分层模型学习的影响，结果表明旋转目标空间和噪声对学习没有影响，而具有额外的不必要因素显著地损害了分层模型的学习效果。

May, 2019