识别政策梯度子空间
本文提出一种改进的基于 policy gradient 的强化学习算法,通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术,提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明,相较于标准的 policy gradient 方法,该算法能够成功可靠地使用更少的系统交互来学习解决方案。
May, 2019
本文介绍了一种基于 Continual Subspace of Policies 的自适应增量学习方法,使得机器人能够不断学习适应一系列任务,避免过多的模型大小或随着任务数量的增加导致性能下降的问题。实验表明该方法有效,没有出现遗忘现象,并且在 Brax(运动)和 Continual World(操作)两个领域的多个任务上表现较好。
Nov, 2022
我们提出了一种新的分析方法,并区分了探索技术的两个不同影响。首先,它们使得能够平滑学习目标并消除局部最优解,同时保留全局最优解。其次,它们修改了梯度估计,增加了随机参数更新最终提供最优策略的概率。在这些影响的基础上,我们讨论并通过熵奖励进行了实证研究,突出了其局限性,并为该策略的设计和分析开辟了未来的研究方向。
Jan, 2024
本文提出了一种新的梯度算法,用于从专家观察行为中学习策略,假设专家根据某种未知奖励函数行动最优,算法的目标是找到一个奖励函数使得最优策略与专家观察行为匹配良好,并且在两个人工数据集中表现更加可靠和高效。
Jun, 2012
本文通过一次性的方法在神经网络中学习高准确度的线、曲线、和单纯形来寻找各种应对方法,达到了独立训练网络套索并在训练成本上类似的计算成本,增加了分类器的鲁棒性和准确性。
Feb, 2021
本文研究了策略梯度方法在强化学习中的应用,提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化,并探究了参数化策略和表格化策略参数化的差异,其中一个主要贡献是提供了平均情况下的逼近保证,通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。
Aug, 2019
研究了深度策略梯度算法的行为如何反映驱动其发展的概念框架,并提出了对最先进方法的细粒度分析。结果表明,深度策略梯度算法的行为经常偏离其驱动框架所预测的行为,这表明了我们对当前方法的了解不足,并提示需要超越当前基准中心的评估方法。
Nov, 2018
本文研究表明,在大规模深度学习场景中,梯度在短时间训练后动态地收敛到一个非常小的子空间。该子空间由海森矩阵的前几个特征向量构成,并在长时间训练中大部分保持不变。我们给出了一个分类问题可解模型的例子,并对此效应对优化和学习的潜在影响进行了评论。
Dec, 2018
通过对理想目标空间的研究,系统地分析的各种修改对分层模型学习的影响,结果表明旋转目标空间和噪声对学习没有影响,而具有额外的不必要因素显著地损害了分层模型的学习效果。
May, 2019