我们提出了一种新的分析方法,并区分了探索技术的两个不同影响。首先,它们使得能够平滑学习目标并消除局部最优解,同时保留全局最优解。其次,它们修改了梯度估计,增加了随机参数更新最终提供最优策略的概率。在这些影响的基础上,我们讨论并通过熵奖励进行了实证研究,突出了其局限性,并为该策略的设计和分析开辟了未来的研究方向。
Jan, 2024
本文提出了一种使用反向传播学习连续控制策略的统一框架,并通过将贝尔曼方程中的随机性视为外源噪声的确定性函数,来支持随机控制。结果是一系列从有值函数的无模型方法到无值函数的有模型方法的通用策略梯度算法谱。我们使用学习模型,但只需要来自环境的观察而不是模型预测轨迹的观察,最大程度地减少复合模型错误的影响。我们首先将这些算法应用于一个玩具随机控制问题,然后在模拟中将其应用于几个基于物理的控制问题。其中一种变体 SVG(1)显示了在连续领域同时学习模型,价值函数和策略的有效性。
Oct, 2015
本文探讨了基于模型的强化学习与基于模型的无模型强化学习的综合应用方法,发现在高维控制任务中,基于模型的策略评估方法比传统方法更有效。
Aug, 2020
通过最大化值函数来寻找感兴趣的策略的政策梯度方法在顺序决策、强化学习、游戏和控制中变得越来越受欢迎,然而,由于值函数的非凸性,保证政策梯度方法的全局最优性非常困难。本文重点介绍了近期在理解和开发具有全局收敛保证的政策梯度方法方面的进展,特别强调了其有关突出问题参数的有限时间收敛速度。
Oct, 2023
本文提出一种改进的基于 policy gradient 的强化学习算法,通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术,提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明,相较于标准的 policy gradient 方法,该算法能够成功可靠地使用更少的系统交互来学习解决方案。
May, 2019
通过梯度元学习算法能够在线交互并学习环境,适应 return 的性质,进而在 Atari 2600 的 57 个游戏中达到了最新的的最优表现。
May, 2018
本文提出了用于从机器人的多次策略中恢复策略目标的新算法。该算法基于观察所观察到的代理程序沿梯度方向更新其策略参数的假设。
Jul, 2020
本研究探讨了随机价值函数在强化学习中引导深度探索的使用,证明了其在合成统计上和计算效率上与常见的实用价值函数学习方法的探索的优越性,并通过计算实验证明了其有效性,并证明了在表格表示下的统计效率的遗憾界(regret bound)
Mar, 2017
在多智能体系统中,基于梯度的学习很困难,LOLA 通过在一步优化中不同化来解决这个问题,我们通过扩展 LOLA 的思想并开发出一种完全通用的基于价值的优化方法,核心是一个称为元 - 价值的函数,它在联合策略空间的每个点为每个智能体给出折现未来优化步骤中的目标的总和,我们通过训练神经网络以最小化沿优化轨迹上 TD 误差的方法来近似元 - 价值。
Jul, 2023
该论文提出一种新的元学习方法,可以通过与一组环境交互,发现一个包含价值函数和时间差分学习等元素的更新规则,从而得到一个名为 LPG 的 RL 算法,该方法可以发现自己对于价值函数的替代方案,并有效地推广到复杂的 Atari 游戏中。