该论文提出一种新的元学习方法,可以通过与一组环境交互,发现一个包含价值函数和时间差分学习等元素的更新规则,从而得到一个名为 LPG 的 RL 算法,该方法可以发现自己对于价值函数的替代方案,并有效地推广到复杂的 Atari 游戏中。
Jul, 2020
通过梯度元学习算法能够在线交互并学习环境,适应 return 的性质,进而在 Atari 2600 的 57 个游戏中达到了最新的的最优表现。
May, 2018
本文介绍的一种基于元梯度下降的算法可以通过与环境的交互经验发现自己的目标,并灵活地以深度神经网络为参数。随着时间的推移,该算法可以学习如何学习,最终在 Atari Learning Environment 上表现出比强化学习基准测试更高的得分。
本文提出了一种名为深度元强化学习的方法,该方法使用递归网络,在一个强化学习算法上进行训练,但其递归动态实现第二个、完全分离的强化学习过程,通过一系列七个验验证明了这种方法的潜在优势并提出了其可能引发的神经科学方面的重要影响。
Nov, 2016
通过分析元训练分布的特征对学习策略的泛化性能的影响,并结合无监督环境设计的思想,提出一种通过环境设计获得的通用强化学习优化器的新方法(GROOVE),该方法在一系列实验中展现了优于现有算法的泛化能力,并将算法遗憾(AR)作为环境设计中的关键组成部分加以评估。我们认为这一方法是朝着实现真正通用能解决各种现实环境的强化学习算法的一步。
Oct, 2023
本研究提出了一系列用于强化学习的无监督元学习算法,以解决通过任务提案进行任务训练而非手动任务设计所带来的算法设计负担,并得出这些程序具有优异性能的结论。
Jun, 2018
该论文评估了特别设计用于泛化的算法 —— 元强化学习算法的泛化性能,发现在挑战性任务上,这些算法仍然存在严重的过拟合和扩展性问题,强调需要开发既能泛化又能扩展的元强化学习算法。
Jun, 2020
该研究提出了一种元学习方法,用于学习基于梯度的加强学习算法,即演化可微损失函数,以便代理可以最小化该损失来优化其策略并获得高回报。经实证结果表明,与现成的策略梯度方法相比,所提出的演化策略梯度算法(EPG)在几个随机环境上实现了更快的学习,且其学习的损失可以推广到测试时间外的任务,并呈现出与其他流行的元学习算法截然不同的行为。
Feb, 2018
本文提出一种在元强化学习中用于解决任务信息受限问题的方法,通过利用各种特权信息,分别学习策略和任务信念来解决部分可观测马尔可夫决策问题,从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。
May, 2019
本文提出了一种理论框架来设计和理解实用的元学习方法,该方法将任务相似性的复杂形式化与在线凸优化和序列预测算法的广泛文献融合。该方法使任务相似性能够自适应地学习,为统计学习 - to-learn 的转移风险提供更加精确的界限,并在任务环境动态变化或任务共享一定几何结构的情况下,导出高效算法的平均情况后悔界限。我们使用该理论修改了几种流行的元学习算法,并在少样本学习和联邦学习的标准问题上改善了它们在元测试时的性能。
Jun, 2019