元值学习：具备学习认知能力的一般性学习框架

Jul, 2023

元值学习：具备学习认知能力的一般性学习框架

Meta-Value Learning: a General Framework for Learning with Learning Awareness

Tim Cooijmans, Milad Aghajohari, Aaron Courville

TL;DR在多智能体系统中，基于梯度的学习很困难，LOLA 通过在一步优化中不同化来解决这个问题，我们通过扩展 LOLA 的思想并开发出一种完全通用的基于价值的优化方法，核心是一个称为元 - 价值的函数，它在联合策略空间的每个点为每个智能体给出折现未来优化步骤中的目标的总和，我们通过训练神经网络以最小化沿优化轨迹上 TD 误差的方法来近似元 - 价值。

Abstract

gradient-based learning in multi-agent systems is difficult because the gradient derives from a first-order model which does not account for the interaction between agents' learning processes. →

gradient-based learning multi-agent systems lola optimization neural network

发现论文，激发创造

在线发现目标的元梯度强化学习

本文介绍的一种基于元梯度下降的算法可以通过与环境的交互经验发现自己的目标，并灵活地以深度神经网络为参数。随着时间的推移，该算法可以学习如何学习，最终在 Atari Learning Environment 上表现出比强化学习基准测试更高的得分。

Jul, 2020

元梯度强化学习

通过梯度元学习算法能够在线交互并学习环境，适应 return 的性质，进而在 Atari 2600 的 57 个游戏中达到了最新的的最优表现。

May, 2018

自适应基于梯度的元学习方法

本文提出了一种理论框架来设计和理解实用的元学习方法，该方法将任务相似性的复杂形式化与在线凸优化和序列预测算法的广泛文献融合。该方法使任务相似性能够自适应地学习，为统计学习 - to-learn 的转移风险提供更加精确的界限，并在任务环境动态变化或任务共享一定几何结构的情况下，导出高效算法的平均情况后悔界限。我们使用该理论修改了几种流行的元学习算法，并在少样本学习和联邦学习的标准问题上改善了它们在元测试时的性能。

Jun, 2019

带潜在变量高斯过程的元强化学习

利用层级潜变量模型，自动推断任务之间的关系并应用于模型强化学习中，从而实现在小规模数据集上的元学习，有效提高数据利用率，解决新任务的平均交互时间缩短高达 60%。

Mar, 2018

隐式梯度元学习

本文介绍一种名为隐式 MAML 的方法，用于在少量数据下实现基于梯度的元学习，能够解决通过内层优化得到的结果进行求导时的困难，从而优雅地处理多个梯度步骤，实现在少样本下的图像识别精度的提升。

Sep, 2019

进化式强化学习算法

通过在计算图的空间中搜索计算值为基础的无模型 RL 代理的损失函数来提出一种元学习强化学习算法的方法，该方法可以广义地适用于训练中未看到的新环境，并能够从头开始学习和提高行业表现。

Jan, 2021

基于梯度的元学习的可证明保证

本文介绍了基于在线凸优化的元学习问题，并提出了一种元算法，使得流行的基于梯度的元学习和传统的基于正则化的多任务转移方法之间的差距得以弥合。我们的方法是第一个在凸设置下同时满足良好的样本效率保证，并且具有随着任务相似度提高而改善的泛化界限，同时在现代深度学习体系结构和多任务环境下具有可伸缩性的方法。尽管算法很简单，但它匹配了下限，是任何此类参数传输方法在自然任务相似度假设下的性能的常数因子。我们在凸和深度学习设置下的实验验证和演示了我们理论的适用性。

Feb, 2019

基于模型的元学习批判家对策略梯度的优化

针对强化学习中仍存在的新场景快速泛化的问题，该研究提出了一个元学习算法，通过对反梯度策略学习的评论家进行元学习来优化学习任务通用的代理。结果表明，该算法可以学习到接近真实 Q 值函数的评论家，使学到的评论家能够适应于新的任务和环境，并能用于学习新策略。

Apr, 2022

进化策略梯度

该研究提出了一种元学习方法，用于学习基于梯度的加强学习算法，即演化可微损失函数，以便代理可以最小化该损失来优化其策略并获得高回报。经实证结果表明，与现成的策略梯度方法相比，所提出的演化策略梯度算法（EPG）在几个随机环境上实现了更快的学习，且其学习的损失可以推广到测试时间外的任务，并呈现出与其他流行的元学习算法截然不同的行为。

Feb, 2018

无关模型的元学习用于深度网络的快速适应

本文提出了一种模型无关的元学习算法，通过少量的训练样本，使用梯度下降算法来训练模型的参数，实现了对新学习任务的快速调整和学习，导致在少量图像分类、回归和神经网络政策优化方面表现出最先进的性能。

Mar, 2017