基于梯度对齐奖励的内循环元学习

AAAIFeb, 2021

基于梯度对齐奖励的内循环元学习

In-Loop Meta-Learning with Gradient-Alignment Reward

Samuel Müller, André Biedenkapp, Frank Hutter

TL;DR该研究旨在通过梯度对齐奖励（GAR）引导优化来优化深度学习训练的多个分布，其中应用包括在小规模设置中选择数据分布，以及在 CIFAR-10 和 CIFAR-100 上成功指导学习增强策略等。

Abstract

At the heart of the standard deep learning training loop is a greedy gradient step minimizing a given loss. We propose to add a second step to maximize training →

deep learning training loop generalization gradient alignment reward data distribution

发现论文，激发创造

通过元梯度增强改善元学习的泛化能力

本文从梯度规范化的角度出发，提出了一种数据无关的元梯度增强 (MGAug) 方法，通过网络修剪来打破背诵性记忆，并探讨了三种修剪策略，实验表明该方法在多个 few-shot 学习基准测试中显著提高了性能

Jun, 2023

生成对抗模仿学习的计算与泛化

本文探讨基于生成式对抗性模型的模仿学习算法（Generative Adversarial Imitation Learning，GAIL）的理论性质，证明了对于一般的回报参数化形式，只要正确控制奖励函数的类别，就可以保证泛化效果，并且利用再生核函数对奖励进行参数化可以使用随机一阶优化算法高效解决，并具有次线性收敛性，这是关于奖励 / 策略函数逼近的统计和计算保证的第一篇研究。

Jan, 2020

基于梯度的元学习的可证明保证

本文介绍了基于在线凸优化的元学习问题，并提出了一种元算法，使得流行的基于梯度的元学习和传统的基于正则化的多任务转移方法之间的差距得以弥合。我们的方法是第一个在凸设置下同时满足良好的样本效率保证，并且具有随着任务相似度提高而改善的泛化界限，同时在现代深度学习体系结构和多任务环境下具有可伸缩性的方法。尽管算法很简单，但它匹配了下限，是任何此类参数传输方法在自然任务相似度假设下的性能的常数因子。我们在凸和深度学习设置下的实验验证和演示了我们理论的适用性。

Feb, 2019

生成敌对自模仿学习

本文提出了一种基于生成对抗自模仿学习 (GASIL) 的简单正则化方法，旨在通过基于生成对抗模仿学习框架鼓励智能体模仿过去的良好轨迹，而非直接最大化奖励，从而在奖励稀疏和滞后时更容易进行长期信用分配。通过使用 GASIL 作为学习形状奖励函数，将其与任何策略梯度目标轻松结合。实验结果显示，GASIL 改进了 2D PointMass 和 MuJoCo 环境下基于接近策略优化的性能。

Dec, 2018

基于梯度学习器的逆强化学习

本文提出了用于从机器人的多次策略中恢复策略目标的新算法。该算法基于观察所观察到的代理程序沿梯度方向更新其策略参数的假设。

Jul, 2020

通过基于冲突感知的梯度协调增强来改进视觉强化学习中的泛化性能

在视觉强化学习中，学习具有出色泛化能力以适应未知环境仍然具有挑战性但至关重要。本文提出了一种名为 CG2A 的通用策略梯度优化框架，将增强组合更好地融入视觉强化学习算法来解决泛化偏差问题，通过发展梯度协议求解器和引入软梯度手术策略来改善颇具变化的梯度幅度和梯度冲突。大量实验证明 CG2A 显著提高了视觉强化学习算法的泛化性能和样本效率。

Aug, 2023

广义数据分布迭代

研究同时实现高样本效率和卓越绩效的深度强化学习模型，将挑战分解为两个经典强化学习问题，数据丰富性和探索 - 开发权衡，并通过对行为策略的能力和多样性进行显式建模和控制、采用单调数据分布优化技术进行选择 / 采样分布的精细和自适应控制等手段来同时解决这两个挑战，最终将这个过程整合到广义策略迭代中，提出了更为通用的广义数据分布迭代技术，并在 Arcade Learning Environment 上获得了超越 22 个人类世界纪录的最新性能。

Jun, 2022

广义内部循环元学习

本文提出了一种名为 GIMLI 的模式，对深度学习和强化学习中的元学习进行了形式化描述，并推导了一种实现类似方法的通用算法。基于这个分析和算法，我们描述了一个我们设计的 higher 库，通过阐述实验和消融研究来展示这种框架和库的应用。

Oct, 2019

生成对抗奖励学习用于泛化行为倾向推断

提出了一种基于生成式逆强化学习的用户行为偏好建模方法，该方法可以自动学习用户的行为奖励函数，并通过辨别式演员 - 评论家网络和 Wasserstein 生成对抗网络进行建模和解释，实验证明该方法在交通信号控制、在线推荐系统和注视路径预测等场景下优于现有的方法。

May, 2021

训练未来：一种简单的梯度插值损失函数用于时间泛化

提出一种利用 Gradient Interpolation（GI）正则化模型的时间复杂度的简单方法来解决机器学习模型在时间序列数据上的过拟合问题，结果证明该方法表现优于现有的基线方法。

Aug, 2021