基于模型的元学习批判家对策略梯度的优化

Apr, 2022

基于模型的元学习批判家对策略梯度的优化

Model Based Meta Learning of Critics for Policy Gradients

Sarah Bechtle, Ludovic Righetti, Franziska Meier

TL;DR针对强化学习中仍存在的新场景快速泛化的问题，该研究提出了一个元学习算法，通过对反梯度策略学习的评论家进行元学习来优化学习任务通用的代理。结果表明，该算法可以学习到接近真实 Q 值函数的评论家，使学到的评论家能够适应于新的任务和环境，并能用于学习新策略。

Abstract

Being able to seamlessly generalize across different tasks is fundamental for robots to act in our world. However, learning representations that generalize quickly to new scenarios is still an open research problem in reinforcement learning. In this paper we present a framework to meta-learn the critic for gradient-based policy learning. Concretely, we propo

generalization meta-learning policy optimization task adaptation reinforcement learning

发现论文，激发创造

学习如何学习：元评价网络实现高效学习

本文介绍了一种新颖的、灵活的元学习方法，通过学习一个元批判家实现知识传递，此方法适用于强化学习和监督学习中的 few-shot 和半监督条件。

Jun, 2017

基于元批评学习的离线策略演员 - 评论家方法

本文介绍了一种使用 Meta-critic 方法的 Actor-Critic 强化学习算法，可以显著加速学习过程并构建具有高效采样的离线学习框架，通过实验证明了 Meta-critic 方法与离线学习 Off-PAC 算法（包括 DDPG、TD3 和 SAC）相结合，在连续控制环境中取得了显著的性能提升。

Mar, 2020

在线发现目标的元梯度强化学习

本文介绍的一种基于元梯度下降的算法可以通过与环境的交互经验发现自己的目标，并灵活地以深度神经网络为参数。随着时间的推移，该算法可以学习如何学习，最终在 Atari Learning Environment 上表现出比强化学习基准测试更高的得分。

Jul, 2020

无关模型的元学习用于深度网络的快速适应

本文提出了一种模型无关的元学习算法，通过少量的训练样本，使用梯度下降算法来训练模型的参数，实现了对新学习任务的快速调整和学习，导致在少量图像分类、回归和神经网络政策优化方面表现出最先进的性能。

Mar, 2017

自适应基于梯度的元学习方法

本文提出了一种理论框架来设计和理解实用的元学习方法，该方法将任务相似性的复杂形式化与在线凸优化和序列预测算法的广泛文献融合。该方法使任务相似性能够自适应地学习，为统计学习 - to-learn 的转移风险提供更加精确的界限，并在任务环境动态变化或任务共享一定几何结构的情况下，导出高效算法的平均情况后悔界限。我们使用该理论修改了几种流行的元学习算法，并在少样本学习和联邦学习的标准问题上改善了它们在元测试时的性能。

Jun, 2019

元元强化学习个性化策略的收敛理论

该论文提出了一种个性化元强化学习算法 (pMeta-RL)，旨在解决元强化学习中的梯度冲突问题，该算法将任务特定的个性化策略汇总以更新用于所有任务的元策略，同时保持个性化策略以最大化每个任务的平均回报。该算法在离散和连续控制任务中的实验表明，优于其他以往的 Meta-RL 算法。

Sep, 2022

元世界：多任务和元强化学习的基准和评估

本文提出了一个开源的模拟基准测试，包含 50 个不同的机器人操作任务，以评估 7 种最先进的元强化学习和多任务学习算法在这些任务上的表现，发现这些算法在解决多任务时仍存在挑战，为未来的研究提供了实验环境。

Oct, 2019

元值学习：具备学习认知能力的一般性学习框架

在多智能体系统中，基于梯度的学习很困难，LOLA 通过在一步优化中不同化来解决这个问题，我们通过扩展 LOLA 的思想并开发出一种完全通用的基于价值的优化方法，核心是一个称为元 - 价值的函数，它在联合策略空间的每个点为每个智能体给出折现未来优化步骤中的目标的总和，我们通过训练神经网络以最小化沿优化轨迹上 TD 误差的方法来近似元 - 价值。

Jul, 2023

如何学习一个有用的评论家？基于模型的动作梯度估计策略优化

本文提出了一种基于动态学习的 MAGE 算法，通过显式学习动作价值梯度，从而进一步优化策略，相较于无模型和有模型的现有算法，该算法在连续控制任务中表现良好。

Apr, 2020

部分观察多智能体环境下的演员 - 评论家策略优化

本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Oct, 2018