基于模型的对抗元强化学习

Jun, 2020

Model-based Adversarial Meta-Reinforcement Learning

Zichuan Lin, Garrett Thomas, Guangwen Yang, Tengyu Ma

TL;DR本文提出了一种基于模型的对抗元强化学习算法 (Model-based Adversarial Meta-Reinforcement Learning)，通过最小化所有任务中最劣情况的次优差异 (sub-optimality gap)，以及使用最大化次优性策略的对抗任务找到最优策略，以提高元强化学习算法在任务分布变化下的泛化能力和性能效率，试验表明该算法具有优异性能。

Abstract

meta-reinforcement learning (meta-RL) aims to learn from multiple training tasks the ability to adapt efficiently to unseen test tasks. Despite the success, existing meta-RL algorithms are known to be sensitive to the task distribution shift. When the test task distribution is differen

meta-reinforcement learning model-based adversarial meta-reinforcement learning sub-optimality gap minimax objective continuous control benchmarks

发现论文，激发创造

任务鲁棒的模型无关元学习

本文提出了一种新的元学习方法，通过解决 min-max 问题以最小化观测到的元训练任务的最大损失，可以实现任务健壮性，从而在元训练和元测试之间的任务分布变化时，都能表现出色。

Feb, 2020

约束元不可知强化学习

Meta-Reinforcement Learning (Meta-RL) aims to acquire meta-knowledge for quick adaptation to diverse tasks. Our novel approach, Constraint Model Agnostic Meta Learning (C-MAML), merges meta learning with constrained optimization to enable rapid and efficient task adaptation, demonstrating effectiveness in simulated locomotion with wheeled robot tasks of varying complexity.

Jun, 2024

分布自适应元强化学习

本研究提出了一种元强化学习算法的框架，该框架可以适应于测试时间任务分布变化，以提高在分布转移下的领域中的适应能力和性能。

Oct, 2022

强韧性对抗性强化学习

提出了一种稳健性的敌对训练 (robust adversarial reinforcement learning, RARL) 方法，该方法将敌对训练与零和极小优化相结合，通过训练一个智能体，使其能够在真实系统上的杂乱因素和不确定性下操作，并在多种环境中进行了验证。

Mar, 2017

元强化学习作为任务推断

本文提出一种在元强化学习中用于解决任务信息受限问题的方法，通过利用各种特权信息，分别学习策略和任务信念来解决部分可观测马尔可夫决策问题，从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。

May, 2019

对抗元学习

本文研究了在对抗样本的情况下的通用元学习。提出了一种元学习算法 ADML (Adversarial Meta-Learner)，它利用干净的和对抗的样本来以对抗的方式优化学习模型的初始化。研究结果表明，ADML 在包含对抗样本的情况下，比其他三种代表性的基于元学习的算法在两个广泛使用的图像数据集（MiniImageNet 和 CIFAR100）中表现更为出色，无论在准确性还是强健性方面。

Jun, 2018

无监督元学习强化学习

本研究提出了一系列用于强化学习的无监督元学习算法，以解决通过任务提案进行任务训练而非手动任务设计所带来的算法设计负担，并得出这些程序具有优异性能的结论。

Jun, 2018

基于偏好的快速适应元强化学习

本研究基于元强化学习框架，探究了在人机交互中，通过基于偏好的反馈，而非数值奖励，在少数试验中快速调整策略以适应新任务的机制，并通过信息论技术设计问题序列来最大化人类专家的信息获取效率，实验结果表明其显著优于传统算法。

Nov, 2022

元元强化学习个性化策略的收敛理论

该论文提出了一种个性化元强化学习算法 (pMeta-RL)，旨在解决元强化学习中的梯度冲突问题，该算法将任务特定的个性化策略汇总以更新用于所有任务的元策略，同时保持个性化策略以最大化每个任务的平均回报。该算法在离散和连续控制任务中的实验表明，优于其他以往的 Meta-RL 算法。

Sep, 2022

元世界：多任务和元强化学习的基准和评估

本文提出了一个开源的模拟基准测试，包含 50 个不同的机器人操作任务，以评估 7 种最先进的元强化学习和多任务学习算法在这些任务上的表现，发现这些算法在解决多任务时仍存在挑战，为未来的研究提供了实验环境。

Oct, 2019