分布自适应元强化学习

Oct, 2022

Distributionally Adaptive Meta Reinforcement Learning

Anurag Ajay, Abhishek Gupta, Dibya Ghosh, Sergey Levine, Pulkit Agrawal

TL;DR本研究提出了一种元强化学习算法的框架，该框架可以适应于测试时间任务分布变化，以提高在分布转移下的领域中的适应能力和性能。

Abstract

meta-reinforcement learning algorithms provide a data-driven way to acquire policies that quickly adapt to many tasks with varying rewards or dynamics functions. However, learned meta-→

meta-reinforcement learning policies distribution shift adaptation regret

发现论文，激发创造

MetaRM: 通过元学习实现偏移分布对齐

利用元学习来解决环境分布变化引起的强化学习中奖励模型难以区分响应以及难以泛化到新例子的问题。

May, 2024

通过模型识别和经验再标记实现对分布偏移鲁棒的元强化学习

在本文中，我们提出了基于模型识别和经验重新标注（MIER）的元强化学习算法，它是一种有效的算法，可以在测试时面对分布外的任务进行良好拟合，而无需使用元强化学习

Jun, 2020

基于模型的对抗元强化学习

本文提出了一种基于模型的对抗元强化学习算法 (Model-based Adversarial Meta-Reinforcement Learning)，通过最小化所有任务中最劣情况的次优差异 (sub-optimality gap)，以及使用最大化次优性策略的对抗任务找到最优策略，以提高元强化学习算法在任务分布变化下的泛化能力和性能效率，试验表明该算法具有优异性能。

Jun, 2020

元世界：多任务和元强化学习的基准和评估

本文提出了一个开源的模拟基准测试，包含 50 个不同的机器人操作任务，以评估 7 种最先进的元强化学习和多任务学习算法在这些任务上的表现，发现这些算法在解决多任务时仍存在挑战，为未来的研究提供了实验环境。

Oct, 2019

基于分布鲁棒的强化学习基础探讨

鉴于训练和部署之间环境变化的需求，我们对分布稳健强化学习（DRRL）的理论基础做出贡献。通过一个以分布稳健马尔可夫决策过程（DRMDPs）为核心的综合建模框架，我们严谨地构建了适用于决策者和对手的各种建模属性。此外，我们还研究了对手引起的偏移的灵活性，并检验了动态规划原理的存在条件。从算法的角度来看，动态规划原理的存在具有重要意义，因为大多数现有的数据和计算效率强化学习算法依赖于该原理。我们提供了从统一方法论出发的简化证明以及不存在全面广义动态规划原理的场景的反例。

Nov, 2023

引导式元策略搜索

本文提出了一种基于联邦学习的强化学习策略的元学习算法，在不需要大量策略经验数据的情况下，能够加速学习新任务，该算法在控制任务的元强化学习中表现出显著的效果提升和可扩展性，并且可应用于视觉观测领域。

Apr, 2019

评估分布偏移对强化学习性能的影响

针对分布转换情况下的强化学习进行严格评估的方法研究。

Feb, 2024

有限训练任务下的元强化学习 —— 一种密度估计方法

本研究探讨使用密度估计技术，直接学习任务分布并在其上训练策略以最大化回报，从而实现元强化学习的有效性问题，结果表明，与基于历史策略的学习方法相比，我们的方法具有更好的效果，特别是在任务分布存在低维流形的情况下。

Jun, 2022

离线元强化学习与基于数据分布的在线适应

本文提出了一种基于不确定性量化和有效任务置信推断的新方法框架 IDAQ，该方法通过产生正分布情境来解决离线学习数据集和在线自适应之间的转换奖励分布漂移，实现了元 - 强化学习的任务自适应和较高的性能表现。

May, 2023

元元强化学习个性化策略的收敛理论

该论文提出了一种个性化元强化学习算法 (pMeta-RL)，旨在解决元强化学习中的梯度冲突问题，该算法将任务特定的个性化策略汇总以更新用于所有任务的元策略，同时保持个性化策略以最大化每个任务的平均回报。该算法在离散和连续控制任务中的实验表明，优于其他以往的 Meta-RL 算法。

Sep, 2022