元元强化学习个性化策略的收敛理论

Sep, 2022

元元强化学习个性化策略的收敛理论

On the Convergence Theory of Meta Reinforcement Learning with Personalized Policies

Haozhi Wang, Qing Wang, Yunfeng Shao, Dong Li, Jianye Hao...

TL;DR该论文提出了一种个性化元强化学习算法 (pMeta-RL)，旨在解决元强化学习中的梯度冲突问题，该算法将任务特定的个性化策略汇总以更新用于所有任务的元策略，同时保持个性化策略以最大化每个任务的平均回报。该算法在离散和连续控制任务中的实验表明，优于其他以往的 Meta-RL 算法。

Abstract

Modern meta-reinforcement learning (Meta-RL) methods are mainly developed based on model-agnostic meta-learning, which performs policy gradient steps across tasks to maximize policy performance. However, the grad

meta-reinforcement learning personalized meta-rl policy performance gradient conflict problem continuous control tasks

发现论文，激发创造

引导式元策略搜索

本文提出了一种基于联邦学习的强化学习策略的元学习算法，在不需要大量策略经验数据的情况下，能够加速学习新任务，该算法在控制任务的元强化学习中表现出显著的效果提升和可扩展性，并且可应用于视觉观测领域。

Apr, 2019

具有个性化的元生成流网络用于任务特定的适应性

本文提出了 pGFlowMeta 算法，结合了任务特定的个性化策略与元策略，并在稀疏奖励和异质性环节上实现了性能提升，理论分析表明其算法收敛速度是次线性的，而广泛的实验表明所提出的算法在离散环境中优于现有的强化学习算法。

Jun, 2023

元强化学习的理论分析：泛化界限与收敛保证

这项研究探索了元强化学习（Meta RL），通过对定义泛化限制和确保收敛的深入研究。通过采用一种创新的理论框架，评估了 Meta RL 算法的有效性和性能。研究分析了影响 Meta RL 适应性的因素，揭示了算法设计与任务复杂性之间的关系。此外，我们根据已经证明的条件确保 Meta RL 策略收敛于解决方案。该研究全面了解了 Meta RL 算法在各种情况下的收敛行为，从而深入探究了其长期性能的驱动力，包括收敛和实时效率，提供了对这些算法的能力的透视。

May, 2024

约束元不可知强化学习

Meta-Reinforcement Learning (Meta-RL) aims to acquire meta-knowledge for quick adaptation to diverse tasks. Our novel approach, Constraint Model Agnostic Meta Learning (C-MAML), merges meta learning with constrained optimization to enable rapid and efficient task adaptation, demonstrating effectiveness in simulated locomotion with wheeled robot tasks of varying complexity.

Jun, 2024

基于元模型的元策略优化

本文通过将 Janner 等人 (2019) 提出的定理扩展，分析了基于模型的元强化学习方法的性能保证，并提出了具有性能保证的 Meta-Model-Based Meta-Policy Optimization (M3PO)，证明 M3PO 在连续控制基准测试中优于现有的元强化学习方法。

Jun, 2020

基于模型的对抗元强化学习

本文提出了一种基于模型的对抗元强化学习算法 (Model-based Adversarial Meta-Reinforcement Learning)，通过最小化所有任务中最劣情况的次优差异 (sub-optimality gap)，以及使用最大化次优性策略的对抗任务找到最优策略，以提高元强化学习算法在任务分布变化下的泛化能力和性能效率，试验表明该算法具有优异性能。

Jun, 2020

MGHRL：层次强化学习的元目标生成

本文提出了一种新的元强化学习算法，称为 Meta Goal-generation for Hierarchical RL (MGHRL)，通过学习给定过去经验的高层次元策略来生成子目标，而将如何实现子目标留给独立的强化学习子任务来完成，实验结果表明，该算法可以更有效地从过去的经验进行元学习。

Sep, 2019

在线发现目标的元梯度强化学习

本文介绍的一种基于元梯度下降的算法可以通过与环境的交互经验发现自己的目标，并灵活地以深度神经网络为参数。随着时间的推移，该算法可以学习如何学习，最终在 Atari Learning Environment 上表现出比强化学习基准测试更高的得分。

Jul, 2020

分布自适应元强化学习

本研究提出了一种元强化学习算法的框架，该框架可以适应于测试时间任务分布变化，以提高在分布转移下的领域中的适应能力和性能。

Oct, 2022

进化策略梯度

该研究提出了一种元学习方法，用于学习基于梯度的加强学习算法，即演化可微损失函数，以便代理可以最小化该损失来优化其策略并获得高回报。经实证结果表明，与现成的策略梯度方法相比，所提出的演化策略梯度算法（EPG）在几个随机环境上实现了更快的学习，且其学习的损失可以推广到测试时间外的任务，并呈现出与其他流行的元学习算法截然不同的行为。

Feb, 2018