分布自适应元强化学习
在本文中,我们提出了基于模型识别和经验重新标注(MIER)的元强化学习算法,它是一种有效的算法,可以在测试时面对分布外的任务进行良好拟合,而无需使用元强化学习
Jun, 2020
本文提出了一种基于模型的对抗元强化学习算法 (Model-based Adversarial Meta-Reinforcement Learning),通过最小化所有任务中最劣情况的次优差异 (sub-optimality gap),以及使用最大化次优性策略的对抗任务找到最优策略,以提高元强化学习算法在任务分布变化下的泛化能力和性能效率,试验表明该算法具有优异性能。
Jun, 2020
本文提出了一个开源的模拟基准测试,包含 50 个不同的机器人操作任务,以评估 7 种最先进的元强化学习和多任务学习算法在这些任务上的表现,发现这些算法在解决多任务时仍存在挑战,为未来的研究提供了实验环境。
Oct, 2019
鉴于训练和部署之间环境变化的需求,我们对分布稳健强化学习(DRRL)的理论基础做出贡献。通过一个以分布稳健马尔可夫决策过程(DRMDPs)为核心的综合建模框架,我们严谨地构建了适用于决策者和对手的各种建模属性。此外,我们还研究了对手引起的偏移的灵活性,并检验了动态规划原理的存在条件。从算法的角度来看,动态规划原理的存在具有重要意义,因为大多数现有的数据和计算效率强化学习算法依赖于该原理。我们提供了从统一方法论出发的简化证明以及不存在全面广义动态规划原理的场景的反例。
Nov, 2023
本文提出了一种基于联邦学习的强化学习策略的元学习算法,在不需要大量策略经验数据的情况下,能够加速学习新任务,该算法在控制任务的元强化学习中表现出显著的效果提升和可扩展性,并且可应用于视觉观测领域。
Apr, 2019
本研究探讨使用密度估计技术,直接学习任务分布并在其上训练策略以最大化回报,从而实现元强化学习的有效性问题,结果表明,与基于历史策略的学习方法相比,我们的方法具有更好的效果,特别是在任务分布存在低维流形的情况下。
Jun, 2022
本文提出了一种基于不确定性量化和有效任务置信推断的新方法框架 IDAQ,该方法通过产生正分布情境来解决离线学习数据集和在线自适应之间的转换奖励分布漂移,实现了元 - 强化学习的任务自适应和较高的性能表现。
May, 2023
该论文提出了一种个性化元强化学习算法 (pMeta-RL),旨在解决元强化学习中的梯度冲突问题,该算法将任务特定的个性化策略汇总以更新用于所有任务的元策略,同时保持个性化策略以最大化每个任务的平均回报。该算法在离散和连续控制任务中的实验表明,优于其他以往的 Meta-RL 算法。
Sep, 2022