MURAL：用于结果驱动增强学习的元学习不确定奖励

ICMLJul, 2021

MURAL：用于结果驱动增强学习的元学习不确定奖励

MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven Reinforcement Learning

Kevin Li, Abhishek Gupta, Ashwin Reddy, Vitchyr Pong, Aurick Zhou...

TL;DR采用基于归一化最大似然分布的元学习技术来获得不确定性感知的分类器对于鼓励探索和提供正向结果的引导至关重要。本文提出了一种计算归一化最大似然分布的新方法，并展示了该算法在导航和机器人操作任务中具有实际应用的有效性。

Abstract

Exploration in reinforcement learning is a challenging problem: in the worst case, the agent must search for high-reward states that could be hidden anywhere in the state space. Can we define a more tractable class of RL problems, where the agent is provided with examples of successful

reinforcement learning uncertainty awareness normalized maximum likelihood distribution meta-learning navigation and robotic manipulation

发现论文，激发创造

基于不确定性的元强化学习用于坚韧的雷达跟踪

本文介绍了一种基于不确定性的元强化学习方法，结合区分经过训练的数据和测试数据的数据分布的机制，提高了模型的鲁棒性。在雷达追踪数据集上的测试表明，该方法在检测 OOD 数据时具有鲁棒性，并在追踪性能方面优于相关 Meta-RL 方法的峰值性能 16％和基准 35％。

Oct, 2022

无奖励元学习

文章提出了一种名为 No-Reward Meta Learning (NoRML) 的自适应学习方法，它使用观测到的环境动态而不是显式奖励函数进行模型参数更新，以适应目标任务时变的环境动态。研究表明，NoRML 在环境动态变化时的性能优于传统方法 Model Agnostic Meta Learning (MAML)。

Mar, 2019

元强化学习中学习探索的一些考虑

本文探讨元强化学习中的探索问题，提出了 E-MAML 和 E-RL^2 两种算法，并在 ` 疯狂世界 ' 和一组迷宫环境中展示了更好的性能表现。

Mar, 2018

约束元不可知强化学习

Meta-Reinforcement Learning (Meta-RL) aims to acquire meta-knowledge for quick adaptation to diverse tasks. Our novel approach, Constraint Model Agnostic Meta Learning (C-MAML), merges meta learning with constrained optimization to enable rapid and efficient task adaptation, demonstrating effectiveness in simulated locomotion with wheeled robot tasks of varying complexity.

Jun, 2024

离线元学习探索

通过离线数据，基于贝叶斯强化学习视角提出 Offline Meta Reinforcement Learning 问题，研究如何设计元智能体以快速最大化相同任务分布下不同任务中的奖励收益，探究探索策略、MDP 歧义以及稀疏奖励任务等相关问题，最终拥有超越离线数据中单个 RL 代理的探索策略。

Aug, 2020

通过不确定性和时间距离感知的课程目标生成的以结果为导向的强化学习

本文提出了一种针对增强学习的不确定性和时间距离感知课程目标生成方法，通过解决二分图匹配问题，为课程提供精确的指导，从而更好地解决了先前课程 RL 方法中存在的问题，并在数量和质量上显著优于这些方法。

Jan, 2023

带不确定性的规划：模型基强化学习中的深度探索

本文研究了深度模型与强化学习中的样本效率问题。通过将认知不确定性引入到计划树中，规避了标准方法的不确定性传播，并通过 MuZero 算法进行了评估验证。实验结果表明，可以通过不确定性规划实现有效的深度探索，从而显著提高样本效率。

Oct, 2022

基于偏好的强化学习中的探索奖励不确定性

本文提出了基于学习奖励值的新颖探索方法来解决当前偏好型强化学习算法中人类反馈低效的问题，并在 MetaWorld 基准测试的复杂机器人操作任务中证明了其有效性。

May, 2022

元学习好奇算法

本文认为好奇心是一种进化机制，能够在智能体的一生中鼓励有意义的探索，以暴露它于能够使其获得高报酬的经验。该文提出了一种基于元学习的产生好奇行为的问题，并使用元学习算法将代理人的奖励信号动态调整来解决问题。作者进一步提出使用元算法来扩大其适用性，并将其他构建块（例如缓冲器、最近邻模块和定制丢失函数）与神经网络结合使用。最终，本文提出的两种好奇心算法在图像导航、机器人和其他领域表现优于人类设计的已发表算法。

Mar, 2020

元强化学习中近似超状态空间的探索

本文提出了一种名为 HyperX 的方法，利用元学习的奖励机制，通过近似超状态空间来探索，从而解决了在稀疏奖励情况下元训练的任务探索问题。实验证明，HyperX 方法可以更好地元学习，成功地适应新任务。

Oct, 2020