元强化学习中近似超状态空间的探索

ICMLOct, 2020

元强化学习中近似超状态空间的探索

Exploration in Approximate Hyper-State Space for Meta Reinforcement Learning

Luisa Zintgraf, Leo Feng, Cong Lu, Maximilian Igl, Kristian Hartikainen...

TL;DR本文提出了一种名为 HyperX 的方法，利用元学习的奖励机制，通过近似超状态空间来探索，从而解决了在稀疏奖励情况下元训练的任务探索问题。实验证明，HyperX 方法可以更好地元学习，成功地适应新任务。

Abstract

To rapidly learn a new task, it is often essential for agents to explore efficiently -- especially when performance matters from the first timestep. One way to learn such behaviour is via meta-learning. Many existing methods however rely on dense rewards for meta-training, and can fail

meta-learning exploration reward signal hyperx adaptation

发现论文，激发创造

学习潜在状态表示以加速探索

通过先前的经验来学习有效的隐藏表示，以指示探索的区域，这对高维空间中的探索尤其有益。

May, 2019

MESA：基于状态动作空间结构的多智能体学习中的合作元探索

MESA 是一种新颖的元探索方法，通过从训练任务中识别代理的高奖励联合状态 - 动作子空间，然后学习一组多样性的探索策略来解决多智能体协同学习中有效探索的问题。实验证明，通过学习到的探索策略，MESA 在稀疏奖励环境和挑战性任务中均能显著提高性能，并具备在测试时泛化到更复杂任务的能力。

May, 2024

元强化学习中学习探索的一些考虑

本文探讨元强化学习中的探索问题，提出了 E-MAML 和 E-RL^2 两种算法，并在 ` 疯狂世界 ' 和一组迷宫环境中展示了更好的性能表现。

Mar, 2018

MURAL：用于结果驱动增强学习的元学习不确定奖励

采用基于归一化最大似然分布的元学习技术来获得不确定性感知的分类器对于鼓励探索和提供正向结果的引导至关重要。本文提出了一种计算归一化最大似然分布的新方法，并展示了该算法在导航和机器人操作任务中具有实际应用的有效性。

Jul, 2021

假设网络计划探索快速元强化学习适应

Meta Reinforcement Learning 的 Hypothesis Network Planned Exploration（HyPE）方法结合了主动和计划的探索过程，通过假设网络优化了适应速度，在快速演化的环境中显示出比基线方法更高的适应速度和模型准确性。

Nov, 2023

基于探索性任务聚类的元强化学习

利用聚类方法探索任务结构，缩小任务特定信息的搜索空间，提高元强化学习的采样效率和策略适应能力。

Feb, 2023

元强化学习的探索与利用解耦，无需牺牲

本文提出一种基于策略梯度优化的元强化学习方法，该方法不但可以在学习新任务时快速利用之前相关任务的经验，还能自动识别任务相关信息来避免局部最优解。实验结果表明，该方法可以有效解决如稀疏奖励 3D 视觉导航等复杂问题。

Aug, 2020

强化学习的本地解释

本文介绍了一种基于元态的深度强化学习策略理解方法，通过识别从自动学习的元状态中的重要状态，而非从行为相似性出发，来帮助领域用户理解深度强化学习策略，实验结果表明，这种方法可以帮助我们更好地理解深度强化学习策略。

Feb, 2022

元强化学习中的超网络

本研究基于机器人实验，研究了在多个相关任务中训练深度强化学习模型的样本效率问题，采用一种称为超网络的方法来解决模型泛化问题，并且提出了一种新的超网络初始化策略，该策略在多个模拟机器人基准测试上的表现超过了现有方法。

Oct, 2022

基于状态抽象的近似探索

研究强化学习中探索和近似之间的相互作用，提出一种基于密度建模的方法来改善探索，探讨伪计数奖励在此方法中的应用，发现了在其应用中可能存在的过度或不足探索问题，并提出一种新的伪计数奖励来缓解这些问题。

Aug, 2018