假设网络计划探索快速元强化学习适应

Nov, 2023

假设网络计划探索快速元强化学习适应

Hypothesis Network Planned Exploration for Rapid Meta-Reinforcement Learning Adaptation

Maxwell Joseph Jacobson, Yexiang Xue

TL;DRMeta Reinforcement Learning 的 Hypothesis Network Planned Exploration（HyPE）方法结合了主动和计划的探索过程，通过假设网络优化了适应速度，在快速演化的环境中显示出比基线方法更高的适应速度和模型准确性。

Abstract

meta reinforcement learning (Meta RL) trains agents that adapt to fast-changing environments and tasks. Current strategies often lose adaption efficiency due to the passive nature of model exploration, causing delayed understanding of new transition dynamics. This results in particular

meta reinforcement learning hypothesis network planned exploration adaptation speed model accuracy rapidly evolving settings

发现论文，激发创造

元强化学习中近似超状态空间的探索

本文提出了一种名为 HyperX 的方法，利用元学习的奖励机制，通过近似超状态空间来探索，从而解决了在稀疏奖励情况下元训练的任务探索问题。实验证明，HyperX 方法可以更好地元学习，成功地适应新任务。

Oct, 2020

元强化学习中的超网络

本研究基于机器人实验，研究了在多个相关任务中训练深度强化学习模型的样本效率问题，采用一种称为超网络的方法来解决模型泛化问题，并且提出了一种新的超网络初始化策略，该策略在多个模拟机器人基准测试上的表现超过了现有方法。

Oct, 2022

结构化探索策略的元强化学习

本研究探讨如何从先前的经验中学习探索策略，并介绍了一种新的基于梯度的快速自适应算法（MAESN）来学习从先前任务中发现的探索策略。该方法相比先前的元 RL、RL 无学习的探索策略和任务不可知的探索方法更加有效，并在模拟任务中进行了评估。

Feb, 2018

MAME：模型无关元探索

本论文提出了一种在元强化学习中有效实现探索策略的方法，即通过建立一个单独的探索策略，通过自监督和监督学习目标来实现适应，相较于现有的方法可以更加灵活和高效地训练策略，并在实验中表现出更卓越的性能。

Nov, 2019

基于偏好的快速适应元强化学习

本研究基于元强化学习框架，探究了在人机交互中，通过基于偏好的反馈，而非数值奖励，在少数试验中快速调整策略以适应新任务的机制，并通过信息论技术设计问题序列来最大化人类专家的信息获取效率，实验结果表明其显著优于传统算法。

Nov, 2022

基于模型的元强化学习方法：变压器和树搜索

通过模型学习和在线计划，基于 Transformer 架构的模型算法在元强化学习问题的符号 Alchemy 环境中展示出比先前应用的基于模型无关的强化学习方法更好的性能，揭示了基于模型的方法在元学习的探索和利用方面的相关性和变现出复杂动态的 Transformer 架构的效率。

Aug, 2022

元强化学习在动态现实环境中的自适应学习

本研究旨在提出一种模型基础的强化学习元学习方法，以在明显减少样本数量的情况下实现机器人在线适应新任务，并证明该方法在模拟和实际机器人中的有效性。

Mar, 2018

PEAR: 用于增强分层强化学习的原语启用自适应重新标记

本研究提出一种基于 Hierarchical Reinforcement Learning (HRL) 和 imitation learning 的算法，称为 primitive enabled adaptive relabeling (PEAR)，其首先对少量的 expert demonstrations 进行自适应 relabeling，以生成子目标监督数据集，然后采用 imitation learning 来规范化 HRL agents，此方法可以被轻松地集成到典型的 model free reinforcement learning 算法中以解决大多数机器人任务。

Jun, 2023

分层变压器是高效的元强化学习者

Hierarchical Transformers for Meta-Reinforcement Learning (HTrMRL) is an online meta-reinforcement learning approach that improves learning efficiency and generalization capabilities, outperforming the previous state-of-the-art algorithm in various tasks.

Feb, 2024

使用循环神经网络和模型无关强化学习进行未知环境中的主动假设检验

该研究提出一种深度强化学习和监督学习相结合的方法，用于解决在完全未知环境中的主动顺序假设测试问题。结果表明，与 Chernoff 测试相比，该方法在有限和无限视野问题中表现出竞争力并有时表现更好。

Mar, 2023