稀疏奖励领域结构化探索的学习成就结构

ICLRApr, 2023

稀疏奖励领域结构化探索的学习成就结构

Learning Achievement Structure for Structured Exploration in Domains with Sparse Reward

Zihan Zhou, Animesh Garg

TL;DR提出了一种名为 SEA 的多阶段强化学习算法，用于处理内部包含成就的环境，首先使用离线数据学习已知成就的表示，然后通过启发式算法恢复学习成就的依赖关系图，并通过与该图交互来学习掌握已知成就并发掘新成就的策略，从而提高了高维度观察下的探索能力。

Abstract

We propose structured exploration with Achievements (SEA), a multi-stage reinforcement learning algorithm designed for achievement-based environm

reinforcement learning achievement-based environments structured exploration dependency graph exploration algorithms

发现论文，激发创造

结构化探索策略的元强化学习

本研究探讨如何从先前的经验中学习探索策略，并介绍了一种新的基于梯度的快速自适应算法（MAESN）来学习从先前任务中发现的探索策略。该方法相比先前的元 RL、RL 无学习的探索策略和任务不可知的探索方法更加有效，并在模拟任务中进行了评估。

Feb, 2018

采用单步奖励观察的顺序指令到动作的现场映射

该研究提出了一种学习方法，用于将上下文相关的顺序指令映射到动作，并设计出 SESTRA 算法来训练最大化即刻期望奖励的模型，从而实现单步奖励观测。同时，该算法考虑到交互的历史和世界状态的影响，通过实验表明，相较于逻辑表示方法，提出的算法在 SCONE 领域中得到了 9.8%-25.3% 的绝对准确率的提升。

May, 2018

SEA：一种用于多智能体强化学习的空间显式架构

本文提出了一种空间信息提取结构，能够针对多智能体强化学习问题中智能体数量变化和规模巨大等问题，通过编码器 - 解码器结构有效地共享邻域和全局信息。该方法遵循中央训练和分散执行（CTDE）模式，并可以应用于各种现有的主流强化学习算法，在细微修改后可处理智能体数量可变的问题。在多个多智能体场景的实验中，通过添加我们的空间显式架构，现有方法都能得到令人信服的结果。

Apr, 2023

SEER: 通过强化学习促进结构化推理和解释

通过提出 SEER 方法，我们在建立问答系统中，给出结构化解释，提高系统的可解释性和可靠性；实验证明，SEER 方法显著优于现有方法，在 EntailmentBank 上的绝对改进率达到了 6.9%，在 STREET 基准上平均提升了 4.4%，同时展现出卓越的效率和跨数据集的泛化性能。

Jan, 2024

目标条件的强化学习中通过自适应技能分配实现目标探索

通过自适应技能分布来优化探索效率，并且提高对环境结构模式的利用，这能够显著改善目标导向强化学习中的探索效率，并在具有类似局部结构的未知任务中展现强大的泛化能力。

Apr, 2024

高效稳定的多步稀疏奖励强化学习的抽象演示和自适应探索

本文提出了一种 DRL 探索技术 A^2，通过将复杂任务分解成子任务、提供正确的子任务顺序以及自适应探索环境的方式，改善了学习效率，实验表明在多个任务中，A^2 有助于 DQN、DDPG 和 SAC 等普通 DRL 算法在这些环境中更高效、更稳定地学习。

Jul, 2022

通过世界模型发现和实现目标

介绍了一种基于无监督学习的方法 ——Latent Explorer Achiever（LEXA），该方法通过学习世界模型，训练探索者和实现者策略来解决复杂视觉环境中人工智能代理如何学会解决多种不同任务的问题，该方法在四个标准机器人操作和运动领域上显著优于先前的无监督目标达成方法，并最终证明了其可扩展性和普适性。

Oct, 2021

离线学习目标条件策略：自监督奖励塑形

在机器人领域，通过从离线数据集中学习实现多项技能的智能体是一个重要问题。本文提出了在自监督学习阶段对预先收集的数据集进行处理以理解模型的结构和动态，并对离线学习的策略进行强化学习的方法。我们在三个连续控制任务上评估了我们的方法，并展示了我们的模型在特别是涉及长期规划任务上明显优于现有方法。

Jan, 2023

DrS: 针对多阶段任务学习可重复使用的密集奖励

我们提出了一种学习可重复使用稠密奖励的新方法，称为 DrS，能够通过利用任务的阶段结构从稀疏奖励和示范中学习高质量的稠密奖励，并在未知任务中复用，从而减少了人工奖励设计的工作。实验证明我们学到的奖励在未知任务中可以复用，提高了强化学习算法的性能和样本效率，有些任务的性能甚至与人工奖励相媲美。

Apr, 2024

多智体强化学习中的共享经验演员 - 评论家算法

提出了一种名为 SEAC 的算法，该算法应用经验共享策略来提高多智能体强化学习过程中的探索效率，实验结果表明，该算法在稀疏奖励的多智能体环境中，表现优于其他两种基线算法和两种现有算法，在更加困难的环境下甚至可以解决有些无法学会的任务。

Jun, 2020