目标条件的强化学习中通过自适应技能分配实现目标探索

Apr, 2024

目标条件的强化学习中通过自适应技能分配实现目标探索

Goal Exploration via Adaptive Skill Distribution for Goal-Conditioned Reinforcement Learning

Lisheng Wu, Ke Chen

TL;DR通过自适应技能分布来优化探索效率，并且提高对环境结构模式的利用，这能够显著改善目标导向强化学习中的探索效率，并在具有类似局部结构的未知任务中展现强大的泛化能力。

Abstract

exploration efficiency poses a significant challenge in goal-conditioned reinforcement learning (GCRL) tasks, particularly those with long horizons and sparse rewards. A primary limitation to exploration efficiency

exploration efficiency goal-conditioned reinforcement learning adaptive skill distribution environmental structural patterns deep exploration

发现论文，激发创造

利用预训练技能来拓展目标勘探，用于稀疏奖励长时间尺度的目标条件加强学习

本文提出了一种新的学习目标，通过优化已实现和未来需要探索的目标的熵，以更高效地探索子目标选择基于 GCRL，该方法可以显著提高现有技术的探索效率并改善或保持它们的表现。

Oct, 2022

基于解离式可达性规划的目标驱动强化学习

我们提出了一种基于目标条件的强化学习算法，结合了解缠绕的可达性规划（REPlan），用于解决时间延展任务，在模拟和真实世界任务中，REPlan 显著优于之前最先进的方法。

Jul, 2023

自适应上下文强化学习

研究智能自主机器人如何通过新方法中的相对熵奖励学习算法来提高样本效率并使学习扩展到更广泛和尖锐的任务上。

Oct, 2019

通过修剪原型目标扩展目标导向探索的规模

本研究基于强化学习，通过在人工设计产生的广泛目标空间中寻找可控、可达、新颖和相关目标的自主发现过程，弥补探索广域领域中新奇性和涵盖性行为不足的问题，并在三种具有挑战性的环境中证明了目标导向的探索的有效性。

Feb, 2023

SkillS: 自适应技能序列用于高效的时间扩展探索

我们提出了一种在多个领域中比现有方法更出色的技能转移方法，通过学习现有的时间扩展技能序列来进行探索，并直接从原始经验中学习最终策略，实现快速适应和高效数据收集。

Nov, 2022

目标导向强化学习：问题与解决方案

本文综述了目标条件强化学习的挑战、算法、目标表示以及未来研究方向。

Jan, 2022

交换式目标条件离线强化学习

本研究提出了一种离线目标条件强化学习方法，其中包括了通过目标交换产生其他轨迹，以及一个名为确定性 Q - 优势策略梯度的算法，它能够降低噪声和推断误差，与现有的离线目标条件强化学习的方法相比在广泛的基准测试中表现优异，且在具有挑战性的手部操作任务中表现尤为出色。

Feb, 2023

使用数据驱动指导学习任务无关技能

本文提出了一种使用学习的状态投影来引导技能发现，从而使得强化学习的代理人在特定任务中获得了更有用的行为。

Aug, 2021

结构化探索策略的元强化学习

本研究探讨如何从先前的经验中学习探索策略，并介绍了一种新的基于梯度的快速自适应算法（MAESN）来学习从先前任务中发现的探索策略。该方法相比先前的元 RL、RL 无学习的探索策略和任务不可知的探索方法更加有效，并在模拟任务中进行了评估。

Feb, 2018

长时间多目标强化学习的最大熵增益探索

本文探讨了当测试目标分布过于远离时，多目标强化学习应当追求怎样的目标，提出了优化历史完成目标分布熵的内在目标，通过在目标空间中极少被探索区域内的历史完成目标的追求实现探索，成功提高了长期目标任务中的数据利用效率。

Jul, 2020