无监督时序距离感知目标条件强化学习

Jul, 2024

无监督时序距离感知目标条件强化学习

TLDR: Unsupervised Goal-Conditioned RL via Temporal Distance-Aware Representations

Junik Bae, Kwanyoung Park, Youngwoon Lee

TL;DR无监督的目标条件增强学习（GCRL）是一种有前途的方法，可以在没有外部监督的情况下开发多样化的机器人技能。本文提出了一种新颖的无监督GCRL方法，利用时间距离感知表示（TLDR），通过选择远离的目标进行探索并计算基于时间距离的内在探索奖励和目标达成奖励，以克服其他方法在复杂环境中涵盖广泛状态的限制。实验结果表明，我们的方法在六个模拟机器人运动环境中显著优于之前的无监督GCRL方法，可以实现多样的状态。

Abstract

unsupervised goal-conditioned reinforcement learning (GCRL) is a promising paradigm for developing diverse robotic skills without external supervision. However, existing unsupervised GCRL methods often struggle to cover a wide range of states in complex environments due to their limite

发现论文，激发创造

想象目标的视觉强化学习

介绍了一种通过结合无监督表示学习和强化学习来获得一般技能库的算法，可以处理原始感官输入（如图像），并使用后期目标重新标记方案来进一步提高其方法的样本效率，在实际机器人系统上获得了比之前的技术更好的效果。

Jul, 2018

无参判别奖励的无监督控制

本文提出了一种基于无人监督学习的算法，用于训练代理达成感知确定目标，通过学习目标条件化策略和目标实现奖励函数，代理人能够在没有手工奖励或专业数据的情况下掌握环境的控制方法。

Nov, 2018

半监督和无监督技能探索的动态距离学习

本篇论文研究了如何通过自主互动学习动态距离，并使用它们来提供良好的奖励函数，以便无需人为设计奖励函数或目标示例，使用半监督学习方法在实际机器人和仿真环境中有效地执行复杂任务。

Jul, 2019

无监督离策略强化学习实现真实世界机器人技能

本文提出的无监督技能发现算法可用于进行高效无监督增强学习，通过模型预测控制将学习到的技能组合用于目标导航。

Apr, 2020

利用预训练技能来拓展目标勘探，用于稀疏奖励长时间尺度的目标条件加强学习

本文提出了一种新的学习目标，通过优化已实现和未来需要探索的目标的熵，以更高效地探索子目标选择基于GCRL，该方法可以显著提高现有技术的探索效率并改善或保持它们的表现。

Oct, 2022

具有子目标预测的目标条件监督学习

本文介绍了一种基于“目标条件下的先验知识学习”（GCSL）算法的延伸方法TraIL，在原有算法基础之上，通过利用轨迹的信息来预测动作和目标子目标，从而使得智能体可以在更多的目标状态下取得更好的性能表现。

May, 2023

基于解离式可达性规划的目标驱动强化学习

我们提出了一种基于目标条件的强化学习算法，结合了解缠绕的可达性规划（REPlan），用于解决时间延展任务，在模拟和真实世界任务中，REPlan显著优于之前最先进的方法。

Jul, 2023

METRA: 基于度量感知抽象的可扩展无监督强化学习

通过提出一种称为Metric-Aware Abstraction (METRA)的新颖无监督强化学习目标，本研究在复杂的高维环境中实现了无监督强化学习的可扩展性，发现了多样化的行为，其中包括以像素为基础的四足动物和人形动作的多样化运动行为。

Oct, 2023

使用条件扩散模型拼接子轨迹以实现目标条件离线强化学习

使用SSD模型，基于离线数据集利用条件扩散模型生成高质量计划，成功将离线数据中的子优化轨迹段拼接起来，并在GCRL标准基准任务中取得了领先水平的性能。

Feb, 2024

带有希尔伯特表示的基础政策

通过学习结构化表示并利用方向性移动跨越学习的潜在空间，我们提出了一种新的无监督框架，用于从无标签的离线数据中预训练能够捕捉多样化、最优且长程行为的通用策略，并可以在零样本方式下快速适应任意新任务。在模拟机器人的运动和操作基准测试中的实验证明，我们的无监督策略可以以零样本的方式解决目标有条件的和通用 RL 任务，甚至经常优于针对每个场景专门设计的先前方法。

Feb, 2024