走随机漫步：学习在没有监管的情况下发现和实现目标

Jun, 2022

走随机漫步：学习在没有监管的情况下发现和实现目标

Walk the Random Walk: Learning to Discover and Reach Goals Without Supervision

Lina Mezghani, Sainbayar Sukhbaatar, Piotr Bojanowski, Karteek Alahari

TL;DR提出一种新颖的方法，使用随机漫步训练到达网络以预测环境中两个状态的相似性，并使用得到的到达网络构建目标存储器，最终训练了一个有能力到达任何给定状态的目标条件代理，应用于连续控制导航和机器人控制任务。

Abstract

Learning a diverse set of skills by interacting with an environment without any external supervision is an important challenge. In particular, obtaining a goal-conditioned agent that can reach any given state is useful in many applications. We propose a novel method for training such a

goal-conditioned agent random walk reachability network goal memory robotic manipulation

发现论文，激发创造

无参判别奖励的无监督控制

本文提出了一种基于无人监督学习的算法，用于训练代理达成感知确定目标，通过学习目标条件化策略和目标实现奖励函数，代理人能够在没有手工奖励或专业数据的情况下掌握环境的控制方法。

Nov, 2018

反向学习的目标导向策略

我们提出了一个多步骤过程，通过学习一个逆向的世界模型、生成目标达成的逆向轨迹、使用最短路径搜索算法改进这些序列，并通过模仿学习训练神经网络策略，肯定地回答了在强化学习中是否可以学习没有奖励的策略以及仅通过尝试达到目标状态是否可以学习策略的问题。在一个确定性迷宫环境中进行评估，其中观测是 64×64 像素鸟瞰图像，并且可以表明该方法始终达到多个目标。

Dec, 2023

使用目标条件强化学习的路径规划中的全控制智能体

本研究提出了一种新的强化学习框架来帮助完全可控的智能体进行路径规划，并通过使用双向记忆编辑方法得到智能体的不同双向轨迹，隔离政策网络并利用专门的子目标网络来将智能体移动至不同方向，最后通过奖励形态化来缩短智能体到达目标的步骤数。实验结果表明，智能体能够到达训练中从未到达过的各种目标，并且能够使用奖励形态化来选择较短的路径。

May, 2022

为高效探索确定目标取向轨迹

本研究查明了纯随机漫步无法在大多数环境中成功扩展探索领域，并提出将单个随机操作选择替换为随机目标选择，该方法与任何基于好奇心的探索和脱机强化学习代理兼容，并生成比单个随机操作更长且更安全的轨迹。

Jul, 2018

基于解离式可达性规划的目标驱动强化学习

我们提出了一种基于目标条件的强化学习算法，结合了解缠绕的可达性规划（REPlan），用于解决时间延展任务，在模拟和真实世界任务中，REPlan 显著优于之前最先进的方法。

Jul, 2023

前向 - 后向强化学习

通过训练一个模型来从已知的目标状态开始进行逆向预测，将强化学习中的目标函数引入到代理中，从而加速训练过程，并在 Gridworld 和汉诺塔游戏中进行了实验验证。

Mar, 2018

自监督学习距离函数用于目标条件强化学习

本文在使用子目标分解强化学习问题时，提出学习适当距离的方法以确定目标是否已实现，并就三种不同情境提出了解决方案，同时还提出了一个目标生成机制。

Jul, 2019

强化学习智能体自动生成目标

提出了一种基于 Adversarial training 的方法，用于 Reinforcement learning 中任务发现的问题，可以实现在不需要任何先验环境知识的情况下，对多元化任务的高效自动学习，并且能够解决传统上存在的稀疏奖励问题。

May, 2017

通过价值分歧进行自动课程学习

通过提出自动课程设计和目标建议模块，来提高强化学习中的多任务目标采样效率，并在机器人和导航任务中展示了比现有方法更好的性能。

Jun, 2020

通过迭代监督学习学习实现目标

本文介绍了一种强化学习算法，利用模仿学习从零开始获得目标达成策略，而不需要专家演示或价值函数，并通过该算法在多个基准任务中达到了比现有强化学习算法更好的目标达成性能和鲁棒性。

Dec, 2019