C-Learning: 通过递归分类实现目标的学习

ICLRNov, 2020

C-Learning: 通过递归分类实现目标的学习

C-Learning: Learning to Achieve Goals via Recursive Classification

Benjamin Eysenbach, Ruslan Salakhutdinov, Sergey Levine

TL;DR探究了预测和控制自主智能体未来状态分布的问题，提出通过训练分类器间接地估计条件概率密度函数来解决，进而探究了基于 Q-learning 的目标条件强化学习方法的理论基础和假设，并且提出了可以预测新政策未来状态分布的算法。

Abstract

We study the problem of predicting and controlling the future state distribution of an autonomous agent. This problem, which can be viewed as a reframing of goal-conditioned reinforcement learning (RL), is center

autonomous agent probability density function goal-conditioned reinforcement learning classifier off-policy

发现论文，激发创造

自监督学习距离函数用于目标条件强化学习

本文在使用子目标分解强化学习问题时，提出学习适当距离的方法以确定目标是否已实现，并就三种不同情境提出了解决方案，同时还提出了一个目标生成机制。

Jul, 2019

HIQL：将潜在状态作为行动的离线目标条件强化学习

无监督预训练成为了计算机视觉和自然语言处理的基石。强化学习中的目标条件下增强学习可以提供类似的自监督方法，以利用大量无标签（无回报）数据。本文提出了一种基于层次结构的算法，用于从离线数据中进行目标条件下的增强学习，并证明了该方法对估计值函数中的噪声具有鲁棒性，并且能够解决具有长时间跨度的任务。

Jul, 2023

通用价值密度估计 —— 对模仿学习和目标条件强化学习的应用

该研究考虑了两种不同的学习方式：模仿学习和目标条件强化学习。该研究介绍了一种基于概率长期动态和期望价值函数之间联系的方法，并利用密度估计的最新进展来有效学习达到指定状态的能力。该方法不仅在目标条件强化学习方面表现高效且不会出现事后偏差问题，在模仿学习方面也达到了标准基准任务的最新样本效率。

Feb, 2020

目标条件下的 Q 学习作为知识蒸馏

本篇论文研究了强化学习在目标条件环境下的表现，提出了一种基于知识蒸馏的 Q 值函数更新方法，可以显著提高高维度空间下的目标条件策略学习，同时在多目标学习中也可以有效应用。此外，本研究还提供了一些理论支持，表明所提出的方法只需要 O (d) 个转移数据就可以完成目标任务，相较于标准的离线算法 DDPG 的需要至少 O (d^2) 个转移数据学习一个最优策略。

Aug, 2022

基于目标条件策略的规划

本文提出了一种结合规划方法和强化学习的方法，利用强化学习学习目标驱动策略，从而让规划方法更好地实现任务；同时利用一个潜在变量模型来简洁地表示规划中的有效状态，从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务中显著优于以往的规划和模型自由方法。

Nov, 2019

DisCo RL: 面向通用策略的分布条件强化学习

本文提出了一种基于目标分布的通用任务表征方法，通过该方法可以实现针对不同任务的灵活重用技能，并开发了一种离策略算法 (Distribution-Conditioned Reinforcement Learning, DisCo RL) 来高效地学习这些策略。在多种机器人操作任务上的实验表明，该方法显著优于先前的方法，尤其是需要对新目标分布进行泛化的任务。

Apr, 2021

从语言到目标：基于视觉的逆强化学习指令跟随

本研究探讨了使用反强化学习将语言命令作为奖励函数的问题，并提出了一种将语言命令作为深度神经网络表示的奖励函数的学习算法，即语言条件奖励学习（LC-RL）。实验结果表明，与直接学习语言条件策略相比，使用 LC-RL 学习的奖励可以更好地在新任务和环境中进行迁移。

Feb, 2019

CostNet: 目标导向强化学习的端到端框架

本文引入一种新的强化学习算法，通过学习马尔可夫决策过程中两个状态之间的距离来预测，距离度量作为内在奖励被用于推动智能体的学习。实验结果表明，相比于模型无关的强化学习，该算法在多个测试环境中具有更好的样本效率。

Oct, 2022

离散阶乘表示作为目标条件强化学习的抽象

提出了一种称为 DGRL 的方法，该方法通过学习目标的阶乘表示，并通过离散化瓶颈进行处理，以更粗略的目标规范来解决在噪声和高维度输入空间中定义目标的挑战；实验证明应用离散化瓶颈可以提高目标条件下的 RL 设置的性能。

Nov, 2022

目标导向强化学习：问题与解决方案

本文综述了目标条件强化学习的挑战、算法、目标表示以及未来研究方向。

Jan, 2022