前向-后向强化学习

Mar, 2018

Forward-Backward Reinforcement Learning

Ashley D. Edwards, Laura Downs, James C. Davidson

TL;DR通过训练一个模型来从已知的目标状态开始进行逆向预测，将强化学习中的目标函数引入到代理中，从而加速训练过程，并在Gridworld和汉诺塔游戏中进行了实验验证。

Abstract

Goals for reinforcement learning problems are typically defined through hand-specified rewards. To design such problems, developers of learning algorithms must inherently be aware of what the task goals are, yet

发现论文，激发创造

逆向课程生成用于强化学习

本文提出了一种基于逆向强化学习的方法，用于训练机器人完成目标导向任务，该方法自动生成适应智能体表现的初始状态课程，即使面对目前最先进的强化学习方法无法解决的困难仿真导航和纤细操纵问题也可取得显著成果。

Jul, 2017

回放：必须不停地倒转

提高样本效率是模型自由强化学习中的一个挑战，本文提出了一种名为Backplay的方法，利用单个演示构建任务的课程并以该演示的末端为起点进行训练，最终在可竞争方法中优化训练速度。

Jul, 2018

无参判别奖励的无监督控制

本文提出了一种基于无人监督学习的算法，用于训练代理达成感知确定目标，通过学习目标条件化策略和目标实现奖励函数，代理人能够在没有手工奖励或专业数据的情况下掌握环境的控制方法。

Nov, 2018

从语言到目标：基于视觉的逆强化学习指令跟随

本研究探讨了使用反强化学习将语言命令作为奖励函数的问题，并提出了一种将语言命令作为深度神经网络表示的奖励函数的学习算法，即语言条件奖励学习（LC-RL）。实验结果表明，与直接学习语言条件策略相比，使用LC-RL学习的奖励可以更好地在新任务和环境中进行迁移。

Feb, 2019

目标驱动的模仿学习

通过整合演示（demonstrations）的方法，本研究探讨如何加速强化学习的收敛速度，以达到能够到达任何目标的策略，并且在与其他模仿学习算法训练的代理相比表现更好。

Jun, 2019

用逆强化学习改写历史：后见推断对政策改进的影响

本文介绍了逆强化学习（inverse RL），采用逆强化学习方法来实现目标重标记技术（goal-relabeling techniques），并证实在多任务设置下，包括目标达成、具有离散奖励集合和线性奖励函数的领域中，使用逆强化学习加速了学习过程。

Feb, 2020

模拟过去的学习

本文摘要：本研究的目的是基于人类反馈对智能体进行政策学习，同时通过学习特征编码器结合学习反向模型，从而使得智能体能够向后模拟人类行为以推断人类行为背后的动机。

Apr, 2021

从最小化差异的角度理解事后目标重标记

本文从分歧最小化的角度解释了追溯目标重标记技术在多目标强化学习中的应用，将目标达成问题重新定义为模仿学习框架，并从该框架中推导出多种算法。实验结果表明，与行为克隆相比，Q-learning算法在追溯重标记技术下表现更优，但两者的普通组合会降低性能。此外，该论文还解释了奖励为（-1,0）明显优于（0,1）时的困惑现象。

Sep, 2022

反向学习的目标导向策略

我们提出了一个多步骤过程，通过学习一个逆向的世界模型、生成目标达成的逆向轨迹、使用最短路径搜索算法改进这些序列，并通过模仿学习训练神经网络策略，肯定地回答了在强化学习中是否可以学习没有奖励的策略以及仅通过尝试达到目标状态是否可以学习策略的问题。在一个确定性迷宫环境中进行评估，其中观测是64×64像素鸟瞰图像，并且可以表明该方法始终达到多个目标。

Dec, 2023

将离线强化学习重新构建为回归问题

该研究将离线强化学习重新定义为一个可以用决策树解决的回归问题，通过梯度提升树可以实现快速训练和推理，同时对通用性进行了讨论。

Jan, 2024