前向-后向强化学习
本文提出了一种基于逆向强化学习的方法,用于训练机器人完成目标导向任务,该方法自动生成适应智能体表现的初始状态课程,即使面对目前最先进的强化学习方法无法解决的困难仿真导航和纤细操纵问题也可取得显著成果。
Jul, 2017
提高样本效率是模型自由强化学习中的一个挑战,本文提出了一种名为Backplay的方法,利用单个演示构建任务的课程并以该演示的末端为起点进行训练,最终在可竞争方法中优化训练速度。
Jul, 2018
本文提出了一种基于无人监督学习的算法,用于训练代理达成感知确定目标,通过学习目标条件化策略和目标实现奖励函数,代理人能够在没有手工奖励或专业数据的情况下掌握环境的控制方法。
Nov, 2018
本研究探讨了使用反强化学习将语言命令作为奖励函数的问题,并提出了一种将语言命令作为深度神经网络表示的奖励函数的学习算法,即语言条件奖励学习(LC-RL)。实验结果表明,与直接学习语言条件策略相比,使用LC-RL学习的奖励可以更好地在新任务和环境中进行迁移。
Feb, 2019
通过整合演示(demonstrations)的方法,本研究探讨如何加速强化学习的收敛速度,以达到能够到达任何目标的策略,并且在与其他模仿学习算法训练的代理相比表现更好。
Jun, 2019
本文介绍了逆强化学习(inverse RL),采用逆强化学习方法来实现目标重标记技术(goal-relabeling techniques),并证实在多任务设置下,包括目标达成、具有离散奖励集合和线性奖励函数的领域中,使用逆强化学习加速了学习过程。
Feb, 2020
本文从分歧最小化的角度解释了追溯目标重标记技术在多目标强化学习中的应用,将目标达成问题重新定义为模仿学习框架,并从该框架中推导出多种算法。实验结果表明,与行为克隆相比,Q-learning算法在追溯重标记技术下表现更优,但两者的普通组合会降低性能。此外,该论文还解释了奖励为(-1,0)明显优于(0,1)时的困惑现象。
Sep, 2022
我们提出了一个多步骤过程,通过学习一个逆向的世界模型、生成目标达成的逆向轨迹、使用最短路径搜索算法改进这些序列,并通过模仿学习训练神经网络策略,肯定地回答了在强化学习中是否可以学习没有奖励的策略以及仅通过尝试达到目标状态是否可以学习策略的问题。在一个确定性迷宫环境中进行评估,其中观测是64×64像素鸟瞰图像,并且可以表明该方法始终达到多个目标。
Dec, 2023