使用内禀动机学习目标条件策略的深度强化学习

AAAIApr, 2021

使用内禀动机学习目标条件策略的深度强化学习

Learn Goal-Conditioned Policy with Intrinsic Motivation for Deep Reinforcement Learning

Jinxin Liu, Donglin Wang, Qiangxing Tian, Zhengyu Chen

TL;DR本文提出了一种新的无监督学习方法，名为具有内在动机的目标导向策略（GPIM）。通过将抽象级别的策略与目标条件策略联合学习，本方法在各种机器人任务中证明了其有效性和高效性，大大优于先前的技术。

Abstract

It is of significance for an agent to learn a widely applicable and general-purpose policy that can achieve diverse goals including images and text descriptions. Considering such perceptually-specific goals, the frontier of deep reinforcement learning research is to learn a goal-condit

reinforcement learning policy learning unsupervised learning intrinsic motivation robotic tasks

发现论文，激发创造

自我目标驱动的内在动机条件强化学习下的 Autotelic Agents：一个简短调查

本文介绍了发展性强化学习并提出了一个基于目标条件强化学习的计算框架，以解决本能动机技能获取问题，着重探讨了在自主系统中学习目标表示和优先级的现有方法，并讨论了在 intrinsically motivated skills acquisition 中的一些挑战。

Dec, 2020

学习策略梯度方法的内部奖励

本文中，研究了在序列决策任务中，优化奖励函数对于强化学习的性能具有重要意义，提出了一种适用于基于策略梯度的学习代理的学习内在奖励的算法，并在性能上对比了使用该方法的强化学习代理和仅使用外在奖励的代理。

Apr, 2018

无参判别奖励的无监督控制

本文提出了一种基于无人监督学习的算法，用于训练代理达成感知确定目标，通过学习目标条件化策略和目标实现奖励函数，代理人能够在没有手工奖励或专业数据的情况下掌握环境的控制方法。

Nov, 2018

想象目标的视觉强化学习

介绍了一种通过结合无监督表示学习和强化学习来获得一般技能库的算法，可以处理原始感官输入（如图像），并使用后期目标重新标记方案来进一步提高其方法的样本效率，在实际机器人系统上获得了比之前的技术更好的效果。

Jul, 2018

自监督学习距离函数用于目标条件强化学习

本文在使用子目标分解强化学习问题时，提出学习适当距离的方法以确定目标是否已实现，并就三种不同情境提出了解决方案，同时还提出了一个目标生成机制。

Jul, 2019

基于无监督学习的目标领域非赏值驱动探索

本研究提出使用深度表示学习算法学习目标空间的方法，通过此方法可以发现探索算法，与工程化表示法相比性能表现相匹配。

Mar, 2018

使用目标条件策略模拟基于图的规划

该论文提出了一种基于图形规划算法和自我模仿的方法，通过提取子目标策略来优化目标目标策略，从而提高在长期任务中实现指定目标的样本效率。

Mar, 2023

奖励条件下的策略

本篇论文旨在探讨利用非专家轨迹收集数据进行监督学习以实现行为策略的泛化，探讨了基于此原理进行的策略搜索的方法，并在标准基准测试中与多种强化学习方法进行了比较。

Dec, 2019

具备自然语言目标的逆强化学习

本文提出了一种新颖的对抗式逆强化学习算法，使用条件化语言政策和奖励函数，以及使用变分目标生成器提高学习策略和奖励函数的泛化性，从而使自然语言变得可用于指导智能体任务的目标，获得了非常好的性能表现。

Aug, 2020

深度策略的目标条件生成器

研究探讨了目标条件强化学习，使用上下文命令生成生成深度神经网络策略的权重矩阵的目标条件神经网络，并使用超网络和策略嵌入来扩展该方法以生成深层神经网络。通过实验证明，单个生成的策略生成器可以产生在训练过程中观察到的任何回报的策略，并且该算法在一组连续控制任务中表现出有竞争力的性能。

Jul, 2022