强化学习智能体自动生成目标

ICMLMay, 2017

Automatic Goal Generation for Reinforcement Learning Agents

Carlos Florensa, David Held, Xinyang Geng, Pieter Abbeel

TL;DR提出了一种基于 Adversarial training 的方法，用于 Reinforcement learning 中任务发现的问题，可以实现在不需要任何先验环境知识的情况下，对多元化任务的高效自动学习，并且能够解决传统上存在的稀疏奖励问题。

Abstract

reinforcement learning is a powerful technique to train an agent to perform a task. However, an agent that is trained using →

reinforcement learning agent task discovery adversarial training sparse rewards

发现论文，激发创造

逆向课程生成用于强化学习

本文提出了一种基于逆向强化学习的方法，用于训练机器人完成目标导向任务，该方法自动生成适应智能体表现的初始状态课程，即使面对目前最先进的强化学习方法无法解决的困难仿真导航和纤细操纵问题也可取得显著成果。

Jul, 2017

通过价值分歧进行自动课程学习

通过提出自动课程设计和目标建议模块，来提高强化学习中的多任务目标采样效率，并在机器人和导航任务中展示了比现有方法更好的性能。

Jun, 2020

前向 - 后向强化学习

通过训练一个模型来从已知的目标状态开始进行逆向预测，将强化学习中的目标函数引入到代理中，从而加速训练过程，并在 Gridworld 和汉诺塔游戏中进行了实验验证。

Mar, 2018

无任务特定知识的自主强化学习自我监督课程生成

提出了一种新颖的自主强化学习算法，能够根据智能体的学习进展生成自适应课程，使智能体能够高效地解决稀疏奖励迷宫导航任务，同时减少了手动复位。

Nov, 2023

提高代理学习的方法：保证所有回合实现目标

强化学习是解决环境并实现目标达成的框架，该研究提出了一种灵活的算法来提升学习效率并确保目标达成的性质。通过实验证明，该算法能够增强学习效果并保持目标的达成性质。

May, 2024

自我目标驱动的内在动机条件强化学习下的 Autotelic Agents：一个简短调查

本文介绍了发展性强化学习并提出了一个基于目标条件强化学习的计算框架，以解决本能动机技能获取问题，着重探讨了在自主系统中学习目标表示和优先级的现有方法，并讨论了在 intrinsically motivated skills acquisition 中的一些挑战。

Dec, 2020

生成型人工智能的强化学习：现状和机遇，开放研究挑战

通过应用强化学习于生成型人工智能，我们讨论了现有技术水平、机会以及开放性研究问题。具体而言，我们分析了三种应用情况，包括没有指定目标的生成方法、在最大化目标函数的同时生成输出的方法，以及将难以通过目标函数捕捉到的所需特征嵌入生成过程的方法。这一令人着迷的新兴领域的机会和挑战也在调查中得到了深入讨论。

Jul, 2023

可控行为的弱监督强化学习

本文介绍了一种使用弱监督来自动区分语义明确的任务子空间和无意义的 “杂草” 任务空间的方法。研究表明，这种学习到的子空间可实现高效探索，并提供了一种捕捉状态间距离的表示形式。该方法在多种具有挑战性的基于视觉的连续控制问题中实现了显著的性能提升，特别是在环境复杂性增加的情况下。

Apr, 2020

想象目标的视觉强化学习

介绍了一种通过结合无监督表示学习和强化学习来获得一般技能库的算法，可以处理原始感官输入（如图像），并使用后期目标重新标记方案来进一步提高其方法的样本效率，在实际机器人系统上获得了比之前的技术更好的效果。

Jul, 2018

具备自然语言目标的逆强化学习

本文提出了一种新颖的对抗式逆强化学习算法，使用条件化语言政策和奖励函数，以及使用变分目标生成器提高学习策略和奖励函数的泛化性，从而使自然语言变得可用于指导智能体任务的目标，获得了非常好的性能表现。

Aug, 2020