通过非对称自对弈实现内在动机和自动课程学习

ICLRMar, 2017

Intrinsic Motivation and Automatic Curricula via Asymmetric Self-Play

Sainbayar Sukhbaatar, Zeming Lin, Ilya Kostrikov, Gabriel Synnaeve, Arthur Szlam...

TL;DR通过提出动态协同（Alice 和 Bob）的兴趣课程，使用一种适当的奖励机制，有效地进行无人监督的强化学习，用于环境感知系统中的智能体的训练

Abstract

We describe a simple scheme that allows an agent to learn about its environment in an unsupervised manner. Our scheme pits two versions of the same →

发现论文，激发创造

提出了一种新颖的自主强化学习算法，能够根据智能体的学习进展生成自适应课程，使智能体能够高效地解决稀疏奖励迷宫导航任务，同时减少了手动复位。

Nov, 2023

通过不对人类先验假设的依赖，我们可以通过非对称自我博弈的方法训练出只需稀疏奖励的 Bob，并且他可以从 Alice 的轨迹中学习，以实现目标发现和机器人操作的一体化控制。

Jan, 2021

提出了一种新的强化学习算法 -“隐式和双向课程算法”(IBC)，该算法能够在无需演示数据的情况下，通过辅助主体和双向目标课程实现自主学习，与现有的自主强化学习方法相比表现更好且具有更广泛的适用性。

May, 2023

研究探讨了如何在动态的环境下使用自动生成的任务大纲来改善智能体的效果，介绍了使用目标的有效性、可行性和覆盖面的考虑来构建有用的任务大纲的新技术，并在 2D 和 3D 环境中展示了成功应用。

Sep, 2019

使用神经网络的好奇心驱动内在动机以及采用自我监督的方法，在简单而生态自然的模拟环境中，实现自主环境探索，获取对环境的理解，从而创造一系列复杂的行为，并提高了对象动态预测、检测、定位和识别任务的性能。

Feb, 2018

通过提出自动课程设计和目标建议模块，来提高强化学习中的多任务目标采样效率，并在机器人和导航任务中展示了比现有方法更好的性能。

Jun, 2020

通过多智能体竞争、自我监督的自动课程设置以及规模化的强化学习算法，我们发现代理创建了多个不同的新兴策略，其中许多需要复杂的工具使用和协调，并提供了有关多智能竞争可能扩展至更复杂环境的证据。

Sep, 2019

本论文提出了一种基于内在动机的目标探索算法，结合自主学习过程和增量式目标策略搜寻探索，可以自动生成任务序列并发掘多种技能，无需特定的目标指令，适用于机器人等人工智能设备的自主发展学习。

Aug, 2017

本文提出一种受人类教学启发的替代方法，即代理在自动指导监督下学习，其中引入了监视器来防止其在学习过程中违反约束条件。

Jun, 2020

该论文提出了一种名为 CURIOUS 的算法，它利用 MODULAR Universal Value Function Approximator 和自动化课程学习机制来实现学习代理的自主目标设定和自我组织学习课程，实现学习目标的快速最优化。

Oct, 2018