Jan, 2021

机器人操作中的自对称自我对弈用于自动目标发现

TL;DR通过不对人类先验假设的依赖,我们可以通过非对称自我博弈的方法训练出只需稀疏奖励的 Bob,并且他可以从 Alice 的轨迹中学习,以实现目标发现和机器人操作的一体化控制。