Jul, 2021

开放式学习导致通用能力的代理

TL;DR本文介绍了一种基于多智能体、开放式学习的方法,其能够使得智能体在一种包含大量挑战、跨越多个任务、更广泛的行为通用化领域中表现出非凡的学习能力。通过在环境中建立一个任务的宇宙,我们的训练代理能够跨越更广泛的任务领域,这个领域自然多智能体,涉及合作竞争等多种类型的游戏,而这一领域的挑战对于智能体来说多种多样,因此,我们提出了一种迭代方法来改进代理的效果,而不是试图最大化一个单一目标。最终,我们证明了这种代理的通用能力,可以通过简单的微调实现更大规模的行为传递。