目标条件智能体开放式学习问题定义
本文介绍了一种基于多智能体、开放式学习的方法,其能够使得智能体在一种包含大量挑战、跨越多个任务、更广泛的行为通用化领域中表现出非凡的学习能力。通过在环境中建立一个任务的宇宙,我们的训练代理能够跨越更广泛的任务领域,这个领域自然多智能体,涉及合作竞争等多种类型的游戏,而这一领域的挑战对于智能体来说多种多样,因此,我们提出了一种迭代方法来改进代理的效果,而不是试图最大化一个单一目标。最终,我们证明了这种代理的通用能力,可以通过简单的微调实现更大规模的行为传递。
Jul, 2021
本研究介绍了四项创新,通过改进 Paired Open-Ended Trailblazer 算法本身和外部创新,实现了迄今为止最开放的算法演示。增强版 POET 产生了解决广泛环境挑战的复杂行为,其中许多不能通过其他手段解决。
Mar, 2020
通过内在动机和自主生成的目标的引导,自主开放式学习(OEL)机器人能够通过与环境的直接交互累积地获得新的技能和知识。本研究针对 OEL 机器人在获得的知识与用户任务的相关性之间存在的问题,提出了基于 'purpose' 的概念的解决方案,并开发了一个具有三层动机层次结构的计算框架,从而使机器人能够自主学习并专注于获取与设计师和用户目的相关的目标和技能。
Mar, 2024
最近几年,AI 系统的总体能力有了巨大提升,主要得益于在互联网规模数据上训练基础模型。然而,创建一个开放性、能够不断自我改进的 AI 系统仍然是困难的。在这篇论文中,我们认为现在已经具备了实现 AI 系统开放性的条件,并且认为这种开放性是任何人工超级智能(ASI)的必要属性。我们首先通过新颖性和可学性的角度提供一个具体的开放性定义。然后,我们展示了通过基础模型上构建开放系统的路径,能够做出新颖的、与人类相关的发现,从而实现 ASI。最后,我们探讨了具有普遍能力的开放 AI 可能带来的安全隐患。我们预计,在不久的将来,开放式基础模型将成为一个日益多产且关键的研究领域。
Jun, 2024
本文介绍了发展性强化学习并提出了一个基于目标条件强化学习的计算框架,以解决本能动机技能获取问题,着重探讨了在自主系统中学习目标表示和优先级的现有方法,并讨论了在 intrinsically motivated skills acquisition 中的一些挑战。
Dec, 2020
本论文提出了一种理解人工通用智能的新理论方法,将其视为智能代理自组织的形成过程,并且阐述了开放式智能的三个方面:个体化、意义的建立和通用认知代理的个体化。
May, 2015
本文介绍了 Paired Open-Ended Trailblazer (POET) 算法,它同时探索了可能问题和解决方案的多个不同路径,允许这些解决方案在不同问题之间传输,从而促进创新,并提出通过这种算法可以不断创造新的复杂能力且能在不同领域产生启示性作用。
Jan, 2019
该论文提出了一种基于马尔可夫决策过程的分层架构,使用内在动机最大化机器人学习多个具有关联性目标的能力,并提出了一种新的系统 H-GRAIL 来记录自主获取的任务序列,以能够在非稳态情况下修改它们。
May, 2022
该论文提出了一个理论框架来推动构建自我发起的开放世界学习(SOL)代理的研究,讨论和解决了在实现完全自主可学习代理方面的挑战,特别是如何自动化地检测未知的情况或新奇情况,并适应或调整代理以从中学习,提高代理的适应能力和任务性能。
Oct, 2021
该论文介绍了一种称为无监督环境设计(UED)的方法,通过自动生成无限的训练环境序列或课程以匹配或超过真实世界的复杂性,从而实现深度强化学习代理在鲜有环境示例中表现出显著改进的鲁棒性和泛化能力,这些自生成的环境课程为不断生成和掌握自主设计的额外挑战的开放式学习系统提供了有希望的路径。
Dec, 2023