目标条件智能体开放式学习问题定义
本文介绍了发展性强化学习并提出了一个基于目标条件强化学习的计算框架,以解决本能动机技能获取问题,着重探讨了在自主系统中学习目标表示和优先级的现有方法,并讨论了在 intrinsically motivated skills acquisition 中的一些挑战。
Dec, 2020
本文介绍了一种基于多智能体、开放式学习的方法,其能够使得智能体在一种包含大量挑战、跨越多个任务、更广泛的行为通用化领域中表现出非凡的学习能力。通过在环境中建立一个任务的宇宙,我们的训练代理能够跨越更广泛的任务领域,这个领域自然多智能体,涉及合作竞争等多种类型的游戏,而这一领域的挑战对于智能体来说多种多样,因此,我们提出了一种迭代方法来改进代理的效果,而不是试图最大化一个单一目标。最终,我们证明了这种代理的通用能力,可以通过简单的微调实现更大规模的行为传递。
Jul, 2021
该论文提出了一种基于马尔可夫决策过程的分层架构,使用内在动机最大化机器人学习多个具有关联性目标的能力,并提出了一种新的系统H-GRAIL来记录自主获取的任务序列,以能够在非稳态情况下修改它们。
May, 2022
提出了一种新的基于回归的离线GCRL算法GoFAR,通过状态匹配方法解决了目标达成任务问题,并充分利用价值函数和策略网络的优势,在离线性能和稳定性方面表现优异。GoFAR的训练目标还可以用于纯离线数据学习无特定环境的目标条件规划器,实现了零样本迁移。通过实验证明,GoFAR在各种问题和任务中都表现出比之前现有技术的显著优势。
Jun, 2022
通过将探索驱动的学习概念性地统一监督学习和强化学习之间的探索驱动学习,我们提出了广义探索问题,以突出不同学习设置之间的关键相似之处和开放研究挑战,广义探索是用于维护开放式学习过程的必要目标。
Nov, 2022
该论文介绍了一种称为无监督环境设计(UED)的方法,通过自动生成无限的训练环境序列或课程以匹配或超过真实世界的复杂性,从而实现深度强化学习代理在鲜有环境示例中表现出显著改进的鲁棒性和泛化能力,这些自生成的环境课程为不断生成和掌握自主设计的额外挑战的开放式学习系统提供了有希望的路径。
Dec, 2023
通过引入"Diffusion for Open-ended Goals"(DOG)框架来提升具有人工智能的体验智能体(如机器人)的能力,以处理未预见的多方面、动态的、缺乏明确定义的的开放式任务目标,并展示了DOG在迷宫导航和机器人控制问题中处理未见过的任务目标的能力,以增强体验智能体在处理开放式目标时的适应性和能力。
Dec, 2023
通过内在动机和自主生成的目标的引导,自主开放式学习(OEL)机器人能够通过与环境的直接交互累积地获得新的技能和知识。本研究针对OEL机器人在获得的知识与用户任务的相关性之间存在的问题,提出了基于'purpose'的概念的解决方案,并开发了一个具有三层动机层次结构的计算框架,从而使机器人能够自主学习并专注于获取与设计师和用户目的相关的目标和技能。
Mar, 2024
本研究介绍了一种新颖的框架OMNI-EPIC,通过在人类有趣概念模型(OMNI)中加入编程环境(EPIC),使用基础模型自动生成学习任务的代码和环境,从而创造各种可学习和有趣的环境,进一步推动自我进化的AI系统和AI生成算法的发展。
May, 2024