通过世界模型发现和实现目标

Oct, 2021

Discovering and Achieving Goals via World Models

Russell Mendonca, Oleh Rybkin, Kostas Daniilidis, Danijar Hafner, Deepak Pathak

TL;DR介绍了一种基于无监督学习的方法 ——Latent Explorer Achiever（LEXA），该方法通过学习世界模型，训练探索者和实现者策略来解决复杂视觉环境中人工智能代理如何学会解决多种不同任务的问题，该方法在四个标准机器人操作和运动领域上显著优于先前的无监督目标达成方法，并最终证明了其可扩展性和普适性。

Abstract

How can artificial agents learn to solve many diverse tasks in complex visual environments in the absence of any supervision? We decompose this question into two problems: discovering new goals and learning to reliably achieve them. We introduce Latent Explorer Achiever (LEXA), a unifi

artificial agents visual environments unsupervised learning robotic manipulation world model

发现论文，激发创造

利用大型语言模型增强自我驱动智能体

本研究介绍了一种使用预训练语言模型（LM）的语言模型增强的自我目标学习环境，它支持自动生成并学习具有多样性、抽象性、与人类相关的目标 —— 而非手动编码的目标表示、回报函数或课程，该系统可以在基于文本的任务无关环境中学习掌握各种广泛的技能。

May, 2023

基于无监督学习的目标领域非赏值驱动探索

本研究提出使用深度表示学习算法学习目标空间的方法，通过此方法可以发现探索算法，与工程化表示法相比性能表现相匹配。

Mar, 2018

三维环境中的具身综合应用智能体

利用大规模知识和学习方案以及大型语言模型（LLM），最近的机器学习模型在构建通用性代理人方面取得显著成功，表现出在不同领域（包括自然语言处理、计算机视觉和机器人技术）解决通用任务的能力。然而，这些模型在理解和与三维世界交互方面仍存在显著挑战。我们认为这一限制显著阻碍了当前模型执行现实世界任务和进一步实现通用智能的能力。为此，我们提出了一种根植于三维世界中，并具有多模态和多任务的通用代理人，其在感知、根据、推理、规划和行动方面表现出色。我们的提出的代理人，称为 LEO，在两个阶段进行训练：（一）三维视觉语言对齐，（二）三维视觉语言行动指导调整。为了促进训练，我们细致地策划并生成统计规模和复杂性的物体级和场景级多模态任务的大规模数据集，需要对三维世界进行深入的理解和交互。通过严格的实验证明了 LEO 在广泛任务范围中的出色能力，包括三维字幕、问题解答、根植式推理、根植式导航和机器人操作。我们的消融实验结果进一步为未来根植式通用代理的发展提供了有价值的见解。

Nov, 2023

控制梦境：通过潜在想象学习行为

使用潜意识想象力，在学习世界模型的基础上，Dreamer 这一强化学习代理能够纯粹通过图像解决长周期任务，具有数据效率高，计算时间短和最终性能强等优势。

Dec, 2019

利用探索性规划进行自主学习动作模型

本文提出了一种新型的探索计划代理，它能够在没有专家跟踪或给定目标的情况下学习行动先决条件和效果，优化探索和行动模型学习，运用新的表示为 Lifted Linked Clauses 和一种新颖的探索行动选择方法，并在探索为中心的视频游戏场景中进行实证评估。

Mar, 2022

通过自监督世界模型规划探索

Plan2Explore 是一种无须任务特定交互且能够通过自监督探索和快速适应新任务的强化学习机器人，利用计划来探求未来预期的新颖性并在零次或少次学习中快速适应新任务。

May, 2020

通过问答学习实体视觉导航和任务完成

该研究提出一种名为 ELBA 的模型，以增强具有互动人类能力的代理，通过问答实现动态获取附加信息，以提高任务完成性能，并在 TEACH 视觉对话导航和任务完成数据集上进行了评估。

Feb, 2023

多智能体导航中学习图增强的指挥者 - 执行者模型

本文介绍了一种基于图神经网络的多智能体导航任务的目标条件层次方法，名为 MAGE-X，该方法由高级目标指挥官和低级行动执行器组成，并通过使用关键合作者构建子图来提高合作。结果显示，MAGE-X 在多智能体颗粒环境（MPE）和更复杂的四旋翼 3D 导航任务中均优于最先进的 MARL 基线。

Feb, 2023

ELLA: 通过学习语言抽象进行探索

ELLA 是一种基于奖励塑形的方法，在语言指令与简单低级组成件之间建立相关性，以提高稀疏奖励环境下机器人智能体的样本效率。

Mar, 2021

规划探索目标

本文提出了 Planning Exploratory Goals（PEG）方法，在目标条件强化学习中以直接优化内在探索奖励为目的，为每个训练周期设置目标，从而最大限度地探索环境，通过学习世界模型和适应采样规划算法来规划目标命令，从而实现更有效的训练。

Mar, 2023