ProcTHOR: 使用程序化生成技术的大规模体感 AI

Jun, 2022

ProcTHOR: 使用程序化生成技术的大规模体感 AI

ProcTHOR: Large-Scale Embodied AI Using Procedural Generation

Matt Deitke, Eli VanderBilt, Alvaro Herrasti, Luca Weihs, Jordi Salvador...

TL;DR我们提出了 ProcTHOR 框架，该框架可以进行过程生成，从而使我们能够在 Embodied AI 领域训练和评估有身体经验的代理人，该代理人可以在交互、导航和操作任务中表现出卓越的性能，并在多个基准测试中显示出现有最先进的结果。

Abstract

Massive datasets and high-capacity models have driven many recent advancements in computer vision and natural language understanding. This work presents a platform to enable similar success stories in embodied ai. We propose →

embodied ai procthor procedural generation virtual environments state-of-the-art results

发现论文，激发创造

RoboTHOR：一个开放的从模拟到现实的具身化智能平台

介绍了一个基于模拟环境的交互式和具身视觉 AI 研究平台 RoboTHOR，为解决模拟到真实世界的模型迁移问题提供了可能，为全球的研究者提供了一个远程测试具身模型的平台，并自举了实验结果表明，在模拟与物理世界中测试的模型训练性能存在显著差异，可能成为视觉计算的下一个发展阶段。

Apr, 2020

Phone2Proc：将稳健机器人带入我们混沌的世界

介绍一种使用电话扫描和有条件程序生成的方法，可以在跨越不同的真实环境时，比仅在仿真环境中训练物体导航的体现代理增加约 100% 的成功率。

Dec, 2022

AI2-THOR：一种用于视觉 AI 的交互式 3D 环境

THOR 框架为视觉 AI 研究提供了近乎真实的 3D 室内场景，AI 代理可以在场景中导航，与对象交互执行任务，旨在推动视觉智能模型的建立和研究。

Dec, 2017

ManipulaTHOR：一个用于视觉物体操纵的框架

本文提出了一个基于 AI2-THOR 框架的物体操作框架并提出了一个名为 ArmPointNav 的新挑战任务，以扩展点导航任务到物体操作，并提供了新的挑战，包括 3D 障碍物避免、存在遮挡的物体操作以及多物体操作，并指出了 PointNav 挑战中成功的流行学习范例仍有大量改进空间。

Apr, 2021

Holodeck: 语言引导的 3D 体验 AI 环境生成

Holodeck 是一个生成 3D 环境的系统，利用大型语言模型（GPT-4）和大量 3D 资源自动生成多样化的场景，并通过优化布局满足空间关系约束，该系统在住宅场景中优于手动设计的程序化基准，并在 Embodied AI 中训练出具备导航能力的智能体在音乐室和托儿所等新颖场景中运作。

Dec, 2023

人类灵感的拓扑表示在未知环境中的视觉目标识别

在未知和杂乱的室内环境中，视觉物体识别对于移动机器人是一个具有挑战性的问题。为了实现这一目标，我们扩展了以前的工作，提出了 TOPS2 描述符以及伴随的 THOR2 识别框架，受到对象统一的人类推理机制的启发。我们通过使用 Mapper 算法获得的颜色嵌入与基于形状的 TOPS 描述符交替，以获得 TOPS2 描述符。使用合成数据训练的 THOR2 在两个真实世界数据集（基准 OCID 数据集和 UW-IS Occluded 数据集）上实现了显著更高的识别准确性，优于基于形状的 THOR 框架和 RGB-D ViT。因此，THOR2 是实现低成本机器人中稳健识别的一个有希望的步骤。

Sep, 2023

Habitat: 一种身体化人工智能研究平台

介绍 Habitat 平台，该平台在实现高效的真实感三维模拟环境中培训虚拟机器人及相关任务如导航和嵌入式人工智能方法等方面做出了重大工程贡献。通过使用 Habitat 平台，作者在点 - 目标导航方面，通过比较学习与 SLAM 方法，发现当学习处理的数据量超出先前调查的数量级时，学习方法比 SLAM 方法更优。此外，在进行多个数据集和传感器的横向通用性实验时，作者发现仅使用深度 (D) 传感器的模型才具有数据集通用性。作者希望 Habitat 平台及其研究成果能够推动嵌入式人工智能领域的发展。

Apr, 2019

THOR：通过关系干预的人 - 物交互传播的文本

本文提出了一种新的方法来处理从文本描述中生成动态人 - 物互动（Text2HOI）的挑战性任务。我们的任务涉及处理人体运动的变化、物体形状的多样性和物体运动的语义模糊性。为了解决这个问题，我们提出了一种新颖的基于文本引导的人 - 物互动扩散模型 THOR，它配备了一种关系干预机制。在每个扩散步骤中，我们引导人体和物体运动，并通过人 - 物关系对物体运动进行干预，从而增强人体和物体之间的时空关系，并利用人体为合成一致的运动提供额外的指导信息。为了实现更合理和真实的结果，在不同级别的运动粒度上引入了互动损失。此外，我们构建了一个将文本描述与目前可公开获得的最大的 3D HOI 数据集无缝集成的 Text-BEHAVE 数据集。定量和定性实验证明了我们提出模型的有效性。

Mar, 2024

寻找一个为具身智能而设计的人工视皮层的进展

该研究是关于预先训练视觉表示（PVRs）或视觉基础模型在具体应用中的最全面的实证研究。研究发现，尽管数据规模和多样性通常能提高性能，但是没有任何一种 PVR 可以普遍占优。然而，通过对 VC-1 进行特定任务适应性的调整，可在 CortexBench 的所有基准测试中实现与最佳结果相当或更好的性能表现。

Mar, 2023

利用程序生成技术评估强化学习

Procgen Benchmark 是一套 16 个生成环境的测试套件，旨在评估强化学习在样本效率和泛化性能方面的表现，为此提供了详细的实验协议，并经验证明多样性的环境分布是充分训练和评估 RL agent 的关键，从而促进了生成内容的广泛使用。我们使用此基准测试来研究模型大小的影响，并发现大型模型显著提高了样本效率和泛化性能。

Dec, 2019