AI2-THOR：一种用于视觉 AI 的交互式 3D 环境

Dec, 2017

AI2-THOR：一种用于视觉 AI 的交互式 3D 环境

AI2-THOR: An Interactive 3D Environment for Visual AI

Eric Kolve, Roozbeh Mottaghi, Winson Han, Eli VanderBilt, Luca Weihs...

TL;DRTHOR 框架为视觉 AI 研究提供了近乎真实的 3D 室内场景，AI 代理可以在场景中导航，与对象交互执行任务，旨在推动视觉智能模型的建立和研究。

Abstract

We introduce The House Of inteRactions (thor), a framework for visual ai research, available at this http URL AI2-thor consists of near ph

thor visual ai 3d scenes ai agents reinforcement learning

发现论文，激发创造

RoboTHOR：一个开放的从模拟到现实的具身化智能平台

介绍了一个基于模拟环境的交互式和具身视觉 AI 研究平台 RoboTHOR，为解决模拟到真实世界的模型迁移问题提供了可能，为全球的研究者提供了一个远程测试具身模型的平台，并自举了实验结果表明，在模拟与物理世界中测试的模型训练性能存在显著差异，可能成为视觉计算的下一个发展阶段。

Apr, 2020

ProcTHOR: 使用程序化生成技术的大规模体感 AI

我们提出了 ProcTHOR 框架，该框架可以进行过程生成，从而使我们能够在 Embodied AI 领域训练和评估有身体经验的代理人，该代理人可以在交互、导航和操作任务中表现出卓越的性能，并在多个基准测试中显示出现有最先进的结果。

Jun, 2022

ManipulaTHOR：一个用于视觉物体操纵的框架

本文提出了一个基于 AI2-THOR 框架的物体操作框架并提出了一个名为 ArmPointNav 的新挑战任务，以扩展点导航任务到物体操作，并提供了新的挑战，包括 3D 障碍物避免、存在遮挡的物体操作以及多物体操作，并指出了 PointNav 挑战中成功的流行学习范例仍有大量改进空间。

Apr, 2021

THOR：通过关系干预的人 - 物交互传播的文本

本文提出了一种新的方法来处理从文本描述中生成动态人 - 物互动（Text2HOI）的挑战性任务。我们的任务涉及处理人体运动的变化、物体形状的多样性和物体运动的语义模糊性。为了解决这个问题，我们提出了一种新颖的基于文本引导的人 - 物互动扩散模型 THOR，它配备了一种关系干预机制。在每个扩散步骤中，我们引导人体和物体运动，并通过人 - 物关系对物体运动进行干预，从而增强人体和物体之间的时空关系，并利用人体为合成一致的运动提供额外的指导信息。为了实现更合理和真实的结果，在不同级别的运动粒度上引入了互动损失。此外，我们构建了一个将文本描述与目前可公开获得的最大的 3D HOI 数据集无缝集成的 Text-BEHAVE 数据集。定量和定性实验证明了我们提出模型的有效性。

Mar, 2024

基于深度强化学习的室内场景目标驱动视觉导航

本研究解决深度强化学习的一些问题，如模型推理泛化能力差和数据效率低。提出一种策略演员 - 评论家模型，以目标以及当前状态为函数，并在 AI2-THOR 框架下应用模型以与物体交互，实现在 3D 场景中进行大量样本高效收集，易于应用到现实场景并无需进行特征匹配。

Sep, 2016

VRKitchen：面向任务学习的交互式 3D 虚拟环境

通过 VRKitchen 的虚拟现实环境和集成功能，该研究使用现代人工智能方法驱动具有复杂任务能力的实体代理，使人类教师能够进行演示培训，为任务导向学习等领域的广泛应用提供了标准化的评估基准和数据收集工具。

Mar, 2019

人类灵感的拓扑表示在未知环境中的视觉目标识别

在未知和杂乱的室内环境中，视觉物体识别对于移动机器人是一个具有挑战性的问题。为了实现这一目标，我们扩展了以前的工作，提出了 TOPS2 描述符以及伴随的 THOR2 识别框架，受到对象统一的人类推理机制的启发。我们通过使用 Mapper 算法获得的颜色嵌入与基于形状的 TOPS 描述符交替，以获得 TOPS2 描述符。使用合成数据训练的 THOR2 在两个真实世界数据集（基准 OCID 数据集和 UW-IS Occluded 数据集）上实现了显著更高的识别准确性，优于基于形状的 THOR 框架和 RGB-D ViT。因此，THOR2 是实现低成本机器人中稳健识别的一个有希望的步骤。

Sep, 2023

IQA: 交互环境下的视觉问答

提出了一种新的交互式问答任务 Interactive Question Answering (IQA)，并且构建了一个基于 Hierarchical Interactive Memory Network (HIMN) 的智能体。通过一个新数据集 IQUAD V1 进行测试，结果表明 HIMN 在 IQUAD V1 上的表现优于传统的单个控制器方法。

Dec, 2017

动物人工智能 3：新变化与重要性

动物人工智能环境是一个独特的基于游戏的研究平台，为人工智能和认知科学研究社区提供服务。本文介绍了 Animal-AI 3，该环境的最新版本，概述了使游戏对人类更具吸引力、对人工智能系统更复杂的几个重要新功能。

Dec, 2023

模仿交互智能

通过虚拟环境中的交互式训练、行为测试和逆强化学习技术，实现了大规模人类行为模仿，提高了人工智能代理的交互能力，并成功解决了代理评估方面的挑战。

Dec, 2020