AI2-THOR:一种用于视觉 AI 的交互式 3D 环境
介绍了一个基于模拟环境的交互式和具身视觉 AI 研究平台 RoboTHOR,为解决模拟到真实世界的模型迁移问题提供了可能,为全球的研究者提供了一个远程测试具身模型的平台,并自举了实验结果表明,在模拟与物理世界中测试的模型训练性能存在显著差异,可能成为视觉计算的下一个发展阶段。
Apr, 2020
我们提出了 ProcTHOR 框架,该框架可以进行过程生成,从而使我们能够在 Embodied AI 领域训练和评估有身体经验的代理人,该代理人可以在交互、导航和操作任务中表现出卓越的性能,并在多个基准测试中显示出现有最先进的结果。
Jun, 2022
本文提出了一个基于 AI2-THOR 框架的物体操作框架并提出了一个名为 ArmPointNav 的新挑战任务,以扩展点导航任务到物体操作,并提供了新的挑战,包括 3D 障碍物避免、存在遮挡的物体操作以及多物体操作,并指出了 PointNav 挑战中成功的流行学习范例仍有大量改进空间。
Apr, 2021
本文提出了一种新的方法来处理从文本描述中生成动态人 - 物互动(Text2HOI)的挑战性任务。我们的任务涉及处理人体运动的变化、物体形状的多样性和物体运动的语义模糊性。为了解决这个问题,我们提出了一种新颖的基于文本引导的人 - 物互动扩散模型 THOR,它配备了一种关系干预机制。在每个扩散步骤中,我们引导人体和物体运动,并通过人 - 物关系对物体运动进行干预,从而增强人体和物体之间的时空关系,并利用人体为合成一致的运动提供额外的指导信息。为了实现更合理和真实的结果,在不同级别的运动粒度上引入了互动损失。此外,我们构建了一个将文本描述与目前可公开获得的最大的 3D HOI 数据集无缝集成的 Text-BEHAVE 数据集。定量和定性实验证明了我们提出模型的有效性。
Mar, 2024
本研究解决深度强化学习的一些问题,如模型推理泛化能力差和数据效率低。提出一种策略演员 - 评论家模型,以目标以及当前状态为函数,并在 AI2-THOR 框架下应用模型以与物体交互,实现在 3D 场景中进行大量样本高效收集,易于应用到现实场景并无需进行特征匹配。
Sep, 2016
通过 VRKitchen 的虚拟现实环境和集成功能,该研究使用现代人工智能方法驱动具有复杂任务能力的实体代理,使人类教师能够进行演示培训,为任务导向学习等领域的广泛应用提供了标准化的评估基准和数据收集工具。
Mar, 2019
在未知和杂乱的室内环境中,视觉物体识别对于移动机器人是一个具有挑战性的问题。为了实现这一目标,我们扩展了以前的工作,提出了 TOPS2 描述符以及伴随的 THOR2 识别框架,受到对象统一的人类推理机制的启发。我们通过使用 Mapper 算法获得的颜色嵌入与基于形状的 TOPS 描述符交替,以获得 TOPS2 描述符。使用合成数据训练的 THOR2 在两个真实世界数据集(基准 OCID 数据集和 UW-IS Occluded 数据集)上实现了显著更高的识别准确性,优于基于形状的 THOR 框架和 RGB-D ViT。因此,THOR2 是实现低成本机器人中稳健识别的一个有希望的步骤。
Sep, 2023
提出了一种新的交互式问答任务 Interactive Question Answering (IQA),并且构建了一个基于 Hierarchical Interactive Memory Network (HIMN) 的智能体。通过一个新数据集 IQUAD V1 进行测试,结果表明 HIMN 在 IQUAD V1 上的表现优于传统的单个控制器方法。
Dec, 2017
动物人工智能环境是一个独特的基于游戏的研究平台,为人工智能和认知科学研究社区提供服务。本文介绍了 Animal-AI 3,该环境的最新版本,概述了使游戏对人类更具吸引力、对人工智能系统更复杂的几个重要新功能。
Dec, 2023