Dec, 2023

嵌入式扫描:面向身体智能的整体多模态 3D 感知套件

TL;DR在计算机视觉和机器人领域,基于自身的智能体需要能够探索环境并执行人类指令,这要求其能够从第一人称观察中完全理解 3D 场景,并将其以语言的形式进行交互。本研究引入了一种名为 EmbodiedScan 的多模式、自我中心的 3D 感知数据集和基准,用于整体的 3D 场景理解。通过该数据集,我们还引入了一种名为 Embodied Perceptron 的基线框架,它能够处理任意数量的多模式输入,并展示出卓越的 3D 感知能力。