Dec, 2023
嵌入式扫描:面向身体智能的整体多模态3D感知套件
EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards
Embodied AI
TL;DR在计算机视觉和机器人领域,基于自身的智能体需要能够探索环境并执行人类指令,这要求其能够从第一人称观察中完全理解3D场景,并将其以语言的形式进行交互。本研究引入了一种名为EmbodiedScan的多模式、自我中心的3D感知数据集和基准,用于整体的3D场景理解。通过该数据集,我们还引入了一种名为Embodied Perceptron的基线框架,它能够处理任意数量的多模式输入,并展示出卓越的3D感知能力。