Jun, 2024

3D-GRAND: 为 3D-LLMs 提供更好的定位和更少的幻觉

TL;DR通过引入具有 40,087 个家庭场景和 6.2 百万个密集绑定的场景语言指令的 3D-GRAND,本文展示了对 3D-LLMs 中的指令调优在地面设置和降低幻觉方面的显著增强。另外,该文还提出了一个全面的基准测试 3D-POPE,以系统地评估 3D-LLMs 中的幻觉,并促进未来模型之间的公正比较。我们的实验强调了数据集规模和 3D-LLM 性能之间的扩展效应,强调了大规模 3D 文本数据集在推进具身化 AI 研究中的关键作用。值得注意的是,我们的结果证明了有效的从模拟到真实的转化存在早期信号,表明在大规模合成数据上训练的模型在真实世界的 3D 扫描中表现良好。通过 3D-GRAND 和 3D-POPE,我们的目标是为具身化 AI 社区提供必要的资源和见解,从而为更可靠和更好地基于地面的 3D-LLMs 做好准备。