Apr, 2025

Ross3D:具有三维感知的重构视觉指令调优

TL;DR本研究解决了缺乏大规模三维视觉-语言数据集的问题,提出了一种附加三维感知的重构视觉指令调优方法(Ross3D)。该方法通过交叉视角和全景重构集成三维视觉监督,不仅在各种三维场景理解基准上达到最佳性能,还展示了利用大量未标记的三维视觉数据的显著潜力。