Sep, 2023

视觉语言特征场景

TL;DR我们提出了一种新的算法,Panoptic Vision-Language Feature Fields (PVLFF),可以同时进行语义和实例分割,通过对输入帧上的 2D 实例分割提案应用对比损失函数来联合学习视觉 - 语言特征和分层实例特征,从而在 HyperSim、ScanNet 和 Replica 数据集上达到可比较的性能并在语义分割方面优于当前的 3D 开放词汇系统。