Nov, 2024

用于3D视觉定位的细粒度空间和语言损失

TL;DR本研究解决了3D视觉定位中现有损失函数未能充分建模实例间空间关系及语言描述粒度结构的问题。提出的细粒度空间损失和语言跨度损失为3D视觉定位提供了新的监督信号,帮助网络学习更具上下文感知的实例和语言嵌入。结果显示,新的方法在ReferIt3D基准测试中展现了竞争力的性能。