Jul, 2023

蒸馏粗粒到精粒语义匹配知识用于弱监督的三维视觉接地

TL;DR利用弱监督注释学习3D视觉定位模型,通过分析对象提案和句子之间的语义相似性,我们构建了一个语义匹配模型,将粗粒度的场景-句子对应关系用于学习目标-句子链接。同时,我们将粗精度的语义匹配知识融入经典的两阶段3D视觉定位模型,以减少推理成本并提高性能。通过在ScanRefer、Nr3D和Sr3D上进行广泛实验证明了我们提出方法的有效性。