Jul, 2024

多任务领域自适应与三维物体的语言 grounding

TL;DR利用培训有源代码的现成模型来捕捉特征,如视角选择或几何先验,改善性能是现有关于三维物体目标级语言基础的工作的主要关注点之一。然而,它们没有考虑到在跨领域中探索语言 - 视觉对齐的跨模态表示。为了解决这个问题,我们提出了一种名为三维对象领域适应的语言基础(DA4LG)的新方法。具体而言,DA4LG 由具有多任务学习的视觉适配器模块组成,通过全面的多模态特征表示实现视觉 - 语言对齐。实验结果表明,DA4LG 在视觉和非视觉语言描述方面具有竞争力的性能,不受观测完整性的影响。DA4LG 在单视图设置和多视图设置中均在语言基础基准 SNARE 中达到了 83.8%和 86.8%的准确率,达到了最先进的性能。仿真实验显示 DA4LG 相比现有方法具有良好的实用和泛化性能。