CVPRMar, 2022

X-Trans2Cap:使用 Transformer 进行跨模态知识转移的 3D 密集字幕生成

TL;DR本研究提出一种名为 X-Trans2Cap 的 3D 密集字幕生成模型,通过跨模态知识转移实现对单模态 3D 字幕生成性能的有效提升,该模型使用 Transformer,并采用师生框架来构建。在实验中,通过对特征进行对齐和融合,提出的方法不仅能够快速地获取 2D 图像中的丰富且嵌入式的外观信息,而且能够在仅仅使用点云作为输入时生成更加忠实的描述性字幕。定性和定量结果证实,X-Trans2Cap 在 ScanRefer 和 Nr3D 数据集上的性能优于现有的最先进水平,分别提高了约 + 21 和约 + 16 absolute CIDEr 分数。