Apr, 2024

全景调谐:提升视角不变性的视觉语言预训练模型

TL;DR通过多视角训练数据集和架构优化,本论文成功改进了视觉语言预训练模型 (VLP) 在三维视角变化下的鲁棒性,提高了其对视角变化的不变性能力。