May, 2024

WIDIn:面向单源域泛化的领域不变表示的词语图像

TL;DR通过使用自我监督框架 WIDIn 并结合细粒度对齐的语言嵌入方式,实现了去除视觉表示中的领域特定成分,从而提供了一种可以应用于预训练的视觉 - 语言模型以及单模态模型的方法。在三个领域通用数据集上进行的实验验证了我们方法的有效性。