Nov, 2023

增强图像 - 标题对:用于基于视觉和语言模型的语义保留的图像 - 标题对增强

TL;DR通过数据增强和使用大规模图像和语言数据集(如 CLIP)进行预训练的图像编码器,提出了一种鲁棒的短语基础模型,用于低层次视觉任务中的关键字本体识别,并通过多种指标在常用数据集上展示了先进性能。