Apr, 2023

通过保留视觉主要语义实现图像文本检索

TL;DR本文提出了一种语义优化方法,称为视觉语义损失(VSL),以辅助模型专注于图像的主要内容,通过对图像的注释文本的利用,减少次要内容的负面影响,通过两个基准数据集(MSCOCO和Flickr30K)的大量实验,证明了该方法的卓越性能。