Aug, 2023

图像-文本检索的多模态数据集精炼

TL;DR基于轨迹匹配的多模态数据集提炼方法在视觉语言数据集上表现出显著的改进,可通过只用100个训练对(数量减少一个数量级)几乎使图像到文本的检索准确率翻倍。