Jul, 2023

SITTA: 图像描述任务中的语义图像文本对齐

TL;DR为了使生成合适的图片字幕,需要对图像进行文本和语义理解。我们提出了两种新方法来构建线性映射,从而成功地在两个预训练模型的嵌入空间之间转移语义。使用我们的语义映射,我们为 MS-COCO 和 Flickr30k 数据集实现了强大的字幕性能。即使在数据有限的情况下,我们的方法也能在某种程度上超过其他零样本和微调竞争对手的表现。