Jun, 2024

视觉字幕恢复

TL;DR我们介绍了一种名为 Visual Caption Restoration(VCR)的新颖视觉 - 语言任务,该任务要求模型使用图像中的像素级提示准确恢复部分被遮挡的文本。我们开发了一个流程来生成用于 VCR 任务的合成图像,并构建了一个名为 VCR-Wiki 的数据集,该数据集包含来自维基百科的图像标题对,包括在易和难两个变体中的 211 万英文实体和 34.6 万中文实体。我们的结果表明,当前的视觉语言模型在 VCR 任务中明显落后于人类表现,仅对我们的数据集进行微调并没有显著改进。我们提供了 VCR-Wiki 数据集和数据构建代码,以便促进未来的研究。