May, 2023

联合学习问答器和密集字幕生成器强化视觉语言预训练

TL;DR本文提出一种名为 Joint QA and DC Generation (JADE) 的新方法,利用预训练的多模态模型及易于爬取的图像 - 文本对生成和过滤大规模的视觉问答和密集字幕数据集。我们将该方法应用于概念字幕(CC3M)数据集,生成了一个名为 CC3M-QA-DC 的新的数据集,在多任务方式预训练时,CC3M-QA-DC 可以改善各种骨干网络在各种下游任务中的性能,并与更多数据使用模型相比,我们生成的 CC3M-QA-DC 和更大的图像 - 文本数据集(例如 CC15M)相结合,在相同的计算条件下达到了有竞争力的结果。