Jun, 2023

DocumentCLIP:连结重排版文档中的图片与正文

TL;DR本文提出了一种基于 DocumentCLIP 的显著性感知对比学习框架,旨在加强视觉 - 语言预训练模型理解文本内图像与长文本相互作用,并且该模型可用于新闻文章、杂志和产品描述等语言和视觉丰富的内容的实际多模态文本理解。该框架采用自己收集的大型维基百科数据集进行预训练,证明其不仅在受监督学习的情况下优于现有基线,而且在零样本评估中表现最佳。