EMNLPDec, 2022

为新闻图像字幕选择相关和充分的上下文

TL;DR本文提出了利用已预训练的视觉和语言检索模型 CLIP 来定位新闻文章中的可视化实体,并通过开放式关系抽取模型捕获非视觉实体,从而显着提高现有模型的性能和实现新的多个基准的最新性能。