ECCVJul, 2022

新闻故事:用视觉摘要来说明文章

TL;DR该研究探索了一个新的问题,即学习对不同长度和数量的图像文本具有强鲁棒性的自我监督视觉语言表示法,其介绍了一个包括超过 31M 篇文章,22M 张图片和 1M 个视频的大规模多模态数据集,并表明最先进的图像文本对齐方法不能很好地处理带有多张图像和更长篇幅的叙述,且还提出了一种直观的基线方法,在 GoodNews 数据集上零样本图像集检索表现比这些方法高出 10%。