Feb, 2023

CISum: 学习跨模态交互以增强多模态概述的语义覆盖范围

TL;DR提出多任务交叉模态学习框架(CISum)以通过学习多模态文章中的跨模态交互来改善多模态语义覆盖。将图像转换为视觉描述,与文本内容相关联,进而与文本内容融合以生成文本摘要,选取最相关的图像作为视觉摘要。设计自动多模态语义覆盖评估指标并在实验证明 CISum 的多模态语义覆盖优于基准 ROUGE 和 BLEU 的表现。