ACLMay, 2021

自监督的多模态意见摘要

TL;DR我们提出了一个名为 MultimodalSum 的自监督多模态意见摘要框架,它利用非文本数据如图像和元数据,通过分别为每种模态使用单独的编码器来获得每种模态的表征,并使用文本解码器生成摘要,最终通过多模态训练管道来融合多模态信息以提高摘要生成效果。在 Yelp 和 Amazon 数据集上的实验结果表明 MultimodalSum 的优越性。