Sep, 2020

包含视频的文档的多模式摘要

TL;DR本文提出了一种基于文档和相关视频的新型多模态摘要任务,并构建了一个基于 bi-hop attention 和改进的 late fusion 机制的双流摘要模型,旨在同时处理文本和视频摘要。实验结果表明,该模型有利于多模态摘要且优于现有方法,同时构建了一个新的文档和视频数据集作为未来研究的资源。