TLDW: 新闻视频的极端多模态摘要
本文提出了基于视频的多模态摘要任务,探讨视频语义信息和文章相结合的多模态生成机制;基于双重交互机制和条件自注意力机制提出了多模态生成器 DIM, 在真实数据集上取得了最优表现。
Oct, 2020
本文提出一个交互视觉和语言领域的多模式多媒体总结(MHMS)框架,旨在通过多模式输出为新闻文章自动生成封面图片和标题,或为在线视频提供介绍。本文的 MHMS 方法包含视频和文本细分和摘要模块,分别生成代表性关键帧和文本摘要,并利用最优输运距离制定跨域对齐目标,从而增强了跨域交互并产生高质量的多模式摘要。本文在三个最近发布的多模式数据集上评估了 MHMS 方法的效果。
Apr, 2022
本文提出一个多对多多模态摘要(M$^3$S)任务,该任务旨在以任何语言为输入,生成任何语言摘要,并包括相应的图像序列,进一步提出了一种双重知识蒸馏和面向目标视觉建模的框架,以在 M$^3$S 任务中实现目标导向的视觉特征。最后还贡献了一个 M$^3$Sum 数据集。
May, 2023
我们提出了一个新的联合视频和文本摘要任务,旨在生成一个缩短的视频剪辑和相应的文本摘要,我们通过构建一个大规模的人类注释数据集 - VideXum 来解决此问题,并使用新的度量标准 VT-CLIPScore 来评估跨模态摘要的语义一致性。我们提出的 VTSUM-BILP 模型在此任务上取得了有希望的性能,并为未来研究建立了基准。
Mar, 2023
本文提出了一种语义一致的跨域多媒体概述模型,该模型基于最优传输对视觉和文本分割进行交互匹配,并用于选择视觉和文本摘要,以从整个视频和文章中捕获结构语义,从而通过多媒体交互来匹配和选择。三个最近的多模式数据集中证明了该方法的有效性,以生成高质量的多模式摘要。
Oct, 2022
通过创建包含视频和文本内容的人工验证摘要、17 个主分类和 170 个子分类的全面的数据集 MultiSum dataset,本文针对现有公共 MSMO 数据集的限制进行研究,进行了基准测试,并推出了数据收集工具和开放源代码资源以促进透明度和加速未来发展。
Jun, 2023
本文提出了一种基于文档和相关视频的新型多模态摘要任务,并构建了一个基于 bi-hop attention 和改进的 late fusion 机制的双流摘要模型,旨在同时处理文本和视频摘要。实验结果表明,该模型有利于多模态摘要且优于现有方法,同时构建了一个新的文档和视频数据集作为未来研究的资源。
Sep, 2020
本文综述了多模式自动摘要 (MMS) 领域内的现有研究,包括文本、图像、音频和视频等各种模式。除了强调用于 MMS 任务的不同评估指标和数据集之外,我们的工作还讨论了该领域中当前的挑战和未来方向。
Sep, 2021
本文提供了 mTLDR 数据集和 mTLDRgen 模型,用于实现基于多种输入模态的极端抽象文本摘要。该模型使用双重融合的超复杂 Transformer 和 Wasserstein-Riemann 编码器 Transformer 来在超复杂的潜在几何空间中捕捉不同模态的复杂性,并在 Rouge 衡量标准和人类评估方面优于 20 个 baseline 模型和另一个非科学数据集(How2)
Jun, 2023
本文提出了一种基于层次交叉模态语义相关性学习模型(HCSCL)的多模态文本摘要方法来处理含异构内容的文本新闻报道。该模型通过采用图网络编码内部相关性和层次融合框架学习文本和图像之间的内部和层次相关性,同时使用含图像注释和目标标签的数据集提供监督信息进行学习。实验表明,HCSCL 在摘要指标和细粒度差异测试中显著优于基线方法。
Dec, 2021