MHMS: 多模态分层多媒体摘要

Apr, 2022

MHMS: Multimodal Hierarchical Multimedia Summarization

Jielin Qiu, Jiacheng Zhu, Mengdi Xu, Franck Dernoncourt, Trung Bui...

TL;DR本文提出一个交互视觉和语言领域的多模式多媒体总结（MHMS）框架，旨在通过多模式输出为新闻文章自动生成封面图片和标题，或为在线视频提供介绍。本文的 MHMS 方法包含视频和文本细分和摘要模块，分别生成代表性关键帧和文本摘要，并利用最优输运距离制定跨域对齐目标，从而增强了跨域交互并产生高质量的多模式摘要。本文在三个最近发布的多模式数据集上评估了 MHMS 方法的效果。

Abstract

multimedia summarization with multimodal output can play an essential role in real-world applications, i.e., automatically generating cover images and titles for news articles or providing introductions to online

multimedia summarization multimodal output video and textual segmentation cross-domain alignment optimal transport distance

发现论文，激发创造

TLDW: 新闻视频的极端多模态摘要

介绍了一种新的极端多模式汇总方法（XMSMO），主要采用 HOT-Net 框架实现多模态输入到多模态输出的文本、图像总结，以解决信息过载问题。

Oct, 2022

VMSMO: 为基于视频的新闻文章生成多模态摘要学习

本文提出了基于视频的多模态摘要任务，探讨视频语义信息和文章相结合的多模态生成机制；基于双重交互机制和条件自注意力机制提出了多模态生成器 DIM, 在真实数据集上取得了最优表现。

Oct, 2020

多模态摘要综述

本文综述了多模式自动摘要 (MMS) 领域内的现有研究，包括文本、图像、音频和视频等各种模式。除了强调用于 MMS 任务的不同评估指标和数据集之外，我们的工作还讨论了该领域中当前的挑战和未来方向。

Sep, 2021

包含视频的文档的多模式摘要

本文提出了一种基于文档和相关视频的新型多模态摘要任务，并构建了一个基于 bi-hop attention 和改进的 late fusion 机制的双流摘要模型，旨在同时处理文本和视频摘要。实验结果表明，该模型有利于多模态摘要且优于现有方法，同时构建了一个新的文档和视频数据集作为未来研究的资源。

Sep, 2020

多模态摘要的层次交叉语义关联学习模型

本文提出了一种基于层次交叉模态语义相关性学习模型（HCSCL）的多模态文本摘要方法来处理含异构内容的文本新闻报道。该模型通过采用图网络编码内部相关性和层次融合框架学习文本和图像之间的内部和层次相关性，同时使用含图像注释和目标标签的数据集提供监督信息进行学习。实验表明，HCSCL 在摘要指标和细粒度差异测试中显著优于基线方法。

Dec, 2021

How2 视频的多模态抽象摘要

研究了多源建模摘要提取方法在开放领域视频领域的应用。通过构建一个多源的序列 - 序列模型，集成来自视频和音频文字转写的信息，完成了一个流利的文本摘要，并使用 Content F1 评价指标来度量其语义适当性。

Jun, 2019

UniMS: 面向多模态摘要的统一框架与知识蒸馏

提出了一种基于 BART 和 UniMS 的统一多模式摘要框架，该框架集成了抽取和生成目标，以及图像选择，通过视觉语言预训练模型进行知识蒸馏来改进图像选择，并引入视觉引导解码器来更好地整合文本和视觉模态，证明了提出的方法明显改善了多模态摘要任务的新状态 - of-the-art 结果。

Sep, 2021

D$^2$TV: 双重知识蒸馏和目标导向视觉建模，用于多对多多模态摘要

本文提出一个多对多多模态摘要（M$^3$S）任务，该任务旨在以任何语言为输入，生成任何语言摘要，并包括相应的图像序列，进一步提出了一种双重知识蒸馏和面向目标视觉建模的框架，以在 M$^3$S 任务中实现目标导向的视觉特征。最后还贡献了一个 M$^3$Sum 数据集。

May, 2023

基于最优传输对跨领域摘要生成的语义一致性对齐

本文提出了一种语义一致的跨域多媒体概述模型，该模型基于最优传输对视觉和文本分割进行交互匹配，并用于选择视觉和文本摘要，以从整个视频和文章中捕获结构语义，从而通过多媒体交互来匹配和选择。三个最近的多模式数据集中证明了该方法的有效性，以生成高质量的多模式摘要。

Oct, 2022

VideoXum: 视频的跨模态视觉和文本摘要

我们提出了一个新的联合视频和文本摘要任务，旨在生成一个缩短的视频剪辑和相应的文本摘要，我们通过构建一个大规模的人类注释数据集 - VideXum 来解决此问题，并使用新的度量标准 VT-CLIPScore 来评估跨模态摘要的语义一致性。我们提出的 VTSUM-BILP 模型在此任务上取得了有希望的性能，并为未来研究建立了基准。

Mar, 2023