CISum: 学习跨模态交互以增强多模态概述的语义覆盖范围

Feb, 2023

CISum: 学习跨模态交互以增强多模态概述的语义覆盖范围

CISum: Learning Cross-modality Interaction to Enhance Multimodal Semantic Coverage for Multimodal Summarization

Litian Zhang, Xiaoming Zhang, Ziming Guo, Zhipeng Liu

TL;DR提出多任务交叉模态学习框架（CISum）以通过学习多模态文章中的跨模态交互来改善多模态语义覆盖。将图像转换为视觉描述，与文本内容相关联，进而与文本内容融合以生成文本摘要，选取最相关的图像作为视觉摘要。设计自动多模态语义覆盖评估指标并在实验证明 CISum 的多模态语义覆盖优于基准 ROUGE 和 BLEU 的表现。

Abstract

multimodal summarization (MS) aims to generate a summary from multimodal input. Previous works mainly focus on textual semantic coverage metrics such as ROUGE, which considers the visual content as supplemental d

multimodal summarization cross-modality learning visual semantics semantic coverage metrics automatic evaluation metric

发现论文，激发创造

SimCSum: 跨语言科技新闻的简化和跨语言摘要联合学习

该研究提出了一种新的多任务框架 - SimCSum，它通过对两个高级 NLP 任务（简化和跨语言摘要）进行联合训练来提高跨语言科技新闻的翻译质量，并在人工评估中取得了显著的成果。

Apr, 2023

CFSum：一种用于多模态摘要的粗粒度到细粒度贡献网络

我们提出了一种新的粗略到精细的多模态总结贡献网络 (CFSum)，以考虑图像在总结中的不同贡献。CFSum 在标准基准测试中明显优于多个强基线，并通过分析验证了图像对生成隐含在图像中的非视觉词语的帮助。

Jul, 2023

多模态摘要的层次交叉语义关联学习模型

本文提出了一种基于层次交叉模态语义相关性学习模型（HCSCL）的多模态文本摘要方法来处理含异构内容的文本新闻报道。该模型通过采用图网络编码内部相关性和层次融合框架学习文本和图像之间的内部和层次相关性，同时使用含图像注释和目标标签的数据集提供监督信息进行学习。实验表明，HCSCL 在摘要指标和细粒度差异测试中显著优于基线方法。

Dec, 2021

VideoXum: 视频的跨模态视觉和文本摘要

我们提出了一个新的联合视频和文本摘要任务，旨在生成一个缩短的视频剪辑和相应的文本摘要，我们通过构建一个大规模的人类注释数据集 - VideXum 来解决此问题，并使用新的度量标准 VT-CLIPScore 来评估跨模态摘要的语义一致性。我们提出的 VTSUM-BILP 模型在此任务上取得了有希望的性能，并为未来研究建立了基准。

Mar, 2023

一种基于主题感知的摘要生成框架，包含不同的模态侧面信息

本文提出了一个灵活的自动摘要模型，利用统一主题编码器和三元对比学习，将单一或多模侧面信息与文档在相同语义空间内对齐。在三个常用总结数据集上优于强基准线。

May, 2023

UBiSS：视频的双模态语义摘要的统一框架

视频摘要的技术有越来越多的关注，本文提出了一种名为 Bimodal Semantic Summarization of Videos 的更全面的视频摘要任务，通过构建大规模数据集 BIDS 和提出统一框架 UBiSS 来实现高质量的视频摘要。

Jun, 2024

UniMS: 面向多模态摘要的统一框架与知识蒸馏

提出了一种基于 BART 和 UniMS 的统一多模式摘要框架，该框架集成了抽取和生成目标，以及图像选择，通过视觉语言预训练模型进行知识蒸馏来改进图像选择，并引入视觉引导解码器来更好地整合文本和视觉模态，证明了提出的方法明显改善了多模态摘要任务的新状态 - of-the-art 结果。

Sep, 2021

MultiSum：用于视频的多模式摘要和缩略图生成的数据集

通过创建包含视频和文本内容的人工验证摘要、17 个主分类和 170 个子分类的全面的数据集 MultiSum dataset，本文针对现有公共 MSMO 数据集的限制进行研究，进行了基准测试，并推出了数据收集工具和开放源代码资源以促进透明度和加速未来发展。

Jun, 2023

基于最优传输对跨领域摘要生成的语义一致性对齐

本文提出了一种语义一致的跨域多媒体概述模型，该模型基于最优传输对视觉和文本分割进行交互匹配，并用于选择视觉和文本摘要，以从整个视频和文章中捕获结构语义，从而通过多媒体交互来匹配和选择。三个最近的多模式数据集中证明了该方法的有效性，以生成高质量的多模式摘要。

Oct, 2022

MHMS: 多模态分层多媒体摘要

本文提出一个交互视觉和语言领域的多模式多媒体总结（MHMS）框架，旨在通过多模式输出为新闻文章自动生成封面图片和标题，或为在线视频提供介绍。本文的 MHMS 方法包含视频和文本细分和摘要模块，分别生成代表性关键帧和文本摘要，并利用最优输运距离制定跨域对齐目标，从而增强了跨域交互并产生高质量的多模式摘要。本文在三个最近发布的多模式数据集上评估了 MHMS 方法的效果。

Apr, 2022