CFSum：一种用于多模态摘要的粗粒度到细粒度贡献网络

ACLJul, 2023

CFSum：一种用于多模态摘要的粗粒度到细粒度贡献网络

CFSum: A Coarse-to-Fine Contribution Network for Multimodal Summarization

Min Xiao, Junnan Zhu, Haitao Lin, Yu Zhou, Chengqing Zong

TL;DR我们提出了一种新的粗略到精细的多模态总结贡献网络 (CFSum)，以考虑图像在总结中的不同贡献。CFSum 在标准基准测试中明显优于多个强基线，并通过分析验证了图像对生成隐含在图像中的非视觉词语的帮助。

Abstract

multimodal summarization usually suffers from the problem that the contribution of the visual modality is unclear. Existing multimodal summarization approaches focus on designing the fusion methods of different m

multimodal summarization visual modality coarse-to-fine contribution network pre-filter module phrase level visual complement modules

发现论文，激发创造

CISum: 学习跨模态交互以增强多模态概述的语义覆盖范围

提出多任务交叉模态学习框架（CISum）以通过学习多模态文章中的跨模态交互来改善多模态语义覆盖。将图像转换为视觉描述，与文本内容相关联，进而与文本内容融合以生成文本摘要，选取最相关的图像作为视觉摘要。设计自动多模态语义覆盖评估指标并在实验证明 CISum 的多模态语义覆盖优于基准 ROUGE 和 BLEU 的表现。

Feb, 2023

一种基于语义块的高效粗细粒度感知无监督摘要生成框架

提出了一种基于语义块和效率的分层多粒度两阶段排序的无监督长文档摘要方法 C2F-FAR，可以在 Gov-Report 和 BillSum 数据集上获得新的最先进的无监督摘要结果，并且比之前的方法速度提高了 4-28 倍。

Aug, 2022

多模式摘要的细粒度和可解释性事实评估

多模态概括旨在根据文本和图像生成简洁的摘要，但现有方法潜在地存在不实输出。为了评估多模态概括模型的真实性，我们提出了两个细粒度且可解释的评估框架（FALLACIOUS），用于不同的应用场景，即基于参考物的真实性评估框架和基于非参考物的真实性评估框架。值得注意的是，基于非参考物的真实性评估框架不需要基准真实性，因此具有更广泛的应用场景。为了评估提出框架的有效性，我们计算了其与其他度量标准之间的相关性。实验结果显示了我们提出方法的有效性。我们将通过 Github 发布我们的代码和数据集。

Feb, 2024

一种基于主题感知的摘要生成框架，包含不同的模态侧面信息

本文提出了一个灵活的自动摘要模型，利用统一主题编码器和三元对比学习，将单一或多模侧面信息与文档在相同语义空间内对齐。在三个常用总结数据集上优于强基准线。

May, 2023

基于多模态自监督学习的渐进式视频摘要技术

本文介绍了一种基于深度神经网络的视频摘要方法，该方法使用了多模态自监督学习框架，该框架可以在不需要大规模标注数据的情况下，通过视频与文本之间的语义一致性来获取视频的语义表示，并提出了一种渐进式摘要方法。实验表明，该方法的排名相关系数和 F 分数均优于现有视频摘要方法。

Jan, 2022

UniMS: 面向多模态摘要的统一框架与知识蒸馏

提出了一种基于 BART 和 UniMS 的统一多模式摘要框架，该框架集成了抽取和生成目标，以及图像选择，通过视觉语言预训练模型进行知识蒸馏来改进图像选择，并引入视觉引导解码器来更好地整合文本和视觉模态，证明了提出的方法明显改善了多模态摘要任务的新状态 - of-the-art 结果。

Sep, 2021

基于查询聚焦的多文档概括及远程监督

本研究提出了一种基于问题回答的粗糙到精细的建模框架，用于解决过去在建立查询与文本段之间关联性上面的问题，并在标准 QFS 基准测试中表现优异。

Apr, 2020

面向多模态摘要生成的基于摘要导向视觉建模

本文提出通过辅助任务来改善多模态主动摘要中的视觉特征质量，包括视觉到摘要任务和掩蔽图像建模任务，从而优化多模态主动摘要模型。实验结果在 44 种语言中验证了该方法的有效性和优越性。

Dec, 2022

SimCSum: 跨语言科技新闻的简化和跨语言摘要联合学习

该研究提出了一种新的多任务框架 - SimCSum，它通过对两个高级 NLP 任务（简化和跨语言摘要）进行联合训练来提高跨语言科技新闻的翻译质量，并在人工评估中取得了显著的成果。

Apr, 2023

包含视频的文档的多模式摘要

本文提出了一种基于文档和相关视频的新型多模态摘要任务，并构建了一个基于 bi-hop attention 和改进的 late fusion 机制的双流摘要模型，旨在同时处理文本和视频摘要。实验结果表明，该模型有利于多模态摘要且优于现有方法，同时构建了一个新的文档和视频数据集作为未来研究的资源。

Sep, 2020