多模态摘要综述

Sep, 2021

A Survey on Multi-modal Summarization

Anubhav Jangra, Sourajit Mukherjee, Adam Jatowt, Sriparna Saha, Mohammad Hasanuzzaman

TL;DR本文综述了多模式自动摘要 (MMS) 领域内的现有研究，包括文本、图像、音频和视频等各种模式。除了强调用于 MMS 任务的不同评估指标和数据集之外，我们的工作还讨论了该领域中当前的挑战和未来方向。

Abstract

The new era of technology has brought us to the point where it is convenient for people to share their opinions over an abundance of platforms. These platforms have a provision for the users to express themselves in multiple forms of representations, including text, images, videos, and

multi-modal summarization text image audio video

发现论文，激发创造

包含视频的文档的多模式摘要

本文提出了一种基于文档和相关视频的新型多模态摘要任务，并构建了一个基于 bi-hop attention 和改进的 late fusion 机制的双流摘要模型，旨在同时处理文本和视频摘要。实验结果表明，该模型有利于多模态摘要且优于现有方法，同时构建了一个新的文档和视频数据集作为未来研究的资源。

Sep, 2020

MHMS: 多模态分层多媒体摘要

本文提出一个交互视觉和语言领域的多模式多媒体总结（MHMS）框架，旨在通过多模式输出为新闻文章自动生成封面图片和标题，或为在线视频提供介绍。本文的 MHMS 方法包含视频和文本细分和摘要模块，分别生成代表性关键帧和文本摘要，并利用最优输运距离制定跨域对齐目标，从而增强了跨域交互并产生高质量的多模式摘要。本文在三个最近发布的多模式数据集上评估了 MHMS 方法的效果。

Apr, 2022

MultiSum：用于视频的多模式摘要和缩略图生成的数据集

通过创建包含视频和文本内容的人工验证摘要、17 个主分类和 170 个子分类的全面的数据集 MultiSum dataset，本文针对现有公共 MSMO 数据集的限制进行研究，进行了基准测试，并推出了数据收集工具和开放源代码资源以促进透明度和加速未来发展。

Jun, 2023

VMSMO: 为基于视频的新闻文章生成多模态摘要学习

本文提出了基于视频的多模态摘要任务，探讨视频语义信息和文章相结合的多模态生成机制；基于双重交互机制和条件自注意力机制提出了多模态生成器 DIM, 在真实数据集上取得了最优表现。

Oct, 2020

多模态机器翻译调查：任务、方法与挑战

多模态机器翻译是近年来引起学术界和工业界广泛关注的研究领域，本文通过综述先前的 99 项研究工作，全面总结了主要模型、数据集和评估指标，分析了各种因素对模型性能的影响，并讨论了未来该领域的研究方向。与之前限制在早期多模态机器翻译的调查不同，我们的调查从不同角度深入总结了这些新兴类型，以便为研究人员提供对目前研究状况的更好理解。

May, 2024

一种基于主题感知的摘要生成框架，包含不同的模态侧面信息

本文提出了一个灵活的自动摘要模型，利用统一主题编码器和三元对比学习，将单一或多模侧面信息与文档在相同语义空间内对齐。在三个常用总结数据集上优于强基准线。

May, 2023

多源、多模态、多语种融合：信息提取和摘要的收敛维度

利用多个来源的强项，提供对复杂话题更全面和详细的理解，从而应对摘要研究面临的挑战。

Jun, 2024

TLDW: 新闻视频的极端多模态摘要

介绍了一种新的极端多模式汇总方法（XMSMO），主要采用 HOT-Net 框架实现多模态输入到多模态输出的文本、图像总结，以解决信息过载问题。

Oct, 2022

图像 - 文本多模型综述

在人工智能领域的演变环境中，图像与文本信息的融合已成为一个关键的领域，引发了图像 - 文本多模态模型的出现。本文全面回顾了图像 - 文本多模态模型的发展和现状，探讨了其应用价值、挑战和潜在研究方向。通过细分演化阶段，提出了三个不同阶段的分类，根据其引入时间和对学科的影响。此外，根据任务在学术领域的重要性和普及性，对图像 - 文本多模态模型相关任务进行了五个主要类型的分类，阐明了每个类别内的最新进展和关键技术。尽管这些模型取得了显著成就，但仍存在许多挑战和问题。本文深入探讨了图像 - 文本多模态模型固有的挑战和限制，促进了未来研究方向的探索。我们的目标是提供对图像 - 文本多模态模型研究现状的全面概述，并为未来学术工作提供有价值的参考。我们邀请广大学术社区共同合作，推进图像 - 文本多模态模型社区的发展。

Sep, 2023

多模态分类分析社交媒体

本研究使用池化层和辅助学习任务进行多模态社交媒体数据分类，具有良好的鲁棒性和高准确性，并与传统融合方法相比有着显著的优势。

Aug, 2017