用于长视频文本摘要的分层 3D 适配器

Oct, 2022

用于长视频文本摘要的分层 3D 适配器

Hierarchical3D Adapters for Long Video-to-text Summarization

Pinelopi Papalampidi, Mirella Lapata

TL;DR本文研究利用多模态信息对视频进行文本摘要，并探讨利用适配器模块和分层结构高效地将多模态信息并入预训练的文本摘要器，实验表明该方法相对于记忆密集型和完全微调的文本摘要方法具有更好的性能。

Abstract

In this paper, we focus on video-to-text summarization and investigate how to best utilize multimodal information for summarizing long inputs (e.g., an hour-long TV show) into long outputs (e.g., a multi-sentence

video-to-text summarization multimodal information adapter modules hierarchical structure textual summarizer

发现论文，激发创造

电视节目的多模态摘要的模块化方法

这篇论文主要研究了如何用模块化方法总结电视节目，涉及人工智能研究中的复杂推理、多模态和长篇叙述等关键领域。作者提出了一种模块化方法，通过不同组件执行特定子任务，可以比端到端方法更灵活地实现。论文还引入了一个新的指标 —— 基于 PREFS（Summary Facts 的精确度与召回率评估）来衡量生成摘要的精确度与召回率，并将其分解为原子事实。在最近发布的 SummScreen3D 数据集上测试，该方法比其他模型生成的摘要具有更高的质量，这是通过 ROUGE 评估和新的基于事实的指标得出的。

Mar, 2024

大规模语言模型在视频摘要预训练中的扩展

利用大型语言模型生成大规模的视频摘要数据集，提出了一种新的视频摘要模型，并呈现了一个由专业人员注释的高质量摘要的基准数据集，实验证明该方法在多个基准测试中达到了最新的最佳效果。

Apr, 2024

包含视频的文档的多模式摘要

本文提出了一种基于文档和相关视频的新型多模态摘要任务，并构建了一个基于 bi-hop attention 和改进的 late fusion 机制的双流摘要模型，旨在同时处理文本和视频摘要。实验结果表明，该模型有利于多模态摘要且优于现有方法，同时构建了一个新的文档和视频数据集作为未来研究的资源。

Sep, 2020

长对话摘要的探索研究：何有效、何下一步

本文探索了对话摘要的三种策略：扩展变压器模型、检索后摘要流水线模型和分层对话编码模型，并在三个长对话数据集（QMSum、MediaSum、SummScreen）上进行了实验。结果表明，检索后摘要流水线模型具有最佳性能，并说明强大的检索模型和基于外部摘要数据集的预训练可以进一步提高摘要质量。

Sep, 2021

How2 视频的多模态抽象摘要

研究了多源建模摘要提取方法在开放领域视频领域的应用。通过构建一个多源的序列 - 序列模型，集成来自视频和音频文字转写的信息，完成了一个流利的文本摘要，并使用 Content F1 评价指标来度量其语义适当性。

Jun, 2019

长话短说：针对长视频问答的摘要搜索方法

探究语言模型在长时间多媒体叙述中的零 - shot 推理能力，提出了一种用于叙述视频问答的框架 Long Story Short，通过首先将视频的叙述进行简化处理，然后寻找与问题相关的视频部分，并运用 CLIPCheck 来增强视觉匹配，实现了在长视频问答中优于最先进有监督模型的表现，突显了零 - shot 问题回答在长视频中的潜力。

Nov, 2023

VideoXum: 视频的跨模态视觉和文本摘要

我们提出了一个新的联合视频和文本摘要任务，旨在生成一个缩短的视频剪辑和相应的文本摘要，我们通过构建一个大规模的人类注释数据集 - VideXum 来解决此问题，并使用新的度量标准 VT-CLIPScore 来评估跨模态摘要的语义一致性。我们提出的 VTSUM-BILP 模型在此任务上取得了有希望的性能，并为未来研究建立了基准。

Mar, 2023

基于多模态自监督学习的渐进式视频摘要技术

本文介绍了一种基于深度神经网络的视频摘要方法，该方法使用了多模态自监督学习框架，该框架可以在不需要大规模标注数据的情况下，通过视频与文本之间的语义一致性来获取视频的语义表示，并提出了一种渐进式摘要方法。实验表明，该方法的排名相关系数和 F 分数均优于现有视频摘要方法。

Jan, 2022

多源特征无监督视频摘要

本文提出了通过结合多种特征源进行特征融合的视频摘要算法，该算法在两个基准测试数据集 TVSum 和 SumMe 上取得了最新的研究结果，并对以往的研究方法进行了评估，同时进行误差分析以找出导致分类错误的因素。

May, 2021

一种基于主题感知的摘要生成框架，包含不同的模态侧面信息

本文提出了一个灵活的自动摘要模型，利用统一主题编码器和三元对比学习，将单一或多模侧面信息与文档在相同语义空间内对齐。在三个常用总结数据集上优于强基准线。

May, 2023