查询两次：双重混合关注元学习用于视频摘要

MMAug, 2020

查询两次：双重混合关注元学习用于视频摘要

Query Twice: Dual Mixture Attention Meta Learning for Video Summarization

Junyan Wang, Yang Bai, Yang Long, Bingzhang Hu, Zhenhua Chai...

TL;DR本文提出了一种新的框架，即 Dual Mixture Attention (DMASum) 模型，其中 Mixture of Attention layer (MoA) 通过两次自己 - 查询注意实现，可以捕获二阶变化以及初始查询 - 键注意，进而有效增加视频摘要中的模型能力，在引入新的单帧元学习规则后更广泛地实现小数据集的泛化，并且 DMASum 通过累积方式连接本地关键帧和全局关注，显著提高了 SumMe 和 TVSum 这两个公共数据集的定性和定量实验结果，解决了 softmax 瓶颈问题。

Abstract

video summarization aims to select representative frames to retain high-level information, which is usually solved by predicting the segment-wise importance score via a softmax function. However, softmax function suffers in retaining high-rank representations for complex visual or sequ

video summarization softmax bottleneck problem dual mixture attention meta-learning mixture of attention layer

发现论文，激发创造

面向任务的视频摘要元学习

本文提出了一种元学习方法 MetaL-TDVS，该方法针对任务驱动的视频摘要任务进行显式探索，以发掘不同视频摘要过程之间的视频摘要机制，从而提高训练模型的泛化能力。 MetaL-TDVS 将每个视频的摘要作为一个单一任务，并通过两种方式的反向传播来更新模型，从而证明其在基准数据集上具有优异的性能和更好的泛化能力。

Jul, 2019

D$^2$TV: 双重知识蒸馏和目标导向视觉建模，用于多对多多模态摘要

本文提出一个多对多多模态摘要（M$^3$S）任务，该任务旨在以任何语言为输入，生成任何语言摘要，并包括相应的图像序列，进一步提出了一种双重知识蒸馏和面向目标视觉建模的框架，以在 M$^3$S 任务中实现目标导向的视觉特征。最后还贡献了一个 M$^3$Sum 数据集。

May, 2023

基于注意力编码器 - 解码器网络的视频摘要

本研究提出了一种名为 AVS 的新颖的基于注意力机制的编码器 - 解码器网络框架，该网络框架使用双向 LSTM 和注意力机制对原始视频帧进行编码和关键帧序列进行解码，实现对有监督视频摘要的问题的解决。经测试发现，该方法在 SumMe 和 TVSum 数据集上的表现明显优于现有方法，在两个数据集上分别从 0.8％到 3％都有了显著的提高。

Aug, 2017

基于注意力机制的视频摘要

提出了一种新的监督学习方法，基于关键帧技术和自注意力机制来实现视频摘要。该方法在两个公认的基准数据集 TvSum 和 SumMe 上取得了新的最佳结果。

Dec, 2018

视频故事问答的多模态双重关注记忆

本研究提出一种视频故事问答架构，名为 Multimodal Dual Attention Memory （MDAM）。使用双重注意机制，结合自我注意力和注意力机制在场景帧和字幕中学习潜在的概念，并在双重注意力处理后执行多模态融合，从而学习从整个视频内容的抽象中推断出高级视觉语言联合表示。在 PororoQA 和 MovieQA 数据集上，该模型均取得了新的最优结果，并通过消融研究验证了双重注意机制与后期融合的最佳性能。

Sep, 2018

基于查询的视频摘要：数据集、评估和基于记忆网络的方法

本文提出了一种基于用户偏好查询的视频摘要模型，并利用基于概念注释的评估方法来解决视频摘要的性能评价问题。

Jul, 2017

VMSMO: 为基于视频的新闻文章生成多模态摘要学习

本文提出了基于视频的多模态摘要任务，探讨视频语义信息和文章相结合的多模态生成机制；基于双重交互机制和条件自注意力机制提出了多模态生成器 DIM, 在真实数据集上取得了最优表现。

Oct, 2020

包含视频的文档的多模式摘要

本文提出了一种基于文档和相关视频的新型多模态摘要任务，并构建了一个基于 bi-hop attention 和改进的 late fusion 机制的双流摘要模型，旨在同时处理文本和视频摘要。实验结果表明，该模型有利于多模态摘要且优于现有方法，同时构建了一个新的文档和视频数据集作为未来研究的资源。

Sep, 2020

质量感知相关性估计的查询自适应视频摘要

该研究利用神经网络诱导的文本视觉语义嵌入空间，将查询相关汇总作为视频帧子集选择问题进行提出，该方法在多个方面优于先前的技术，并引入具有多样性和查询特定相关性标签的新数据集进行模型训练和测试。

May, 2017

基于多模态自监督学习的渐进式视频摘要技术

本文介绍了一种基于深度神经网络的视频摘要方法，该方法使用了多模态自监督学习框架，该框架可以在不需要大规模标注数据的情况下，通过视频与文本之间的语义一致性来获取视频的语义表示，并提出了一种渐进式摘要方法。实验表明，该方法的排名相关系数和 F 分数均优于现有视频摘要方法。

Jan, 2022