用稀疏输入描述视频问答

Nov, 2023

Characterizing Video Question Answering with Sparsified Inputs

Shiyuan Huang, Robinson Piramuthu, Vicente Ordonez, Shih-Fu Chang, Gunnar A. Sigurdsson

TL;DR在视频问答中，我们使用基于 Gumbel 的可学习选择模块来自适应地选择最佳的输入，以实现对视频及语言任务的数据效率改进。我们的实验证明，即使在高度稀疏的设置下，我们只选取每个视频的 2-4 帧，视频长度仅为总长度的 10%，也仅仅损失了 5.2%-5.8% 的性能，同时观察到了视觉和文字输入之间的互补行为。

Abstract

In video question answering, videos are often processed as a full-length sequence of frames to ensure minimal loss of information. Recent works have demonstrated evidence that sparse video inputs are sufficient t

video question answering sparse video inputs gumbel-based learnable selection module sparsified inputs data efficiency

发现论文，激发创造

视频问答中基于密集字幕匹配和帧选择门控的时间定位

本文提出了一种视频问答模型，它有效地集成了多模态输入源并从中找到临时相关信息以回答问题，该模型包括多种设计方法，包括基于稠密图像标题的对象及其详细显著区域和动作识别，双重关注，跨集成和引入了带有人类重要性注释来更好地监督模型的两个损失函数的门控，这个模型在多个数据集上的表现优于现有的技术。

May, 2020

10 位视频：为高效和隐私而设计的少位视频问答系统

本文介绍了如何使用轻量级的特征压缩模块（FeatComp）来实现 Few-Bit VideoQA 任务，该模块通过学习提取 10 位的任务特定特征，在保证精度的同时比 MPEG4 编码的视频节省了 10 万倍的存储空间，并降低了数据隐私风险。

Oct, 2022

少即是多：基于稀疏采样的 ClipBERT 视频与语言学习

提出了一个 ClipBERT 的通用框架，通过稀疏采样实现了视频和语言任务的廉价端到端学习，该方法在多个数据集上进行的实验表明，与使用全长视频的现有方法相比，使用少量稀疏采样剪辑进行端到端学习通常更准确。

Feb, 2021

揭示视频及语言学习中的单帧偏差

本文探讨了视频与语言学习中基于单帧的模型的应用，结果表明在大规模预训练条件下，采用适当的帧合并策略的单帧训练模型在某些视频与语言任务方面表现更佳，并且作者提出了两个基于现有细粒度动作识别数据集的检索任务，以便更全面地评估视频与语言模型。

Jun, 2022

精益求精：选择信息量丰富的视频帧进行视频字幕生成

提出了一种基于强化学习的编码器 - 解码器框架下的 PickNet 模型，用于在视频字幕任务中选择关键帧以提升性能，该模型最终选择的少量帧能够高质量的代表整个视频序列，更具视觉多样性与文本一致性。

Mar, 2018

太多的帧，不全是有用的：长篇视频问答的高效策略

长篇视频中的关键帧选择和顺序感知字幕生成能够显著减少信息冗余，我们提出的 LVNet 框架通过两种新的方法在 LVQA 基准数据集上实现了最先进的性能。

Jun, 2024

SAS 视频 QA：自适应采样优化视频问答

提出了两种帧采样策略，即最主导帧（MDF）和最隐含帧（MIF），用于最大限度地保留对给定问题最重要的帧，验证实验结果表明这些策略能够提高图像 - 文本预训练模型的性能。

Jul, 2023

通过联合嵌入和稀疏优化实现多视角监视视频汇总

介绍一种通过联合嵌入和稀疏代表选择的新颖无监督框架来总结多视角视频，该方法能够提取出多视角视频之间的复杂内部和外部关联，实现高效准确的摘要生成。

Jun, 2017

基于大型多模型的弱监督高斯对比定位的视频问答

提出了一种新颖的弱监督框架，用于利用问题关键时刻作为视觉输入强迫大型多模态模型进行视频问答，通过融合问题和答案对作为事件描述来找到多个关键帧作为目标时刻，并利用高斯对比基础模块学习视频的时间结构，将问题关键帧作为正样本作为大型多模态模型的视觉输入，实验证明该框架相比于先前最先进的方法取得了显著的改进。

Jan, 2024

视频摘要的有效性：量化语言在视频摘要中的影响

通过仅使用通过零样本方法获取的文本标题，我们提出了一种高效的纯文本视频摘要方法，能够以高数据效率实现有竞争力的准确性。我们通过训练语言转换模型并摒弃图像表示来进行视频摘要，从而允许我们在代表性文本向量之间进行筛选并压缩序列。我们的方法能够使自然语言解释能力易于人类理解，以及对视频的文本摘要。调查了模态性和数据压缩的消融研究表明，仅利用文本模态有效地减少了输入的数据处理量，同时保持了可比较的结果。

Sep, 2023