揭示视频及语言学习中的单帧偏差

Jun, 2022

揭示视频及语言学习中的单帧偏差

Revealing Single Frame Bias for Video-and-Language Learning

Jie Lei, Tamara L. Berg, Mohit Bansal

TL;DR本文探讨了视频与语言学习中基于单帧的模型的应用，结果表明在大规模预训练条件下，采用适当的帧合并策略的单帧训练模型在某些视频与语言任务方面表现更佳，并且作者提出了两个基于现有细粒度动作识别数据集的检索任务，以便更全面地评估视频与语言模型。

Abstract

Training an effective video-and-language model intuitively requires multiple frames as model inputs. However, it is unclear whether using multiple frames is beneficial to downstream tasks, and if yes, whether the performance gain is worth the drastically-increased computation and memor

video-and-language model single-frame models temporal modeling video question answering text-to-video retrieval

发现论文，激发创造

扩展语言图像预训练模型以实现通用视频识别

本文提出一种简单有效的方法，将预先训练好的语言 - 图像模型直接应用于视频识别中，使用跨帧注意力机制及视频特定提示方案，实现对长时序列的检测，提高了零样本下的准确率。

Aug, 2022

时间感知的视频 - 语言预训练

本研究提出了一种文本 - 视频本地化预文本任务，以实现细粒度的时间和语义对齐，从而让训练模型能够准确感知给定文本描述的视频时间边界，并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。

Jan, 2023

精益求精：选择信息量丰富的视频帧进行视频字幕生成

提出了一种基于强化学习的编码器 - 解码器框架下的 PickNet 模型，用于在视频字幕任务中选择关键帧以提升性能，该模型最终选择的少量帧能够高质量的代表整个视频序列，更具视觉多样性与文本一致性。

Mar, 2018

通过因果干预方法消除文本 - 视频检索中的帧长度偏见

改进和开发新的网络架构是文本 - 视频检索的研究热点。然而，现有的方法可能存在学习和推理偏差问题，本研究首次尝试探索修剪视频剪辑的训练和测试集之间的时间偏差，并提出因果去偏方法，通过大量实验验证了该方法的有效性。

Sep, 2023

促使视觉 - 语言模型实现高效视频理解

本研究提出了一种简单但强大的基准线以有效地适应预训练的 I-VL 模型，并利用其强大的资源 - hungry 视频理解任务的能力进行最小化的训练，通过几个随机向量连续提示向量进行优化，将视频相关任务转化为与预训练目标相同的格式。对于行动识别，动作定位和文本 - 视频检索的 10 个公共基准测试，尽管优化参数显著减少，但在封闭集，少量样本和零样本情况下，我们实现了与现有方法相当或最新的性能，实验上进行了广泛的消融研究以分析关键组件以与静态图像和视频之间的差距。

Dec, 2021

基于逐帧推理的高效语义视频分割

本文提出了一种有效的语义视频分割方法，借鉴于现有方法中将结果传播到相邻帧或使用其他帧提取帧表示时可能会导致不准确的结果或不平衡的延迟问题，我们在推理过程中采用逐帧方式处理，其中显式考虑帧与帧之间的时间一致性，并将此一致性嵌入到语义分割网络中。通过新的知识蒸馏方法，我们成功地缩小了紧凑型模型与大型模型之间的性能差距。我们的结果在 Cityscapes 和 Camvid 等流行基准测试中优于先前的基于关键帧的方法，并提高了与独立训练每帧的对应基线的时间一致性。

Feb, 2020

学习连续视频流

在线学习框架，通过单一连续视频流实现学习，采用像素对像素建模切换预训练和单一流评估，利用未来预测任务获得学习提升。

Dec, 2023

使用细粒度帧采样的对比视频语言学习

FineCo 使用 Fine-grained Contrastive Loss 对视频帧进行抽样，以更好地学习视频和语言表示，从而提高跨模态对应性和在文本 - 视频检索和视频问答数据集上取得了有竞争力的成果，尤其是在 YouCookII 上实现了最先进的性能。

Oct, 2022

视频（语言）建模：自然视频生成模型的基线

本文提出了一种用于无监督特征学习的视频数据的强基线模型，通过学习预测输入视频序列中缺少的帧或外推未来帧，该模型发现了对于表示复杂变形和运动模式有用的空间和时间相关性，并且是借鉴语言建模文献，通过将图像补丁的空间量化为一个大字典，适应了视觉领域。我们在填充和生成任务上演示了该方法。第一次，我们展示了在自然视频上训练后，这样一个模型可以预测短视频序列中的非平凡运动。

Dec, 2014

太多的帧，不全是有用的：长篇视频问答的高效策略

长篇视频中的关键帧选择和顺序感知字幕生成能够显著减少信息冗余，我们提出的 LVNet 框架通过两种新的方法在 LVQA 基准数据集上实现了最先进的性能。

Jun, 2024