TESTA: 长篇视频 - 语言理解的时间空间令牌聚合

Oct, 2023

TESTA: 长篇视频 - 语言理解的时间空间令牌聚合

TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language Understanding

Shuhuai Ren, Sishuo Chen, Shicheng Li, Xu Sun, Lu Hou

TL;DR通过引入一种高效的方法 TESTA，我们提出了一个预训练视频语言模型，该模型在每个视频编码器块中配备了一个分割的时空令牌聚合模块，从而减少了可视令牌数量并提高了计算效率。

Abstract

Large-scale video-language pre-training has made remarkable strides in advancing video-language understanding tasks. However, the heavy computational burden of video encoding remains a formidable efficiency bottl

video-language pre-training video encoding testa computing efficiency long-form videos

发现论文，激发创造

通过语义感知的时间累积修剪时空令牌

为了优化速度和准确度的平衡，我们提出了基于语义感知的时间积累评分（STA）来整体修剪时空令牌。利用 STA 评分，我们能够逐步修剪令牌而不引入额外的参数或需要进一步的再训练。在 Kinetics-400 和 Something-Something V2 上的实证结果表明，使用 STA 模块在 ViT 和 VideoSwin 骨干网络上能够实现超过 30％的计算减少，而准确度下降仅为可忽略的 0.2％。

Aug, 2023

ProTA：文本 - 视频检索的概率化令牌聚合

提出 Probabilistic Token Aggregation (ProTA) 方法来处理内容不对称的跨模态交互，通过双重关联聚合、基于令牌的概率对齐和自适应对比损失，在 MSR-VTT、LSMDC 和 DiDeMo 数据集上取得显著改进。

Apr, 2024

时域镶嵌：视频分析的统一方法

本论文提出了一种通用且灵感来源于对 2D 图像分析成功的语义转移技术的视频理解方法，通过测试视频和具有已知语义参考视频之间的对应关系，将参考的语义转移到测试视频。我们讨论了两种匹配方法，并将其应用于视频字幕，视频摘要，时间动作检测和声音预测等任务，并在 LSMDC'16 benchmark，SumMe 和 TVSum benchmarks，Thumos2014 benchmark 和 Greatest Hits benchmark 上取得了优异的表现。

Dec, 2016

Vista-LLaMA: 基于视觉标记等距离的可靠视频叙述器

对于大文本的视觉问题，当前的方法存在产生相关文本的概率较高的问题。本文提出了 Vista-LLaMA 框架，采用了一种新的注意机制，通过保持视觉和文本间的一致距离，特别在相对距离较长的情况下提高了视觉令牌对于文本生成的影响，从而显著降低了生成无关文本的概率。此外，还引入了顺序视觉投影器来处理视频的时间关系，并在四个挑战性的视频问题回答基准测试中表现出优越性能。

Dec, 2023

VideoLLaMA 2: 在视频 LLMs 中推进时空建模与音频理解

本论文介绍了一种名为 VideoLLaMA 2 的视频大型语言模型，它通过嵌入空间 - 时间卷积 (STC) 连接器和联合训练音频分支来增强视频和音频任务中的空间 - 时间建模和音频理解能力，并在多个任务上展示了竞争性结果，进一步提升了多模态理解能力，为智能视频分析系统设定了新的标准。

Jun, 2024

针对长篇视频理解的自适应分词器的核心时间分段再探

本文旨在提供一种针对长视频的通用和自适应采样方法，通过将视频视为语义一致的片段，基于核时序分割 (KTS) 的无监督和可扩展方法对长视频进行采样和标记化。我们在视频分类和时间动作定位等长视频理解任务上评估了我们的方法，显示出相对于现有方法的持续增益，并在长视频建模上取得了最先进的性能。

Sep, 2023

TVQA+: 视频问答的时空引用

该研究针对视频问答这一任务，提出增加 bounding boxes 数据集，以此为基础构建了 STAGE 框架，在空间和时间域上对视频进行处理，以便回答关于视频的自然语言问题，并展示了实验结果和可视化。

Apr, 2019

TALL: 通过语言查询进行时间活动定位

本文提出了一种使用自然语言查询来进行时间活动定位的方法，使用融合文本和视频特征的方法实现跨模态匹配，并采用后期处理技术进行结果的精确定位，实验结果验证了该方法的有效性。

May, 2017

用于长距离视频理解的时间聚合表示

本文提出了一种灵活的多粒度时间聚合框架，用简单的技术如最大池化和注意力实现了最新的下一步行动和密集预测，并在 Breakfast，50Salads 和 EPIC-Kitchens 数据集上取得了最新的实验结果，且兼容于视频分割和动作识别。

Jun, 2020

可靠的时空体素用于多模态测试时适应

提出了一种多模态测试时间适应（MM-TTA）方法，通过在线利用互补的多模态输入对未标记的目标领域进行模型适应。提出的 Latte 方法利用可靠的跨模态时空对应关系实现了多模态三维分割，并在空间和时间邻域中寻找可靠和一致的预测进行交叉模态学习，取得了与以前的 MM-TTA 或 TTA 方法相比在三个不同的 MM-TTA 基准测试上表现出的最先进性能。

Mar, 2024