针对长篇视频理解的自适应分词器的核心时间分段再探

Sep, 2023

针对长篇视频理解的自适应分词器的核心时间分段再探

Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for Long-form Video Understanding

Mohamed Afham, Satya Narayan Shukla, Omid Poursaeed, Pengchuan Zhang, Ashish Shah...

TL;DR本文旨在提供一种针对长视频的通用和自适应采样方法，通过将视频视为语义一致的片段，基于核时序分割 (KTS) 的无监督和可扩展方法对长视频进行采样和标记化。我们在视频分类和时间动作定位等长视频理解任务上评估了我们的方法，显示出相对于现有方法的持续增益，并在长视频建模上取得了最先进的性能。

Abstract

While most modern video understanding models operate on short-range clips, real-world videos are often several minutes long with semantically consistent segments of variable length. A common approach to process long vid

video understanding models long videos adaptive sampling approach kernel temporal segmentation long-form video modeling

发现论文，激发创造

自监督事件分割的感知预测框架

本文提出了一种自我监督的、基于认知心理的预测学习框架，通过自适应学习来减少循环神经网络中灾难性遗忘的影响，在三个公共数据集上进行了广泛的实验，表明所提出的方法能够优于弱监督和其他非监督学习方法最多达 24％，并具有完全监督方法相媲美的性能。同时，该方法还能够学习高度区分特征，进而提高动作识别的表现。

Nov, 2018

电影对话：从密集令牌到稀疏记忆的长视频理解

视频理解系统 MovieChat 利用大型语言模型和视频基础模型，通过引入记忆机制解决了处理长视频时的计算复杂性、内存开销和长期时间连接等挑战。

Jul, 2023

时域镶嵌：视频分析的统一方法

本论文提出了一种通用且灵感来源于对 2D 图像分析成功的语义转移技术的视频理解方法，通过测试视频和具有已知语义参考视频之间的对应关系，将参考的语义转移到测试视频。我们讨论了两种匹配方法，并将其应用于视频字幕，视频摘要，时间动作检测和声音预测等任务，并在 LSMDC'16 benchmark，SumMe 和 TVSum benchmarks，Thumos2014 benchmark 和 Greatest Hits benchmark 上取得了优异的表现。

Dec, 2016

LongVLM：通过大型语言模型实现高效长视频理解

使用长视频理解任务中的 Large Language Models（LLMs）面临的挑战，本文提出了一种名为 LongVLM 的 VideoLLM 模型，通过分解长视频为短期片段，并使用分层令牌合并模块编码局部特征，维护顺序，整合全局语义信息，实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。

Apr, 2024

面向长文档分类的长度感知多核心变换器

长篇文档分类方面的研究中，我们提出了一种适应长文档的多核变换器（LAMKIT），通过使用多样化的基于变换器的核心来编码长篇文档，以解决上下文边界和文档长度差异性带来的问题，并通过这些核心向量化文本长度以提高模型的稳健性。在健康和法律领域的五个标准测试中，LAMKIT 相对于现有技术提升了高达 10.9% 的绝对改进。我们进行了大量的消融分析，以检验模型在不同文档长度上的稳健性和有效性。

May, 2024

TESTA: 长篇视频 - 语言理解的时间空间令牌聚合

通过引入一种高效的方法 TESTA，我们提出了一个预训练视频语言模型，该模型在每个视频编码器块中配备了一个分割的时空令牌聚合模块，从而减少了可视令牌数量并提高了计算效率。

Oct, 2023

使用大型语言模型的流式长视频理解

这篇论文介绍了 VideoStreaming，一种用于视频理解的先进视觉语言大型模型 (VLLM)，它能够通过编码和自适应选择的少量视频标记流式地理解任意长度的视频。

May, 2024

为长形视频理解选择性结构状态空间

本论文提出了一种轻量级掩膜生成器的技术，采用长短掩膜对 S4 模型进行改进，从而更有效、准确地模拟视频中的长期时空依赖关系，并在三个数据集上均取得了比之前最先进的 S4 模型更高的准确性，降低了 23％的内存占用。

Mar, 2023

空间 - 时间令牌选择的有效视频 Transformer

本文提出了 STTS 框架，这是一种动态选择少量视频关键信息的方法，可以在减小计算量的同时保持较高的识别准确率。

Nov, 2021

电影聊天 +: 针对长视频问答的问题感知稀疏记忆

基于 Atkinson-Shiffrin 记忆模型与 Transformer 中的记忆承载器，通过特殊设计的记忆机制，无需额外的可训练时序模块，使用零 - shot 方法将预训练的多模态大型语言模型应用于理解长视频，提出了 MovieChat，实现了长视频理解的最新性能，并发布了包含 1K 个长视频、2K 个时序对齐标注和 14K 个手动注释验证方法有效性的 MovieChat-1K 基准。

Apr, 2024