使用状态空间视频模型进行长视频片段分类
本论文提出了一种轻量级掩膜生成器的技术,采用长短掩膜对 S4 模型进行改进,从而更有效、准确地模拟视频中的长期时空依赖关系,并在三个数据集上均取得了比之前最先进的 S4 模型更高的准确性,降低了 23%的内存占用。
Mar, 2023
长序列模型中,使用了 LongVQ 方法以更有效地利用向量量化技术来压缩全局抽象,并以线性时间计算注意力矩阵,有效地解决长距离依赖问题。
Apr, 2024
基于 Atkinson-Shiffrin 记忆模型与 Transformer 中的记忆承载器,通过特殊设计的记忆机制,无需额外的可训练时序模块,使用零 - shot 方法将预训练的多模态大型语言模型应用于理解长视频,提出了 MovieChat,实现了长视频理解的最新性能,并发布了包含 1K 个长视频、2K 个时序对齐标注和 14K 个手动注释验证方法有效性的 MovieChat-1K 基准。
Apr, 2024
视频理解系统 MovieChat 利用大型语言模型和视频基础模型,通过引入记忆机制解决了处理长视频时的计算复杂性、内存开销和长期时间连接等挑战。
Jul, 2023
提出了一种名为 “长短变压器” 的模型,其中使用自注意力机制处理长文本和高分辨率图像,同时引入了一种新型的远距离关注和短期关注机制,并采用双重归一化策略来处理两种注意力机制之间的规模差异。通过在多个语言和视觉任务中的表现,该方法优于现有的方法。
Jul, 2021
通过引入边缘稀疏性和节点稀疏性的 SViTT 稀疏视频文本架构可以以较低的成本进行多帧推理,优于朴素变压器基线,并对多个视频文本检索和问答基准进行了训练,以及在更长的片段长度下是针对模型稀疏性(sparsity)进行了培训。
Apr, 2023
本研究通过开发评估协议和引入一种基于对象为中心的变压器视频识别架构,针对大规模数据集进行长型视频理解任务的研究,并展示了其在 7 项不同任务上的性能显著优于现有短期模型的结果,同时在 AVA 数据集上也优于可比较的最新研究成果。
Jun, 2021
本文提出了一种叫做 “长短时对比学习(LSTCL)” 的学习程序,可以让视频变压器模型在预测来自更长的时间范围内捕获的时序上下文的同时,学习一个有效的剪辑级表示,并在多项视频基准测试上取得了有竞争力的表现,成为有监督基于图像的预训练的有力替代方案。
Jun, 2021
使用长视频理解任务中的 Large Language Models(LLMs)面临的挑战,本文提出了一种名为 LongVLM 的 VideoLLM 模型,通过分解长视频为短期片段,并使用分层令牌合并模块编码局部特征,维护顺序,整合全局语义信息,实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。
Apr, 2024