电影对话:从密集令牌到稀疏记忆的长视频理解
基于 Atkinson-Shiffrin 记忆模型与 Transformer 中的记忆承载器,通过特殊设计的记忆机制,无需额外的可训练时序模块,使用零 - shot 方法将预训练的多模态大型语言模型应用于理解长视频,提出了 MovieChat,实现了长视频理解的最新性能,并发布了包含 1K 个长视频、2K 个时序对齐标注和 14K 个手动注释验证方法有效性的 MovieChat-1K 基准。
Apr, 2024
这篇论文介绍了 VideoStreaming,一种用于视频理解的先进视觉语言大型模型 (VLLM),它能够通过编码和自适应选择的少量视频标记流式地理解任意长度的视频。
May, 2024
通过在在线方式处理视频并将过去的视频信息存储在记忆库中,该研究提出了一种用于长期视频理解的高效有效模型,可以超越语言模型的上下文长度限制和 GPU 内存限制,并在多个数据集上实现了最先进的性能。
Apr, 2024
提出了一种结合自我关注和 S4 层优点的高效长范围视频模型,具有复杂的长范围时空依赖性,比传统的全自注意模型快 2.63 倍,占用 8 倍更少的 GPU 内存,并在视频分类等任务中取得了最先进的结果。
Apr, 2022
提出了一种用于密集视频字幕生成的理想模型,能够处理长时间视频输入、预测丰富详细的文本描述,并且能在整个视频处理完成之前生成输出,通过引入聚类处理令其能够处理任意长的视频,并设计了一种流式解码算法使模型能够提前进行预测,实验证明了该模型在三个密集视频字幕生成基准数据集上优于现有的最先进模型。
Apr, 2024
使用长视频理解任务中的 Large Language Models(LLMs)面临的挑战,本文提出了一种名为 LongVLM 的 VideoLLM 模型,通过分解长视频为短期片段,并使用分层令牌合并模块编码局部特征,维护顺序,整合全局语义信息,实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。
Apr, 2024
该研究提出了 TimeChat,一种针对长视频理解的时态敏感多模态大型语言模型。该模型通过两个关键的架构贡献实现:1) 能够将每帧的视觉内容与时间戳绑定的时间感知帧编码器,和 2) 一种产生适应不同持续时间视频的长度可变视频令牌序列的滑动视频 Q-Former。此外,我们构建了一个调整指令的数据集,包括 6 个任务和总共 12.5 万个实例,以进一步提高 TimeChat 的指令遵循性能。在各种视频理解任务上的实验结果,如密集字幕生成、时间定位和重点检测,展示了 TimeChat 强大的零样本时态定位和推理能力。例如,在 YouCook2 上,它在 F1 评分上提升了 9.2,在 CIDEr 上提升了 2.8,在 QVHighlights 上的 HIT@1 提升了 5.8,在 Charades-STA 上的 R@1 (IoU=0.5) 提升了 27.5,与业界领先的视频大型语言模型相比,具备作为长视频理解任务的通用视频助手并满足真实用户需求的潜力。
Dec, 2023
当前语言模型在理解不易用文字描述的世界方面存在不足,并且在处理复杂和长期任务时存在困难。该论文通过利用视频序列的时间信息和语言的静态图像之间的联合建模,在人类文本知识和物理世界方面形成了深入的理解,从而实现了更广泛的人工智能能力。
Feb, 2024
本文提出了一种多模态记忆模型 (M3),利用视觉和文本共享的记忆来建模长期的视觉 - 文本依赖关系并进一步引导全局的视觉注意力,该方法在公开基准数据集上的实验证明,相比于最先进的方法,本文提出的方法在 BLEU 和 METEOR 方面表现较好。
Nov, 2016
使用检索式视频语言模型为长视频问答提供了一种简单而有效的方法,通过识别和选择最相关的视频片段并使用其关联的视觉标记作为上下文,从而降低了视频令牌的数量,消除了噪音干扰,并提高了系统性能。
Dec, 2023