Dec, 2023

TimeChat:长视频理解的时间敏感多模态大型语言模型

TL;DR该研究提出了 TimeChat,一种针对长视频理解的时态敏感多模态大型语言模型。该模型通过两个关键的架构贡献实现:1) 能够将每帧的视觉内容与时间戳绑定的时间感知帧编码器,和 2) 一种产生适应不同持续时间视频的长度可变视频令牌序列的滑动视频 Q-Former。此外,我们构建了一个调整指令的数据集,包括 6 个任务和总共 12.5 万个实例,以进一步提高 TimeChat 的指令遵循性能。在各种视频理解任务上的实验结果,如密集字幕生成、时间定位和重点检测,展示了 TimeChat 强大的零样本时态定位和推理能力。例如,在 YouCook2 上,它在 F1 评分上提升了 9.2,在 CIDEr 上提升了 2.8,在 QVHighlights 上的 HIT@1 提升了 5.8,在 Charades-STA 上的 R@1 (IoU=0.5) 提升了 27.5,与业界领先的视频大型语言模型相比,具备作为长视频理解任务的通用视频助手并满足真实用户需求的潜力。