TimeChat：长视频理解的时间敏感多模态大型语言模型

Dec, 2023

TimeChat：长视频理解的时间敏感多模态大型语言模型

TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video Understanding

Shuhuai Ren, Linli Yao, Shicheng Li, Xu Sun, Lu Hou

TL;DR该研究提出了 TimeChat，一种针对长视频理解的时态敏感多模态大型语言模型。该模型通过两个关键的架构贡献实现：1) 能够将每帧的视觉内容与时间戳绑定的时间感知帧编码器，和 2) 一种产生适应不同持续时间视频的长度可变视频令牌序列的滑动视频 Q-Former。此外，我们构建了一个调整指令的数据集，包括 6 个任务和总共 12.5 万个实例，以进一步提高 TimeChat 的指令遵循性能。在各种视频理解任务上的实验结果，如密集字幕生成、时间定位和重点检测，展示了 TimeChat 强大的零样本时态定位和推理能力。例如，在 YouCook2 上，它在 F1 评分上提升了 9.2，在 CIDEr 上提升了 2.8，在 QVHighlights 上的 HIT@1 提升了 5.8，在 Charades-STA 上的 R@1 (IoU=0.5) 提升了 27.5，与业界领先的视频大型语言模型相比，具备作为长视频理解任务的通用视频助手并满足真实用户需求的潜力。

Abstract

This work proposes timechat, a time-sensitive multimodal large language model specifically designed for long video understanding. Our mode

timechat time-sensitive multimodal large language model video understanding timestamp-aware frame encoder sliding video q-former

发现论文，激发创造

电影聊天 +: 针对长视频问答的问题感知稀疏记忆

基于 Atkinson-Shiffrin 记忆模型与 Transformer 中的记忆承载器，通过特殊设计的记忆机制，无需额外的可训练时序模块，使用零 - shot 方法将预训练的多模态大型语言模型应用于理解长视频，提出了 MovieChat，实现了长视频理解的最新性能，并发布了包含 1K 个长视频、2K 个时序对齐标注和 14K 个手动注释验证方法有效性的 MovieChat-1K 基准。

Apr, 2024

视频聊天：以聊天为中心的视频理解

本研究介绍了一种以视频为中心的语音理解系统 VideoChat，它通过可学习的神经接口将视频基础模型和大型语言模型集成起来，在时空推理、事件定位和因果关系推断等方面表现出色。通过使用视频为中心的指令数据集，我们为这个系统提供了有指导性的调整建议，这个数据集由成千上万个视频和详细的描述和会话组成，突出了时空推理和因果关系，为训练以聊天为中心的视频理解系统提供了有价值的资源。初步的定性实验揭示了我们的系统在广泛的视频应用中的潜力，并为未来的研究设置了标准。

May, 2023

电影对话：从密集令牌到稀疏记忆的长视频理解

视频理解系统 MovieChat 利用大型语言模型和视频基础模型，通过引入记忆机制解决了处理长视频时的计算复杂性、内存开销和长期时间连接等挑战。

Jul, 2023

Video-ChatGPT: 通过大型视觉和语言模型实现详细视频理解

介绍了基于视觉编码器与大型语言模型相结合的 Video-ChatGPT 模型，用于理解和生成关于视频的人类对话，并介绍了使用手动和半自动管道获得的新数据集，可用于训练和评估基于视频的对话模型，并在定量评估框架下分析了该模型的优劣。

Jun, 2023

LVCHAT：促进大视频理解

通过引入动态调整嵌入数量以适应视频时长的方式，以及重复位置嵌入和交错多组视频以处理超长视频输入的方法，我们提出了 Long Video Chat (LVChat)，在长视频问答数据集和长视频字幕基准测试中，实验证明 LVChat 在准确度上优于现有方法高达 27%。

Feb, 2024

将实时互动会话建模为定时记录的转录

使用预训练的纯文本语言模型，通过建模定时记录的转录文本并使用因果拒绝采样进行解码，我们提出了一种简单但通用的方法来模拟实时互动对话。我们通过两个案例研究（即即时通讯对话和口语交流）展示了该方法的潜力，这些案例研究需要分别以约 30 tok/s 和 20 tok/s 的速率生成文本以保持实时互动。这些功能可以使用相对较少的数据添加到语言模型中，并在商品硬件上运行。

May, 2024

TeleChat 技术报告

TeleChat 是一种拥有 30 亿、70 亿和 120 亿参数的大型语言模型集合，包括预训练的语言模型和根据人类偏好进行微调的聊天模型。在各种任务上，包括语言理解、数学、推理、代码生成和基于知识的问答等方面，TeleChat 表现出与其他类似大小的开源模型相当的性能。我们公开发布了 TeleChat 的 7B 和 12B 变种的微调模型检查点、代码和部分预训练数据，以支持未来对大型语言模型的研究和应用。

Jan, 2024

视频聊天字幕生成器：朝向丰富化的时空描述

本研究提出了一个新的视频描述方法，即 Video ChatCaptioner，它使用 ChatGPT 模型作为控制器，提出视频内容驱动的问题并回答这些视觉查询，从而生成包含更多视觉细节的视频标题。

Apr, 2023

大规模 YouTube-8M 视频理解的时间建模方法

该论文介绍了我们的解决方案，用于 Google Cloud 和 YouTube-8M 视频理解挑战的视频识别任务，我们通过各种时间建模方法对帧级特征进行聚合以提高多标签视频识别的准确性，并在 Kaggle 的公共测试集上取得了 82.75% 的性能提升。

Jul, 2017

VideoAgent: 基于大型语言模型的长视频理解

利用一个新型的基于代理的系统，以长篇视频理解为挑战，通过交互性推理和规划来处理长时间的多模式序列，同时使用大型语言模型作为中央代理来识别和编译关键信息以回答问题，视觉语言基础模型用于翻译和检索视觉信息。在具有挑战性的 EgoSchema 和 NExT-QA 基准测试中，VideoAgent 的零样本准确率分别达到了 54.1% 和 71.3%，仅使用平均 8.4 和 8.2 帧。这些结果证明了我们方法在效果和效率上优于当前技术水平，突显了基于代理的方法在提升长篇视频理解方面的潜力。

Mar, 2024