Pegasus-v1 技术报告

Apr, 2024

Pegasus-v1 Technical Report

Raehyuk Jung, Hyojun Go, Jaehyuk Yi, Jiho Jang, Daniel Kim...

TL;DRPegasus-1 是一种专注于通过自然语言实现对视频内容理解和交互的多模式语言模型，其设计旨在解决视频数据所带来的独特挑战，如解释时空信息，以提供对各种长度的视频内容的细致理解。

Abstract

This technical report introduces pegasus-1, a multimodal language model specialized in video content understanding and interaction through

pegasus-1 multimodal language model video content understanding spatiotemporal information video comprehension

发现论文，激发创造

Video-ChatGPT: 通过大型视觉和语言模型实现详细视频理解

介绍了基于视觉编码器与大型语言模型相结合的 Video-ChatGPT 模型，用于理解和生成关于视频的人类对话，并介绍了使用手动和半自动管道获得的新数据集，可用于训练和评估基于视频的对话模型，并在定量评估框架下分析了该模型的优劣。

Jun, 2023

VideoAgent：一个增强记忆的多模态视频理解代理

利用多模态代理、统一记忆机制和零样本工具使用能力来解决视频理解中的长期时间关系问题，在多个长期视觉理解基准测试中表现出色，相比基准模型，NExT-QA 平均提升 6.6%，EgoSchema 平均提升 26.0%，缩小了开源模型与私有对应模型之间的差距。

Mar, 2024

VideoPrism：一种用于视频理解的基础视觉编码器

介绍了一种名为 VideoPrism 的通用视频编码器，利用单个冻结模型解决各种视频理解任务。通过在异构语料库上预训练 VideoPrism，其中包含 3600 万个高质量的视频字幕对和 5.82 亿个带有噪声的平行文本视频剪辑，通过全局 - 局部语义视频嵌入和标记重排方案改进了遮挡自编码模型的预训练方法，使得 VideoPrism 主要关注视频模式，同时利用与视频相关的宝贵文本。我们在四个广泛的视频理解任务组上对 VideoPrism 进行了广泛的测试，从网络视频问答到科学计算机视觉，实现了 30 个有 33 个视频理解基准中的最优性能。

Feb, 2024

阿尔忒弥斯：迈向复杂视频中的指代理解

基于视频的指代理解一直是多模态大型语言模型的一个挑战，本文提出了 Artemis，一个将视频指代理解提升到更精细层次的模型。通过提取紧凑、目标特定的视频特征，Artemis 能够根据视频中的自然语言问题和感兴趣目标的边界框完成整个视频的描述。通过设计高效的三阶段训练过程，并在新建的 VideoRef45K 数据集上进行训练，实验结果从定量和定性上都显示出良好的性能。此外，实验还展示了该模型能够与视频对准和文本摘要工具集成，以理解更复杂的场景。

Jun, 2024

视频语言理解：模型架构、模型训练和数据视角的综述

本文综述了视频 - 语言理解系统的关键任务、相关挑战以及模型架构、模型训练和数据观点等方面的方法，并进行了方法间的性能比较，提出了未来研究的有前景的方向。

Jun, 2024

ChatVideo: 基于 Tracklet 的多模式通用视频理解系统

本文提出了一种基于轨迹为中心的多模态视频理解原型系统，使用各种视频基础模型（ViFMs）注释其特性，存储在数据库中，并通过数据库管理器与用户交互，以解决各种视频相关问题。

Apr, 2023

VideoAgent: 基于大型语言模型的长视频理解

利用一个新型的基于代理的系统，以长篇视频理解为挑战，通过交互性推理和规划来处理长时间的多模式序列，同时使用大型语言模型作为中央代理来识别和编译关键信息以回答问题，视觉语言基础模型用于翻译和检索视觉信息。在具有挑战性的 EgoSchema 和 NExT-QA 基准测试中，VideoAgent 的零样本准确率分别达到了 54.1% 和 71.3%，仅使用平均 8.4 和 8.2 帧。这些结果证明了我们方法在效果和效率上优于当前技术水平，突显了基于代理的方法在提升长篇视频理解方面的潜力。

Mar, 2024

面向多任务多模态模型的视频生成视角

通过构建多任务模型、保留高保真度的视频本机时空分词器、以及可解释的词汇术语与视觉观察之间的映射，我们的研究证明了多模态潜在空间设计的可行性，并提出了一种优于行业标准编解码器的视频本机时空分词器，从而在视频合成方面实现了语言模型超越扩散模型的首次突破。进一步地，我们的可扩展视觉令牌表示法在生成、压缩和理解任务中都表现出明显的优势。这项研究的成果为未来在生成非文本数据、实现实时互动体验等方面提供了有趣的潜力。

May, 2024

Octopus v3: 在设备上的亿级多模态人工智能代理的技术报告

多模态 AI 代理通过处理和学习来自自然语言、视觉和音频输入的各种数据来指导行动，但将基于图像的数据转换为可操作结果仍然具有挑战性。本文介绍了一种多模态模型，其中包含专门为 AI 代理应用设计的功能令牌的概念，并优化为小于 1B 参数的紧凑尺寸，能够在各种边缘设备上高效运行，包括树莓派。

Apr, 2024

视频聊天：以聊天为中心的视频理解

本研究介绍了一种以视频为中心的语音理解系统 VideoChat，它通过可学习的神经接口将视频基础模型和大型语言模型集成起来，在时空推理、事件定位和因果关系推断等方面表现出色。通过使用视频为中心的指令数据集，我们为这个系统提供了有指导性的调整建议，这个数据集由成千上万个视频和详细的描述和会话组成，突出了时空推理和因果关系，为训练以聊天为中心的视频理解系统提供了有价值的资源。初步的定性实验揭示了我们的系统在广泛的视频应用中的潜力，并为未来的研究设置了标准。

May, 2023