袋鼠：支持长视频输入的强大视频语言模型

Aug, 2024

袋鼠：支持长视频输入的强大视频语言模型

Kangaroo: A Powerful Video-Language Model Supporting Long-context Video Input

Jiajun Liu, Yibing Wang, Hanghang Ma, Xiaoping Wu, Xiaoqi Ma...

TL;DR本研究针对大语言模型扩展至视频数据的难题，提出了一种新的长视频处理方法Kangaroo。该模型通过数据策划系统构建高质量注释的大规模数据集，并设计了具有逐渐增加分辨率和输入帧数的训练流程。实验结果表明Kangaroo在视频理解基准测试中表现优异，尤其是在长视频上超越了许多大型模型。

Abstract

Rapid advancements have been made in extending Large Language Models (LLMs) to Large Multi-modal Models (LMMs). However, extending input modality of LLMs to video data remains a challenging endeavor, especially for long videos. Due to insufficient access to large-scale high-quality video data and the excessive compression of visual features, current methods

发现论文，激发创造

Video-LLaMA: 一种面向视频理解的指令优化的音视频语言模型

Video-LLaMA是一种多模态框架，通过将预训练的视觉和音频编码器与预训练的大型语言模型结合，实现对视频内容的理解，具有捕捉视觉场景中的时间变化和整合音频-视觉信号等优势，因此被视为具有潜力的音视频AI助手原型。

Jun, 2023

Video-Bench：用于评估基于视频的大型语言模型的综合基准和工具包

视频型大型语言模型（Video-LLM）的评估系统是本文提出的主题，通过建立全面的基准测试系统，评估多种任务下的 Video-LLM 能力水平，揭示当前模型在理解和分析真实世界视频方面与人类的差距，提供有价值的研究方向。

Nov, 2023

基于大语言模型的视频理解研究综述

通过综述表明，利用大型语言模型（LLMs）的能力，视频理解工具的发展具有巨大的潜力，并且在空间时间推理和通识知识方面表现出令人惊讶的优势，还展示了在各个领域中应用的强大可扩展性和多功能性。

Dec, 2023

大型视觉-语言模型的视频理解能力的扩展：减少令牌和减少视频

通过利用图像和视频之间的视觉相似性，本文介绍了一种成本效益较高的视频-LVLM模型，通过改进模型结构、引入创新的训练策略，并确定最有效的视频指令数据类型，实现了将基于图像的LVLM模型高效演化为视频-LVLM模型，并在有限资源环境下强调了时间理解的视频培训数据的重要性，提高了模型性能。

Jun, 2024

语境长距离从语言到视觉的转换

通过扩展语言模型的上下文长度，我们实现了视频片段中的长上下文传递，使得大型多模态模型能够理解数量级更多的视觉标记，并开发了一个纯合成的长视觉基准测试，证明了Long Video Assistant（LongVA）在处理长视频方面的优越性能。

Jun, 2024

金鱼：对任意长视频的视觉语言理解

本研究介绍了一种名为Goldfish的方法，针对各种长度的视频进行理解，通过有效的检索机制并结合MiniGPT4-Video生成详细描述，从而在长短视频理解方面取得了显著的改进，超过了现有的方法。

Jul, 2024

Video-XL：超长视觉语言模型用于小时级视频理解

本研究针对现有多模态大语言模型在处理极长视频时面临的挑战，特别是上下文长度限制和视觉清晰度下降的问题，提出了Video-XL模型。通过引入视觉上下文潜在总结技术，该模型高效地将视觉信息压缩并实现了在长视频理解基准上的优异表现，展示了其在视频摘要、监控异常检测和广告投放识别等应用中的重要潜力。

Sep, 2024

从秒到小时：多模态大语言模型在综合长视频理解上的评审

本研究针对长视频理解面临的独特挑战，探讨了多模态大语言模型（MM-LLMs）的设计与训练差异。通过总结现有研究进展，本论文揭示了在空间时间细节和长期依赖性方面的关键问题，并展示了MM-LLMs在不同视频长度理解基准测试中的表现，为未来长视频理解的方向提供了重要见解。

Sep, 2024

视觉上下文窗口扩展：长视频理解的新视角

本研究解决了长视频理解中大多模态模型（LMMs）面临的性能挑战，特别是视觉和语言模态之间的上下文窗口差异。通过扩展视觉上下文窗口，研究提供了一种新的方法，可以在不重新训练长视频数据集的情况下适应长视频任务。此外，引入的渐进池化推理策略有效降低了内存消耗，同时保持了重要的空间信息，显著提高了长视频理解的性能。

Sep, 2024

视觉上下文窗口扩展：长视频理解的新视角

本研究解决了现有大型多模态模型在长视频理解中的不足，提出了一种通过扩展视觉上下文窗口的方法，以便在无需重新训练长视频数据集的情况下应用LMMs。研究结果表明，该方法在多个长视频理解基准上均显著提升了性能，尤其是在内存使用方面的改进减少约45%的记忆消耗，且不影响性能表现。

Sep, 2024