KeyVideoLLM：面向大规模视频关键帧选择

Jul, 2024

KeyVideoLLM：面向大规模视频关键帧选择

KeyVideoLLM: Towards Large-scale Video Keyframe Selection

Hao Liang, Jiapeng Li, Tianyi Bai, Chong Chen, Conghui He...

TL;DR通过基于文本-视频帧相似度的关键帧选择方法，KeyVideoLLM能够高效、鲁棒、有效地管理VideoLLM数据，并在视频问答任务中显著改善模型性能，实验结果一直保持在最新技术的前沿。

Abstract

Recently, with the rise of web videos, managing and understanding large-scale video datasets has become increasingly important. Video Large Language Models (videollms) have emerged in recent years due to their strong video understanding capabilities. However, training and inference pro

发现论文，激发创造

VideoLLM: 用大型语言模型对视频序列建模

本文提出了一种名为VideoLLM的新框架，它利用了自然语言处理（NLP）预训练LLMs的序列推理能力来进行视频序列理解。通过精心设计的模态编码器和语义转换器，将不同来源的输入转换为统一的标记序列，然后将其馈入仅解码的LLM中。在实验中，作者评估了VideoLLM在多个任务上的表现，证明了LLMs的理解和推理能力可以有效地转移到视频理解任务中。

May, 2023

一段视频胜过万言：利用多样化字幕进行更好的长视频检索的训练和基准测试

通过对长视频生成多样的合成标题，使用大型语言模型评估长视频检索系统的能力，并提出轻量级微调方法（基于对不同标题中信息层级的差异进行对比损失学习），在下游的段落-视频检索任务以及使用合成数据计算的各种长视频检索度量上均有明显提升。

Nov, 2023

基于大型模型的视频摘要顺序关键帧提取

大规模模型序列关键帧提取，包含TransNetV21和CLIP2模型的视频语义总结方法。通过提出的自适应聚类算法，剔除冗余并得出最终的序列关键帧。在与其他竞争方法的比较中，证实了这种方法的卓越性能。

Jan, 2024

Panda-70M：使用多个跨模态教师为70M视频加上字幕

通过多模态输入构建高质量视频数据集，使用检索模型选择最佳字幕注释，名为Panda-70M，训练模型在视频字幕生成、视频与文本检索等任务上具有优异性能。

Feb, 2024

LongVLM：通过大型语言模型实现高效长视频理解

使用长视频理解任务中的Large Language Models（LLMs）面临的挑战，本文提出了一种名为LongVLM的VideoLLM模型，通过分解长视频为短期片段，并使用分层令牌合并模块编码局部特征，维护顺序，整合全局语义信息，实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。

Apr, 2024

考拉：关键帧条件化长视频-LLM

提出了一种轻量级自监督方法，将可学习的时空查询引入预训练模型以适应长视频，通过在HowTo100M数据集上进行训练，并在零样本长视频理解基准测试中表现出良好性能。

Apr, 2024

使用大型语言模型的流式长视频理解

这篇论文介绍了VideoStreaming，一种用于视频理解的先进视觉语言大型模型(VLLM)，它能够通过编码和自适应选择的少量视频标记流式地理解任意长度的视频。

May, 2024

视频多媒体语言模型基准测试的可扩展合成框架

VideoNIAH是一个简单但高度可伸缩的基准构建框架，通过合成视频生成，将测试视频内容与查询-响应解耦，并通过插入多个不相关的图像/文本'针'来生成注释，从而确保视频来源的多样性和各种查询-响应。

Jun, 2024

太多的帧，不全是有用的：长篇视频问答的高效策略

长篇视频中的关键帧选择和顺序感知字幕生成能够显著减少信息冗余，我们提出的LVNet框架通过两种新的方法在LVQA基准数据集上实现了最先进的性能。

Jun, 2024

视频LLM-online：用于流媒体视频的在线视频大语言模型

通过学习视频流进行大规模语言模型增强，提供视觉能力及实时对话功能，以应对视频流输入的视频流对话学习目标、数据生成方案和优化推断流程的新颖学习框架。

Jun, 2024