KeyVideoLLM:面向大规模视频关键帧选择
本文提出了一种名为VideoLLM的新框架,它利用了自然语言处理(NLP)预训练LLMs的序列推理能力来进行视频序列理解。通过精心设计的模态编码器和语义转换器,将不同来源的输入转换为统一的标记序列,然后将其馈入仅解码的LLM中。在实验中,作者评估了VideoLLM在多个任务上的表现,证明了LLMs的理解和推理能力可以有效地转移到视频理解任务中。
May, 2023
通过对长视频生成多样的合成标题,使用大型语言模型评估长视频检索系统的能力,并提出轻量级微调方法(基于对不同标题中信息层级的差异进行对比损失学习),在下游的段落-视频检索任务以及使用合成数据计算的各种长视频检索度量上均有明显提升。
Nov, 2023
大规模模型序列关键帧提取,包含TransNetV21和CLIP2模型的视频语义总结方法。通过提出的自适应聚类算法,剔除冗余并得出最终的序列关键帧。在与其他竞争方法的比较中,证实了这种方法的卓越性能。
Jan, 2024
通过多模态输入构建高质量视频数据集,使用检索模型选择最佳字幕注释,名为Panda-70M,训练模型在视频字幕生成、视频与文本检索等任务上具有优异性能。
Feb, 2024
使用长视频理解任务中的Large Language Models(LLMs)面临的挑战,本文提出了一种名为LongVLM的VideoLLM模型,通过分解长视频为短期片段,并使用分层令牌合并模块编码局部特征,维护顺序,整合全局语义信息,实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。
Apr, 2024
提出了一种轻量级自监督方法,将可学习的时空查询引入预训练模型以适应长视频,通过在HowTo100M数据集上进行训练,并在零样本长视频理解基准测试中表现出良好性能。
Apr, 2024
这篇论文介绍了VideoStreaming,一种用于视频理解的先进视觉语言大型模型(VLLM),它能够通过编码和自适应选择的少量视频标记流式地理解任意长度的视频。
May, 2024
VideoNIAH是一个简单但高度可伸缩的基准构建框架,通过合成视频生成,将测试视频内容与查询-响应解耦,并通过插入多个不相关的图像/文本'针'来生成注释,从而确保视频来源的多样性和各种查询-响应。
Jun, 2024
长篇视频中的关键帧选择和顺序感知字幕生成能够显著减少信息冗余,我们提出的LVNet框架通过两种新的方法在LVQA基准数据集上实现了最先进的性能。
Jun, 2024
通过学习视频流进行大规模语言模型增强,提供视觉能力及实时对话功能,以应对视频流输入的视频流对话学习目标、数据生成方案和优化推断流程的新颖学习框架。
Jun, 2024