Momentor:利用细粒度时间推理推进视频大型语言模型
该研究提出了 VTimeLLM,一种新型的视频理解模型,通过采用三阶段的训练策略,在细粒度的视频时刻理解和时间边界推理方面取得显著性能优势,能够有效地在视频理解任务中超越现有的 Video LLMs 模型。
Nov, 2023
本文提出了一种名为 VideoLLM 的新框架,它利用了自然语言处理(NLP)预训练 LLMs 的序列推理能力来进行视频序列理解。通过精心设计的模态编码器和语义转换器,将不同来源的输入转换为统一的标记序列,然后将其馈入仅解码的 LLM 中。在实验中,作者评估了 VideoLLM 在多个任务上的表现,证明了 LLMs 的理解和推理能力可以有效地转移到视频理解任务中。
May, 2023
通过引入大型语言模型(LLMs)的广泛知识,我们提出了一种大型语言模型引导的时刻检索(LMR)方法,以改善视频上下文表示和跨模态对齐,从而实现准确的目标时刻定位。
May, 2024
本文提出了一种新模型,该模型可以明确地推理视频中的不同时间片段,证明了在包括时间语言的短语定位中,时间上下文的重要性,并通过 TEMPO 数据集进行了实验以验证模型可靠性。
Sep, 2018
利用图像 - 文本预训练的多模态大语言模型(MLLMs)进行时刻检索,获得了令人惊讶的有效性,并且在时刻检索和时序动作定位任务上实现了最新的性能。
Jun, 2024
本文提出了一种名为 HAMMER 的 HierArchical Multi-Modal EncodeR 模型,通过在粗略的片段级别和细粒度的帧级别编码视频,从多个子任务中提取不同尺度的信息,从而解决了在未处理和未分段的视频中定位未定义段的挑战。实验结果表明,我们的方法优于以前的方法和强基线,是此任务的新的 state-of-the-art。
Nov, 2020
介绍了 TempCompass 基准测试,该基准测试引入了多样化的时间感知和任务格式,全面评估了 8 种最新的视频大语言模型以及 3 种图像大语言模型,并揭示了这些模型在时间感知方面表现出明显的不足。
Mar, 2024
使用长视频理解任务中的 Large Language Models(LLMs)面临的挑战,本文提出了一种名为 LongVLM 的 VideoLLM 模型,通过分解长视频为短期片段,并使用分层令牌合并模块编码局部特征,维护顺序,整合全局语义信息,实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。
Apr, 2024
通过综述表明,利用大型语言模型(LLMs)的能力,视频理解工具的发展具有巨大的潜力,并且在空间时间推理和通识知识方面表现出令人惊讶的优势,还展示了在各个领域中应用的强大可扩展性和多功能性。
Dec, 2023
通过在 Large Language Models(LLMs)中添加 Spatial-Temporal 序列建模,提高视频理解能力,并通过动态掩蔽策略和全局 - 局部输入模块提升效率和稳定性,从而在 VideoChatGPT-Bench 和 MVBench 上建立了新的最优结果。
Mar, 2024