多模态大型语言模型实现活动的时间连接

May, 2024

多模态大型语言模型实现活动的时间连接

Temporal Grounding of Activities using Multimodal Large Language Models

Young Chol Song

TL;DR通过结合基于图像和基于文本的大型语言模型，这篇论文在两个阶段的方法中评估近期多模态大型语言模型在时间活动定位中的有效性，并表明此方法胜过现有的基于视频的大型语言模型；此外，论文还研究了对较小的多模态语言模型进行指导调整的影响，结果显示提高其处理动作查询的能力可生成更加富有表达力和信息量的输出，从而增强其在识别特定时间活动间隔方面的性能；在Charades-STA数据集上的实验结果突显了该方法在推动时间活动定位和视频理解领域的潜力。

Abstract

temporal grounding of activities, the identification of specific time intervals of actions within a larger event context, is a critical task in video understanding. Recent advancements in →

发现论文，激发创造

TALL: 通过语言查询进行时间活动定位

本文提出了一种使用自然语言查询来进行时间活动定位的方法，使用融合文本和视频特征的方法实现跨模态匹配，并采用后期处理技术进行结果的精确定位，实验结果验证了该方法的有效性。

May, 2017

局部-全局视频文本交互的时间对齐

该论文提出了一种基于回归模型的方法，使用文本查询中的语义短语提取中间特征，以反映查询中描述的重要语义实体和视频的视觉特征之间的双模态交互，通过在多个层面上从局部到全局利用上下文信息，有效地预测目标时间区间。实验证明，该方法在Charades-STA和ActivityNet Captions数据集上的表现明显优于现有方法。

Apr, 2020

TimeChat：长视频理解的时间敏感多模态大型语言模型

该研究提出了TimeChat，一种针对长视频理解的时态敏感多模态大型语言模型。该模型通过两个关键的架构贡献实现：1) 能够将每帧的视觉内容与时间戳绑定的时间感知帧编码器，和 2) 一种产生适应不同持续时间视频的长度可变视频令牌序列的滑动视频Q-Former。此外，我们构建了一个调整指令的数据集，包括6个任务和总共12.5万个实例，以进一步提高TimeChat的指令遵循性能。在各种视频理解任务上的实验结果，如密集字幕生成、时间定位和重点检测，展示了TimeChat强大的零样本时态定位和推理能力。例如，在YouCook2上，它在F1评分上提升了9.2，在CIDEr上提升了2.8，在QVHighlights上的HIT@1提升了5.8，在Charades-STA上的R@1 (IoU=0.5)提升了27.5，与业界领先的视频大型语言模型相比，具备作为长视频理解任务的通用视频助手并满足真实用户需求的潜力。

Dec, 2023

基于多模态信息的时间句子定位在长视频中的基础调度

通过使用多模态信息，我们提出了一种用于处理长视频中的Temporal Sentence Grounding任务的Grounding-Prompter方法，通过引导LLM进行TSG，提高了推理能力和理解TSG任务的性能。

Dec, 2023

Momentor：利用细粒度时间推理推进视频大型语言模型

提出了Momentor，一种能够完成细粒度时态理解任务的Video-LLM，并通过Moment-10M数据集的训练，使其在细粒度理解和定位方面表现出色。

Feb, 2024

LITA：语言教导的时域定位助手

提出了Language Instructed Temporal-Localization Assistant (LITA)方法，通过引入时间标记、SlowFast标记和强调时序本地化数据，改进了多模态大型语言模型的时序本地化能力，并在Reasoning Temporal Localization (RTL)任务和ActivityNet-RTL数据集中取得了显著的性能提升。

Mar, 2024

多模态大型语言模型对视频片段检索的惊人有效性

利用图像-文本预训练的多模态大语言模型（MLLMs）进行时刻检索，获得了令人惊讶的有效性，并且在时刻检索和时序动作定位任务上实现了最新的性能。

Jun, 2024

用户参与的多模态大语言模型活动辅助评估

本研究解决了现代多模态推理模型在多步骤日常活动中辅助用户的能力缺口。通过对两类多模态大语言模型的基准测试，我们首次开展了用户研究，发现苏格拉底模型在离线和在线设置中均优于视觉条件语言模型，并指出当前模型在活动辅助中处理长期视觉历史的挑战。

Aug, 2024

无训练视频时间定位的基于大规模预训练模型的方法

本研究解决了现有视频时间定位模型依赖特定数据集进行训练并普遍缺乏泛化能力的问题。提出的无训练视频时间定位方法通过利用大规模预训练模型的能力，分析查询文本中的多个子事件及其时间关系，使得该方法在零-shot视频时间定位任务上表现优越，并在跨数据集和OOD情境下展现出更好的泛化能力。

Aug, 2024

从秒到小时：多模态大语言模型在综合长视频理解上的评审

本研究针对长视频理解面临的独特挑战，探讨了多模态大语言模型（MM-LLMs）的设计与训练差异。通过总结现有研究进展，本论文揭示了在空间时间细节和长期依赖性方面的关键问题，并展示了MM-LLMs在不同视频长度理解基准测试中的表现，为未来长视频理解的方向提供了重要见解。

Sep, 2024