双重对比学习的干预式视频对齐
通过地理和博弈论,我们介绍了一种语义对齐和均匀的视频定位框架(G2L),以解决视频定位中的语义重叠和稀疏注释困境,从而量化时序远离的矩阵之间的相关性,学习了细粒度的语义对齐并获得了令人满意的效果。
Jul, 2023
本文介绍了一种新的任务:口语视频 grounding(SVG),旨在将口语描述中的期望视频片段定位出来。该文通过电视测试数据表明,采用音频需要模型直接从原始语音中利用有用的音素和音节与视频相关信息。为了更好地模拟实际应用,还将环境噪声随机添加到这种语音音频中,用于纠正识别性音素并从噪声音频中提取视频相关信息,研发一种新的视频引导课程学习(VGCL)方法。经过广泛的实验证明,我们提出的视频引导课程学习可能促进预训练过程,从而获得一种相互的音频编码器,并显着促进了口语视频焦点任务的表现。
Sep, 2022
本文主要研究了利用语言引导定位视频中的相关片段的问题,提出一种简单直观的跨模态注意力模块 (CMA) 和针对此任务的新回归损失函数来提高定位精度,并在 Charades-STA 和 ActivityNet Captions 数据集上超越了目前最先进的方法。
Sep, 2020
该论文提出了一种基于回归模型的方法,使用文本查询中的语义短语提取中间特征,以反映查询中描述的重要语义实体和视频的视觉特征之间的双模态交互,通过在多个层面上从局部到全局利用上下文信息,有效地预测目标时间区间。实验证明,该方法在 Charades-STA 和 ActivityNet Captions 数据集上的表现明显优于现有方法。
Apr, 2020
该研究论文介绍了一种开放式语义和语境视频定位模型,通过使用预训练的空间定位模型,克服了固定词汇和有限训练数据的限制,取得了在闭合式和开放式语境下的卓越性能。
Dec, 2023
通过统一视频时序定位(Video Temporal Grounding)的各种标签和任务,提出的 UniVTG 框架在大规模不同标签下能够解锁时序定位预训练,并获得更强的定位能力,例如零样本时序定位。对三项任务(时间区间提取、重要片段检测和视频摘要)在七个数据集上的广泛实验证明了该框架的有效性和灵活性。
Jul, 2023
近年来,研究人员试图调查 LLM 在处理视频方面的能力,并提出了几种视频 LLM 模型。然而,LLM 在处理视频对齐(VG)方面的能力仍然不清楚,也没有在文献中进行探索。为了填补这一空白,本文提出了 LLM4VG 基准测试,对不同的 LLM 在视频对齐任务上的性能进行系统评估。基于我们提出的 LLM4VG,我们设计了大量实验,检查了两组视频 LLM 模型在视频对齐上的表现:(i)基于文本 - 视频对训练的视频 LLM(标记为 VidLLM),以及(ii)与预训练的视觉描述模型(如视频 / 图像字幕模型)结合的 LLM。我们提出了整合 VG 指令和来自不同类型生成器的描述的方法,包括用于直接视觉描述的基于字幕的生成器和用于信息增强的基于 VQA 的生成器。我们还对各种 VidLLM 进行了全面比较,并探讨了不同视觉模型、LLM、提示设计等的影响。我们的实验评估得出了两个结论:(i)现有的 VidLLM 离实现令人满意的视频对齐性能还有很长的路要走,需要进一步微调这些模型以包含更多的与时间相关的视频任务;(ii)LLM 和视觉模型的组合显示出初步的视频对齐能力,通过采用更可靠的模型和进一步的提示指导,这种能力具有可观的改进潜力。
Dec, 2023
本文提出一种基于常识感知的跨模态对齐框架,通过从语料库中提取结构化语义信息,设计跨模态交互模块获得桥接式视觉和文本特征,并将其整合到共同的空间中进行快速视频时间定位。在两个具有挑战性的数据集上,证明该方法能够以高速运行,且表现优于现有的方法。
Apr, 2022
我们研究了视觉基础的视频问答,以回应利用预训练技术进行视频语言理解的新趋势。通过迫使视觉语言模型(VLMs)回答问题并同时提供视觉证据,我们试图确定这些技术的预测在多大程度上基于相关视频内容,而非语言或无关的视觉上下文的虚假相关性。通过构建具有 10.5K 时间定位(或位置)标签的 NExT-GQA,我们审查了各种先进的 VLMs。通过事后注意分析,我们发现这些模型在证实答案方面表现较弱,尽管它们在问答性能方面表现强劲。这暴露了这些模型在作出可靠预测方面的严重局限性。为了解决这个问题,我们进一步探索并建议通过高斯掩模优化和跨模态学习的视频定位机制。使用不同的骨干结构进行的实验证明,这种定位机制改善了视频定位和问答的效果。我们发布了我们的数据集和代码。通过这些努力,我们旨在推动在 VQA 系统中部署 VLMs 的可靠性。
Sep, 2023
本文提出了使用图神经网络来进行视频和文本信息的语义对齐,以识别语言查询相关的时间间隔,解决这个挑战性任务的关键是将其转化为一个基于算法的图匹配问题,并采用图匹配层进行跨模态上下文建模和多模态融合,使用视频 - 语言图匹配网络(VLG-Net)匹配视频和查询图,并使用掩码时刻注意力池将时刻候选项通过融合富有效果的片段特征进行生成。在 ActivityNet-Captions,TACoS 和 DiDeMo 三个常用数据集上,我们在带有语言查询的视频瞬间的时间本地化方面展示了优于现有技术水平的性能。
Nov, 2020