- MLLM 作为视频叙述者:减轻视频片段检索中的模态不平衡
利用多模态大型语言模型 (MLLM) 的视觉文本理解能力,本研究以 MLLM 作为视频的叙述者,生成视频的文本描述,从而减少模态不平衡并提高时间定位的准确性。通过获取视频每个时间戳的文本叙述并构建带有时间信息的结构化文本段落,与视觉内容进行 - CVPR流式视频密集字幕
提出了一种用于密集视频字幕生成的理想模型,能够处理长时间视频输入、预测丰富详细的文本描述,并且能在整个视频处理完成之前生成输出,通过引入聚类处理令其能够处理任意长的视频,并设计了一种流式解码算法使模型能够提前进行预测,实验证明了该模型在三个 - LITA:语言教导的时域定位助手
提出了 Language Instructed Temporal-Localization Assistant (LITA) 方法,通过引入时间标记、SlowFast 标记和强调时序本地化数据,改进了多模态大型语言模型的时序本地化能力,并在 - CVPR联合对齐和回归的孪生学习用于弱监督视频段落定位
视频段落定位是视频语言理解中的新兴任务,其旨在从未修剪的视频中定位具有语义关系和时间顺序的多个句子。本研究提出并探索了弱监督视频段落定位,消除了对耗时且繁重的时间标签的需求。通过引入新颖的暹罗学习框架,我们联合学习跨模态特征对齐和无需时间戳 - 基于 Transformer 的 2D 姿势和时空嵌入融合的分心驾驶操作识别
该研究旨在通过将视频动作识别和 2D 人体姿势估计网络结合为一个模型,改善时间定位和分类准确性表现。最终,通过从不同的摄像头视角获取信息并消除误报,该模型在 2023 年 NVIDIA AI 城市挑战的自然驾驶行为识别中表现出色,实现了优化 - 密度引导的标签平滑用于驾驶动作的时空定位
提出了一种基于视频动作识别网络的时间定位方法,通过分析边界视频段和多个摄像头视角的信息,实现了对驾驶行为的准确定位和场景级别预测。
- ICCVUnLoc:一个用于视频定位任务的统一框架
使用预训练图像和文本模型 UnLoc,通过视频文本融合模型预测每帧的相关性得分和起始 / 结束时间位移,实现了瞬间检索、时间定位和动作分割的统一处理,优于先前的方法。
- 弱监督音视频事件定位的时间标签细化
本文提出使用基于弱监督学习思想的三个阶段的视频分段方法对同时具有可见和可听觉事件的音频 - 视觉事件进行定位和分类,方法通过用无重叠的帧替换训练数据片段中的帧并使用合成视频进行训练,辅助任务可以更可靠地预测本地化事件标签。
- EMNLP弱监督的时间文章定位
通过提出一个新的挑战性任务 Weakly-Supervised temporal Article Grounding (WSAG) 和一个有效的方法 DualMIL,可以在一个相关的多媒体资源 (文章和视频) 的不同层级之间定位相关句子。我 - 跨模态共识扩张上下文整合网络在视频情绪时序定位中的应用
本论文提出了一个名为 “视频中的时间情感定位” 的新任务,其旨在检测人类情感并定位其对应的时间边界。当前的工作仅限于裁剪的视频级情感分类,未能定位对应于情感的时间窗口。作者提出了一种新型的扩张上下文集成网络,具有粗细两个流架构,以及跨模态共 - CVPR2022 年 Ego4D PNR 时序定位挑战赛结构化视频令牌
SViT method proposes StructureViT to improve temporal localization by utilizing object tokens and enforcing frame-clip c - CVPR视频中的弱监督行为选择学习
该研究使用 action selection learning(ASL)方法来解决仅拥有视频级别标签的情况下本地化视频中的动作的问题,并在两个流行的基准测试中优于领先的基线,同时还分析了 ASL 的属性和动作性质。
- 视频时间定位的边界敏感预训练
本文首次探讨采用边界敏感预训练任务的方式进行时间定位的模型预训练,并在多个时间定位任务上实现了新的最先进性能,证明了该方法的有效性。
- ICCVVLG-Net: 视频语言图匹配网络用于视频 grounding
本文提出了使用图神经网络来进行视频和文本信息的语义对齐,以识别语言查询相关的时间间隔,解决这个挑战性任务的关键是将其转化为一个基于算法的图匹配问题,并采用图匹配层进行跨模态上下文建模和多模态融合,使用视频 - 语言图匹配网络(VLG-Net - 视频语料库中的时刻定位层级多模态编码器
本文提出了一种名为 HAMMER 的 HierArchical Multi-Modal EncodeR 模型,通过在粗略的片段级别和细粒度的帧级别编码视频,从多个子任务中提取不同尺度的信息,从而解决了在未处理和未分段的视频中定位未定义段的挑 - 基于文本的视频语料库中的时刻定位
本文提出了一种 Hierarchical Moment Alignment Network 方法,该方法基于文本查询,可以在视频语料库中检索相关视频,并对视频中的时刻进行定位。实验结果表明该方法在三个基准测试集上实现了令人满意的性能表现。
- ICCV学习在大规模视频数据中本地化时间事件
该研究提出了两种方法来解决大规模视频数据中事件的时间定位问题,一种是采用梯度提升决策树模型,另一种是采用基于帧级数据、视频级数据和定位模型的深度学习模型组合,在第三届 Youtube-8M 视频识别挑战中获得第 5 名。
- ICCVReActNet:现实世界视频中重复活动的时间定位
本文提出了一种使用卷积神经网络对视频进行表示并使用 ReActNet 对视频进行分类的方法,以定位视频中的有重复运动的部分。该方法可处理任何数量和持续时间的重复段,并具有较好的通用性和性能。
- AAAI阅读,观看和移动:用强化学习将自然语言描述与视频时序地联系起来
本文通过强化学习和多任务学习建立一个分阶段调整临时定位边界的代理模型,在考虑附加边界信息的训练过程中稳步提高绩效,达到了 ActivityNet'18 DenseCaption 和 Charades-STA 数据集上的最优性能。
- 基于语言的时间定位中的活动概念挖掘
该研究提出了一种用于在未剪辑的视频中进行基于语言的时间定位的新方法,该方法利用了语言查询和视觉模型之间的语义概念,以及利用活动分类器预测得分编码视觉概念,并且可以对滑动窗口进行回归定位。实验表明,该方法在 Charades-STA 和 TA