CONE:一种针对长视频时间对齐的高效粗到细对齐框架
本技术报告介绍了 ECCV 2022 中 Ego4D 自然语言查询(NLQ)挑战的 CONE 方法。该方法利用了 COarse-to-fiNE 对齐框架,通过对比学习学习了粗粒度语义方差,同时利用对比视觉 - 文本预训练模型 EgoVLP 的强大多模态对齐能力,突出关键时刻,最终在盲测试集上取得了 R1@IoU=0.3 和 R1@IoU=0.5 的分别为 15.26 和 9.24 的结果。
Nov, 2022
在本文中,我们研究了跨模态融合对视频定位模型可扩展性的影响,通过分析发现,针对长视频和大量文本查询的情况,后期融合是一种更具成本效益的融合方案,并提出了一种基于视频的采样方案以实现高效训练。基于这些发现,我们提出了 SnAG,作为可扩展且准确的视频定位的简单基准模型,相较于现有的 CONE 方法在具有挑战性的 MAD 数据集上,在长视频上 SnAG 更准确且快速,同时在短视频上也取得了极具竞争力的结果。
Apr, 2024
本文提出一种基于常识感知的跨模态对齐框架,通过从语料库中提取结构化语义信息,设计跨模态交互模块获得桥接式视觉和文本特征,并将其整合到共同的空间中进行快速视频时间定位。在两个具有挑战性的数据集上,证明该方法能够以高速运行,且表现优于现有的方法。
Apr, 2022
FineCo 使用 Fine-grained Contrastive Loss 对视频帧进行抽样,以更好地学习视频和语言表示,从而提高跨模态对应性和在文本 - 视频检索和视频问答数据集上取得了有竞争力的成果,尤其是在 YouCookII 上实现了最先进的性能。
Oct, 2022
本文提出了一种时间对齐网络,能够对长期视频序列和关联文本句子进行处理,使用了一种新颖的共同训练方法来减少噪音并训练原始指导视频,应用于多个视频理解任务,包括文本 - 视频检索和弱监督视频动作分割等,获得了更好的性能。
Apr, 2022
通过精细化的结构化时空对齐学习方法(Finsta),将输入的文本和视频以细粒度场景图(SG)结构表示,进而统一为整体性 SG(HSG),从而加强语义和时序的视频 - 语言对齐,提高大规模视频 - 语言模型(VLMs)在各种下游任务中的性能。
Jun, 2024
提供了一个无花样的 TVG 模型,借助多尺度邻近注意和缩放边界检测两个核心模块,提高了在具有低语义噪声比的情况下提取最能区分信息的能力。结合端到端训练策略,该模型在不同的 TVG 基准上实现了竞争性的性能,同时具有更快的推理速度和较轻量的模型参数。
Jul, 2023
本文研究了基于视频的语言表示的大规模 MAD 数据集。 现有的基于句子的方法在长视频中表现效果不佳,本文提出了一种新的指导模型的方法,以提高基于句子的方法在长视频上的表现。该方法经实践证明,在 MAD 数据集上获得了更好的效果。
Feb, 2023
通过介绍 VideoCon,我们的研究在应对视频字幕中语义上合理的对比变化方面改进了视频 - 语言对齐模型的鲁棒性,提出了一个广泛的对比失配频谱,并通过一个大规模语言模型构建了基于对比视频字幕的 VideoCon 对齐数据集,我们的对齐模型在人为生成的对比字幕上在视频 - 语言对齐任务中的 AUC 指标上有了 12 个百分点的提升,同时在诸如文本到视频检索(SSv2-Temporal)和视频问答(ATP-Hard)等时间广泛的视频 - 语言任务中表现出了零 - shot 的最新性能。
Nov, 2023
本文提出了一种基于 Fine-grained Iterative Attention Network (FIAN) 的跨模态时间语言定位方法,该方法采用内容定向定位策略而非现有的基于 Anchor 的方法,并在多个公开基准测试中表现出优异的性能。
Aug, 2020