- 多尺度时差变换器用于视频文本检索
在视频文本检索领域,我们提出了一种名为 MSTDT 的变种 Transformer,主要解决了传统 Transformer 对于捕捉本地时间信息能力有限的问题,并通过多尺度时间 Transformer 来提取帧差异特征和整合差异和帧特征来更 - HaVTR:利用大型基础模型改进视频 - 文本检索的方法
HaVTR 提出了一种新颖的视频 - 文本学习范式,通过数据增强和引入生成模型生成更加丰富的数据,提高视频 - 文本检索模型的表示学习能力,在多个检索基准测试中展现了优越性。
- COLING统一潜在和词典表示以实现有效的视频文本检索
该研究提出了 UNIFY 框架,通过学习词库表示来捕捉细粒度语义概念,并结合潜在表示和词库表示的优势进行视频文本检索。实验证明,UNIFY 框架大大优于先前的视频文本检索方法,在 MSR-VTT 和 DiDeMo 上分别提高了 4.8% 和 - 视频编辑对视频检索的应用
通过使用单个时间戳作为廉价的注释来源,本研究提出了一种视频文本检索方法,其中初始视频片段边界从时间戳启动,并通过视频片段编辑方法进行改进,以提高检索性能。实验结果表明,通过编辑视频片段可以持续改善检索性能。
- RGNet:一个用于长视频的统一检索与定位网络
通过统一跨模态 RG-Encoder 和稀疏采样技术,RGNet 方法实现了对长视频进行端到端的特定时刻定位,从而超过了以往在长视频时间定位数据集 MAD 和 Ego4D 上的方法,展示了最先进的性能。
- ICCV视频文本检索的统一粗细对齐
通过联合考虑不同粒度的跨模态相似性,我们提出了一种统一的多粒度对齐模型 UCoFiA,显著优于以前的基于 CLIP 方法,在多个视频 - 文本检索基准上表现出了 2.4%,1.4%和 1.3%的文本到视频检索 R@1 改进。
- ICCV多事件视频文本检索
本研究介绍了多事件视频 - 文本检索(MeVTR)任务,旨在解决视频内容通常包含多个事件,而文本如用户查询或网页元数据倾向于特定和单一事件的实际情况。我们提出了一个简单的模型 Me-Retriever,它包含关键事件视频表示和新的 MeVT - ICCV助力之手:一种物体感知的自我中心视频识别模型
引入一种面向对象的解码器,通过提供手部位置、物体位置以及物体的语义标签的预测任务来增强模型的对象感知能力,以在自我中心视频中提高时空表示的性能。通过在几个下游视频文本检索和分类基准测试中进行强转移和使用学习到的表示来进行长期视频理解任务的输 - 受监督的多空间多粒度对齐视频文本检索
本研究提出了一种新的多空间多粒度监督学习框架 SUMA,用于学习视频和文本之间的对齐表示空间,其中初始对齐空间由一定数量的概念聚类初始化。实验结果表明,SUMA 相比现有方法具有更好的性能。
- AAAI标签对齐前的多模式标签集成视频文本检索
本文提出了一种用于视频 - 文本检索的 TABLE(标记前对齐)网络,该网络通过标记将多模态信息显式地集成在一起,并在视觉编码器、标记编码器、文本编码器和带有标记引导的跨模态编码器的联合编码下,使用预训练的多模态专家从多模态中提取信息。实验 - 用于高效视频文本检索的掩码对比预训练
本文提出了一种简单而有效的视频 - 语言预训练框架,用于视频 - 文本检索任务,并采用掩蔽对比视频 - 语言预训练进行了优化,以提高预训练效率和性能,并实现了与图像 - 文本检索任务的竞争结果。
- ECCV利用用户评论提升视频文字检索
本文介绍了一个包含视频、标题和评论的新数据集,并 presents 了一种基于 attention-based 机制的方法,该方法可以让模型从用户评论等有时不相关的数据中学习,并通过使用评论来学习更好的、更具上下文的图像、视频和音频表示。
- ICLRCLIP-ViP:基于预训练图文模型的视频语言表示对齐
通过对数据规模和语言源域差异的研究,本文提出了一种基于 CLIP 的 OmniSource 跨模态学习方法,称为 CLIP-ViP,通过视频代理机制改进后续预训练 CLIP,从而实现显著提高视频 - 文本检索的性能。该方法在多个数据集上均取 - MM利用显式高层语义提升视频文本检索
本文提出了一种名为 HiSE 的视觉语言对齐模型,通过明确的高层语义信息来提高跨模态表示,结合图形推理技术来促进全局和离散高级语义之间的交互,通过在 MSR-VTT、MSVD 和 DiDeMo 等三个基准数据集上的广泛实验表明,我们的方法在 - MMX-CLIP: 视频文本检索的端到端多粒度对比学习
本篇论文提出了一种名为 X-CLIP 的多层次对比模型,通过 Attention Over Similarity Matrix 模块将多粒度相似度矩阵聚合到实例级别,大幅度提高了视频 - 文本检索的性能表现。在五个常用的视频文本检索数据集上 - MILES: 注入语义来实现视频文本检索的视觉 BERT 预训练
本文应用了基于遮蔽的视觉建模(Masked visual modeling)技术在双编码器(dual-encoder)架构下进行视频文本预训练,并利用额外的视频编码器作为 “tokenizer” 去产生预测目标,并通过在空间和时间维度上进行 - 学习区域的视频文本预训练
本研究提出一种新的视频文本表示学习模块(RegionLearner),能够在大规模视频文本对的预训练中考虑对象结构,并通过语义群聚来合并视觉特征,最终通过不同聚合区域之间的交互来建模,从而促进视频文本检索的效果。
- 通过多流语料库对齐和双 Softmax 损失来改进视频文本检索
本文提出一种基于多流语料库对齐网络和双 softmax 损失函数的方法(CAMoE 和 DSL),以解决 CLIP 模型在视频和文本结构和内容异构性方面过拟合和检索效率相对较差的问题,并在各种基准测试中取得了最先进的成果。
- MMHANet: 视频文本检索的分层对齐网络
本文提出了一种 Hierarchical Alignment Network 框架,通过把视频和文本分解成三个层次,即事件 - 动作 - 实体水平,并在个体 - 局部 - 全局层次上构建层次表示,捕捉视频和文本之间的从精细到粗略的对应关系, - CLIP2Video: 通过 Image CLIP 掌握视频文本检索
CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索,采用端到端方式,区别于领先的视频和语言学习方法的多模态交互,我们利用预训练的图像语言模型,进一步简化为两个具体阶段的框架,使其能够在相对较少的数据集上进行训练,并通过 T