时间感知的视频 - 语言预训练
本文提出了一种面向本地化任务的视频文本预训练框架 LocVTP,通过精细对比对齐和上下文感知等机制,提高了其学到的特征的时空推理能力和传递性,实现了在四个下游任务上的最优表现。
Jul, 2022
该论文提出了一种基于回归模型的方法,使用文本查询中的语义短语提取中间特征,以反映查询中描述的重要语义实体和视频的视觉特征之间的双模态交互,通过在多个层面上从局部到全局利用上下文信息,有效地预测目标时间区间。实验证明,该方法在 Charades-STA 和 ActivityNet Captions 数据集上的表现明显优于现有方法。
Apr, 2020
CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索,采用端到端方式,区别于领先的视频和语言学习方法的多模态交互,我们利用预训练的图像语言模型,进一步简化为两个具体阶段的框架,使其能够在相对较少的数据集上进行训练,并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性,我们在 MSR-VTT,MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。
Jun, 2021
本研究提出一种新的视频文本表示学习模块(RegionLearner),能够在大规模视频文本对的预训练中考虑对象结构,并通过语义群聚来合并视觉特征,最终通过不同聚合区域之间的交互来建模,从而促进视频文本检索的效果。
Dec, 2021
本文提出了一种高效且有效的视频和语言预训练框架 ——Align and Prompt,通过提出视频 - 文本对比(VTC)损失和提示实体建模(PEM)任务来更好地跨模态对齐,从而学习精细的区域 - 实体对齐,与以前的方法相比取得了显着性能提升。
Dec, 2021
本文提出了一种新模型,该模型可以明确地推理视频中的不同时间片段,证明了在包括时间语言的短语定位中,时间上下文的重要性,并通过 TEMPO 数据集进行了实验以验证模型可靠性。
Sep, 2018
本文主要设计了一种高效的全局 - 局部对齐方法,在共享的语义中心集合中,自适应地汇聚多模式视频序列和文本特征,并计算相同中心内的视频特征与文本特征之间的局部交叉模态相似性,从而实现了细致的局部比较,同时降低了交互成本。此外,还提出了一种全局对齐方法,并在三个标准的文本 - 视频检索基准测试中取得了一致的改进和领先的效果。
Apr, 2021
本文提出一种简单有效的方法,将预先训练好的语言 - 图像模型直接应用于视频识别中,使用跨帧注意力机制及视频特定提示方案,实现对长时序列的检测,提高了零样本下的准确率。
Aug, 2022
本文提出了一种方法来自动对齐视频和文本,并使用向量特征将其视为时间分配问题,最终得出整数解决方案,这在对齐视频与符号标签方面取得了显着的改进并在具有相关文本说明的挑战性数据集上进行了评估。
May, 2015