本研究提出了一种文本 - 视频本地化预文本任务,以实现细粒度的时间和语义对齐,从而让训练模型能够准确感知给定文本描述的视频时间边界,并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。
Jan, 2023
CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索,采用端到端方式,区别于领先的视频和语言学习方法的多模态交互,我们利用预训练的图像语言模型,进一步简化为两个具体阶段的框架,使其能够在相对较少的数据集上进行训练,并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性,我们在 MSR-VTT,MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。
Jun, 2021
本文提出 VoP 框架,结合视频和文本提示来提高文本 - 视频检索任务的效率和性能,相比使用 full fine-tuning 更加高效,在 5 个文本 - 视频检索基准上平均能够获得 1.4% 的 R@1 增益,并且仅需要 6 倍于 full fine-tuning 的可训练参数
Nov, 2022
本文提出了一种名为 VLAB 的新型视频 - 文本预训练方法,通过特征适应和融合扩展了 CLIP 的能力并构建统一的视频多模态模型,验证了其在视频文本检索、视频字幕生成和视频问答等高竞争任务中的有效性和多功能性。
May, 2023
通过引入一种名为语言导向的时空提示学习(LSTP)的新方法,利用时间信息高效提取相关视频内容,并巧妙捕捉视觉和文本元素之间的复杂空间关系,从而显著提高计算效率、时间理解和时空对齐,通过两个挑战性任务的实证评估,证明了我们提出的 LSTP 范型在视频问答和视频中的时间问题定位方面具有卓越的性能、速度和多功能性。
Feb, 2024
本文提出 LiteVL 模型,结合 BLIP 图像语言模型,通过使用动态时态缩放,给图像编码器添加时间注意力模块,并提出非参数池化机制,以自适应地重新加权文本条件下的细粒度视频嵌入,取得了良好的性能,即使没有进行任何视频 - 语言预训练。
Oct, 2022
本研究提出了一种利用语义转录排序来增强可转移的时空表示学习的方法,通过将视觉模型与自然转录的语言知识结合起来,使视频模型能够在时间上建立背景并重塑叙述性的转录,从而实现在多样化数据集上表现出色。
Sep, 2022
本文提出了一种弱监督的预训练方法 oCLIP,该方法通过联合学习视觉和文本信息来获取有效的场景文本表示,并能从弱注释文本中学习,可以有效地应对 OCR 任务。实验证明,该方法在多个公共数据集上都优于现有的预训练技术。
Mar, 2022
该论文提出了一种对全视频和段落进行显式比较的对比学习框架 TempCLR,通过使用动态时间规整来计算句子 - 剪辑对的最小累积成本作为序列级距离,它可以探索时间动态,并在视频检索、行动步骤定位和少量动作识别等任务中实现了一致的性能提升。
Dec, 2022
本文提出了一种高效且有效的视频和语言预训练框架 ——Align and Prompt,通过提出视频 - 文本对比(VTC)损失和提示实体建模(PEM)任务来更好地跨模态对齐,从而学习精细的区域 - 实体对齐,与以前的方法相比取得了显着性能提升。
Dec, 2021