统一潜在和词典表示以实现有效的视频文本检索

Feb, 2024

统一潜在和词典表示以实现有效的视频文本检索

Unifying Latent and Lexicon Representations for Effective Video-Text Retrieval

Haowei Liu, Yaya Shi, Haiyang Xu, Chunfeng Yuan, Qinghao Ye...

TL;DR该研究提出了UNIFY框架，通过学习词库表示来捕捉细粒度语义概念，并结合潜在表示和词库表示的优势进行视频文本检索。实验证明，UNIFY框架大大优于先前的视频文本检索方法，在MSR-VTT和DiDeMo上分别提高了4.8%和8.2%的Recall@1。

Abstract

In video-text retrieval, most existing methods adopt the dual-encoder architecture for fast retrieval, which employs two individual encoders to extract global latent representations for videos and texts. However, they face challenges in capturing fine-grained semantic concepts. In this

发现论文，激发创造

使用网络图像搜索学习视频和句子的联合表示

该研究旨在基于自然语言查询进行视频检索，并采用嵌入模型进行检索任务的训练，试图通过图像搜索以及嵌入模型的应用使 fine-grained 视觉概念得到消歧，最终在视频和句子检索任务中实现了明显的改进，并取得了与当前最先进技术相媲美的描述生成性能。

Aug, 2016

利用现有资源：使用协同信息源提取视频表示

该论文旨在将来自不同模态的视频信息压缩为单一、紧凑的表示形式，以用于自由格式文本查询的视频检索任务。通过运用预训练的语义嵌入、自动语音识别和光学字符识别等方法，采用协作专家模型来聚合信息，具有良好的检索性能。

Jul, 2019

复杂查询视频检索的树增强交叉模态编码

本文提出了一种基于Tree-augmented Cross-modal Encoding的方法，用于结合学习查询的语言结构和视频的时间特征进行视频检索，以实现更好的视频检索性能。

Jul, 2020

支持集瓶颈用于视频 - 文本表示学习

本文提出了一种使用生成模型来自然地将相关样本聚集在一起的新方法，以确保表征不过度特化于个别样本，可以在数据集中重复使用，并且结果表明，相对于噪声对比学习，我们的方法在 MSR-VTT、VATEX、ActivityNet 和 MSVD 上取得了更好的视频-文本检索性能。

Oct, 2020

基于阅读策略的视觉表征学习用于文本至视频检索

本文主攻文本到视频检索任务中的视频表示学习，在此基础上提出了一种受人类阅读策略启发的视觉表征学习方法，经实验证明，在三个数据集上取得了最新的最优性能。

Jan, 2022

文本-视频检索的解耦表征学习

本文针对文本-视频检索中交叉模态交互问题进行了研究，并提出了一种基于分离框架的、具有序列和分级表示的模型来优化模型性能，通过在各类基准测试上验证表明，该模型取得了较好的效果

Mar, 2022

使用细粒度帧采样的对比视频语言学习

FineCo使用Fine-grained Contrastive Loss对视频帧进行抽样，以更好地学习视频和语言表示，从而提高跨模态对应性和在文本-视频检索和视频问答数据集上取得了有竞争力的成果，尤其是在YouCookII上实现了最先进的性能。

Oct, 2022

高效且有效的文本到视频检索:基于粗粒度到细粒度的视觉表征学习

通过多粒度视觉特征学习和二阶段检索体系结构，本研究提出了一种在检索效果和效率之间取得平衡的文本到视频检索方法，同时在训练阶段采用了参数无关的文本门控交互块和额外的Pearson约束来优化跨模态表示学习，从而实现了与当前最先进方法相媲美的性能，且速度快近50倍。

Jan, 2024

全局-局部语义一致学习的文本-视频检索

通过提出 Global-Local 语义一致性学习方法，该研究利用文本-视频预训练模型，实现在文本-视频检索中的高效性和效果提升。通过全局和局部交互模块实现粗粒度和细粒度的语义对齐，并引入一致性损失和多样性损失，达到概念对齐和生成更有区分性的概念的目的。实验结果表明，该方法在多个基准测试中具有优越的性能和高效率。

May, 2024

走向全面的语言-视频表示：语言模型增强的MSR-Video到文本数据集

通过自动增强语言-视频数据集和多方位视频字幕生成方法，提高语言-视频表示能力，并通过多模态检索模型验证其有效性。

Jun, 2024