支持集瓶颈用于视频 - 文本表示学习

Oct, 2020

支持集瓶颈用于视频 - 文本表示学习

Support-set bottlenecks for video-text representation learning

Mandela Patrick, Po-Yao Huang, Yuki Asano, Florian Metze, Alexander Hauptmann...

TL;DR本文提出了一种使用生成模型来自然地将相关样本聚集在一起的新方法，以确保表征不过度特化于个别样本，可以在数据集中重复使用，并且结果表明，相对于噪声对比学习，我们的方法在 MSR-VTT、VATEX、ActivityNet 和 MSVD 上取得了更好的视频-文本检索性能。

Abstract

The dominant paradigm for learning video-text representations -- noise contrastive learning -- increases the similarity of the representations of pairs of samples that are known to be related, such as text and video from the same sample, and pushes away the representations of all other

发现论文，激发创造

预测图像和视频字幕检索的文本视觉特征

本文提出了一种基于视觉空间进行图像和视频描述检索的深度神经网络模型，通过多尺度句向量化和多层感知器等方法，将文本输入转化为视觉特征表示，实现了优于文本嵌入的多模态检索效果。

Sep, 2017

利用现有资源：使用协同信息源提取视频表示

该论文旨在将来自不同模态的视频信息压缩为单一、紧凑的表示形式，以用于自由格式文本查询的视频检索任务。通过运用预训练的语义嵌入、自动语音识别和光学字符识别等方法，采用协作专家模型来聚合信息，具有良好的检索性能。

Jul, 2019

从未标记的视频中进行表征学习：看着世界走过去

本研究提出了使用视频自然增广的无标签视频学习方法，可以有效地提取单个图像的表示，并可用于各种时间和非时间任务中。

Mar, 2020

从文本网络监督中学习视频表征

通过采集 70M个公开的视频并使用相关的文本描述进行自我监督训练，本文提出了一种基于文本的学习视频表示的方法，证明了这种方法在预训练视频表示中比现有的方法更有效。

Jul, 2020

使用带噪文本监督扩展视觉和视觉语言表示学习

本文利用包含超过10亿个图像备选文本对的嘈杂数据集，采用简单的双编码器体系结构通过对比损失，学习了图像和文本对的视觉和语言表示，显示出我们语料库的规模可以弥补其噪音，即使使用这样的简单学习方案也能实现最先进的表现，使跨模式搜索变得更加容易。

Feb, 2021

基于阅读策略的视觉表征学习用于文本至视频检索

本文主攻文本到视频检索任务中的视频表示学习，在此基础上提出了一种受人类阅读策略启发的视觉表征学习方法，经实验证明，在三个数据集上取得了最新的最优性能。

Jan, 2022

用于多通道视频-语言检索的预训练对比模型的快速适应

探索多模态检索中利用预训练对比模型和文本符号融合信息的最佳方式，并发现用离散文本符号表示视频的方法取得最佳效果。

Jun, 2022

统一潜在和词典表示以实现有效的视频文本检索

该研究提出了UNIFY框架，通过学习词库表示来捕捉细粒度语义概念，并结合潜在表示和词库表示的优势进行视频文本检索。实验证明，UNIFY框架大大优于先前的视频文本检索方法，在MSR-VTT和DiDeMo上分别提高了4.8%和8.2%的Recall@1。

Feb, 2024

文本是MASS: 用于文本-视频检索的随机嵌入建模

该研究提出了一种新的文本建模方法T-MASS，通过将文本建模为随机嵌入，丰富了文本嵌入的语义范围，并在准确检索时利用了文本质量，从而在五个基准数据集上取得了最先进的性能。

Mar, 2024

元优化角度边界对比框架用于视频-语言表示学习

通过引入对比目标及角默损失函数，采用多层感知机参数化的权重函数和引入大型视觉语言模型生成的视频-文本数据，我们改进了视频-语言表示，并在常用视频问答和文本-视频检索数据集上取得了优越性能。

Jul, 2024