从不完整和异构化数据中学习文本 - 视频嵌入

Apr, 2018

从不完整和异构化数据中学习文本 - 视频嵌入

Learning a Text-Video Embedding from Incomplete and Heterogeneous Data

Antoine Miech, Ivan Laptev, Josef Sivic

TL;DR该研究提出了一种 Mixture-of-Embedding-Experts 模型，可以利用来自图像和视频数据集的数据源同时改进文本视频嵌入，解决了训练中缺失输入因素的难题，并在视频检索任务中表现出显著的改进和优越性能。

Abstract

Joint understanding of video and language is an active research area with many applications. Prior work in this domain typically relies on learning text-video embeddings. One difficulty with this approach, however, is the lack of large-scale annotated video-caption datasets for trainin

text-video embeddings heterogeneous data sources mixture-of-embedding-experts model video retrieval mpii movie description

发现论文，激发创造

跨模态视频文字检索的记忆增强嵌入学习

本研究提出了一种新颖的记忆增强嵌入学习（MEEL）方法，构建了两种记忆模块，交叉模态记忆模块和文本中心记忆模块，用于跨模态视频文本检索任务，解决了局部负样本和文本描述多样性的问题。在 MSR-VTT 和 VATEX 两个基准数据集上进行的实验表明，该方法具有很高的有效性。

Mar, 2021

视频和音频检索的跨模态嵌入

本文介绍了一种利用 YouTube-8M 数据库中视听文件间共同区域来建立联系以自主训练深度神经网络的方法，实现了跨模态特征学习的无监督方法，并得出了良好的检索结果。

Jan, 2018

走向全面的语言 - 视频表示：语言模型增强的 MSR-Video 到文本数据集

通过自动增强语言 - 视频数据集和多方位视频字幕生成方法，提高语言 - 视频表示能力，并通过多模态检索模型验证其有效性。

Jun, 2024

学习鲁棒的视觉 - 语义嵌入

该研究提出了一种基于无监督学习和深度神经网络的终端到终端学习框架，结合自编码器和最大均值差异损失来学习语义和视觉特征的联合嵌入，实现了跨域多模态表示的提取，并构建了更全面的标记和未标记数据的嵌入，帮助从归纳到传导的范围内解决零样本和少样本图像识别和检索等各种复杂任务。

Mar, 2017

视频和文本的跨模态和分层建模

本文探讨了多模态序列数据的建模技术，提出了一种通用模型，即基于层次结构的序列嵌入模型 (HSE)，该模型将不同模态的序列数据嵌入层次语义空间中，取得了超越现有方法的结果，并在零样本动作识别和视频字幕自动生成等下游任务中取得了更好的效果。

Oct, 2018

从图像说明中学习音视频模态

该研究试图通过将图像字幕数据集中的字幕转移到视频剪辑中，从而消除了在文本 - 视频检索和文本 - 音频检索中缺乏大规模训练数据的难题，并创建了一个大规模音频 - 视频字幕数据集，使得使用这个数据集能够训练出性能优异的多模态转换模型，并在视频检索和视频字幕任务中达到或超越 HowTo100M 预训练 20 倍剪辑所能达到的性能，并且能够实现文本 - 音频预训练，并在音频检索任务中达到最先进的结果。

Apr, 2022

Video-MME: 多模式语言模型在视频分析中的首个综合评估基准

在这篇论文中，我们介绍了 Video-MME，这是第一个全方位的、多模式评估基准测试，用于评估 MLLMs 在视频分析中的性能。我们通过多种视频类型、持续时间的长短、多模态数据输入和精确的注释来评估多种 MLLMs，并发现商业模型 Gemini 1.5 Pro 的性能最佳，明显优于开源模型。我们的研究数据集以及这些发现强调了处理更长序列和多模态数据的进一步改进的需求。

May, 2024

从网络数据中通过深度语义嵌入学习学习

本研究提出利用网络和社交媒体数据来学习多模态图像和文本嵌入，旨在将在文本领域中学到的语义知识转移至用于语义图像检索的视觉模型。研究结果表明，利用带有相关文本的图像进行无监督学习的流程能够在三个基准测试中学习五种不同的文本嵌入，并在面向文本的图像检索任务中表现出与受监督方法竞争性的性能。在目标数据中训练时，我们在 MIRFlickr 数据集中明显优于现有技术。进一步，我们展示了如何使用学习到的嵌入执行语义多模态图像检索，超越了传统的实例级检索问题。最后，我们提出了一个新的数据集（InstaCities1M），由 Instagram 图像及其相关文本组成，可用于公平比较图像 - 文本嵌入方法。

Aug, 2018

HowTo100M: 通过观看亿万叙述视频剪辑学习文本 - 视频嵌入

本文提出了使用具有自然语言注释的视频数据来学习文本 - 视频嵌入。我们介绍了 HowTo100M 数据集，该数据集包含了源自于 1.22 百万个讲解视频的 1.36 亿段视频剪辑，能够用于不同领域的学习，证明结果表明，该嵌入方式适用于不同的数据集和领域。

Jun, 2019

跨模态图像 - 文本联合嵌入的网络监督检索

文章提出了利用网络图像及对应标签实现鲁棒视觉 - 语义联合嵌入学习的方法，通过在有限的训练数据中引入弱标注的网络图像能够取得比当前最先进方法更显著的图像 - 文本检索性能提升。

Aug, 2018