跨模态离散表示学习

Jun, 2021

Cross-Modal Discrete Representation Learning

Alexander H. Liu, SouYoung Jin, Cheng-I Jeff Lai, Andrew Rouditchenko, Aude Oliva...

TL;DR本文提出了一种自监督学习框架，借助向量量化创建的离散嵌入空间，实现了跨不同视图（模态）之间的表征学习和匹配，从而提升了模态检索任务的性能。实验表明，所提出的多模态精细离散化表征能够为高层次摘要表征提供补充，有效改善了跨模态检索的表现。

Abstract

Recent advances in representation learning have demonstrated an ability to represent information from different modalities such as video, text, and audio in a single high-level embedding vector. In this work we present a →

representation learning multi-modal learning self-supervised learning vector quantization cross-modal retrieval

发现论文，激发创造

交叉学习：跨模态自监督

本文介绍了一种利用两种不同形式的信息进行自监督表示学习的方法。我们使用视频数据进行我们的方法，得到良好的性能，并证明我们的特征表示可以转移至其他任务。

Nov, 2018

共享的跨模态深度量化预测

本文提出了一种共享预测深度量化（SPDQ）模型，通过嵌入到重现核希尔伯特空间中同时学习共享子空间和两个私有子空间的表示，以进行不同模态之间的最近邻搜索，并在标签对齐的帮助下实现语义保留。实验结果显示，该模型在两个流行的基准测试中优于现有的基准方法。

Apr, 2019

X-InstructBLIP: 一种将 X-Modal 指导感知表示与 LLMs 和新兴的跨模态推理对齐的框架

我们在这篇论文中介绍了一个简单而有效的跨模态框架，利用现有的大型语言模型，在 2D 视觉推理任务中通过将视觉编码器与最先进的语言模型对齐，展现了通用功能。我们通过收集高质量的调整数据，自动和可扩展地收集音频和 3D 方面 QA 样本，以便实现指导模态的微调。通过利用指导感知表达，我们的模型在无需大规模特定模态的预训练或自定义的情况下，表现出与领先模型相当的性能。此外，我们的方法展现出在两个或更多输入模态中进行跨模态推理的能力，尽管每个模态投影都是单独训练的。为了研究模型的跨模态能力，我们提出了一个新颖的鉴别跨模态推理（DisCRn）评估任务，包括 9K 个音频 - 视频 QA 样本和 28K 个图像 - 3D QA 样本，要求模型在不同的输入模态之间进行鉴别性推理。

Nov, 2023

多模态情感分析中的单模编码和跨模态预测的多模态对比学习

本文提出了一种名为 MultiModal Contrastive Learning (MMCL) 的新型框架，用于捕捉多模态表示中的内部和外部动态。我们采用对比学习技术，包括单模态对比编码和伪孪生网络，来过滤内嵌噪声和捕获跨模态动态。此外，我们设计了两种对比学习任务，实例和基于情感的对比学习，以促进预测过程并学习与情感相关的更多交互信息。在两个公共数据集上进行的广泛实验表明，我们的方法超过了现有的最先进方法。

Oct, 2022

从弱对齐数据中学习对齐跨模态表示

本文介绍了一种新的跨模态场景数据集，并研究了如何学习跨模态场景的表示。通过正则化跨模态卷积神经网络，我们提出了一种共享表示方法，可以帮助跨模态检索表征。此外，我们的可视化结果表明，共享表示中出现了单元，它们倾向于独立于模态激活的一致概念。

Jul, 2016

全局工作空间下的半监督多模态表示学习

本文提出了一种神经网络体系结构，灵感来源于认知学的 “全球工作区” 的概念，可以通过自监督训练对两种输入方式进行对齐和翻译，并且将全球工作区表示应用于下游分类任务和强大的转移学习。

Jun, 2023

对比学习中的多模态表示再探讨：从块和标记嵌入到有限离散标记

本文提出了一种基于 Finite Discrete Tokens (FDT) 的多模态表示方法，通过引入 FDT tokens 来代替原有的视觉片段和语言词，减小了不同语义级别和粒度间的差异，实现了更好的跨模态对齐和性能表现。

Mar, 2023

跨模态信息检索是否可以无需训练？

本文提出了一种基于深度学习预训练模型的编码表示方法，使用简单的最小二乘和奇异值分解（SVD）解决 Procrustes 问题来构建不同模态之间的语义对齐，并通过对预训练模型进行反证学习和多层感知机改进，实现了在图像和文本交叉检索任务中可比拟于需要昂贵的神经网络训练和微调的高性能。

Apr, 2023

跨模态检索综述

本文对异构数据检索问题进行了探讨，综述并分类了已有的交叉检索方法，包括基于实值表示学习和基于二进制表示学习的方法，并介绍了多个常用的多模态数据集以及比较不同方法的实验结果。

Jul, 2016

跨模态检索中的持续学习

本文提出了一个结合多模态学习嵌入与持续学习的框架，研究了新任务导致了的困扰与不同因素造成的遗忘，发现索引阶段对任务效果有显著影响，并提出缓解遗忘的工具。在两个图像 - 文本检索数据集中证明了我们的方法的显著提高。

Apr, 2021