跨模态离散表示学习
本文提出了一种共享预测深度量化(SPDQ)模型,通过嵌入到重现核希尔伯特空间中同时学习共享子空间和两个私有子空间的表示,以进行不同模态之间的最近邻搜索,并在标签对齐的帮助下实现语义保留。实验结果显示,该模型在两个流行的基准测试中优于现有的基准方法。
Apr, 2019
我们在这篇论文中介绍了一个简单而有效的跨模态框架,利用现有的大型语言模型,在 2D 视觉推理任务中通过将视觉编码器与最先进的语言模型对齐,展现了通用功能。我们通过收集高质量的调整数据,自动和可扩展地收集音频和 3D 方面 QA 样本,以便实现指导模态的微调。通过利用指导感知表达,我们的模型在无需大规模特定模态的预训练或自定义的情况下,表现出与领先模型相当的性能。此外,我们的方法展现出在两个或更多输入模态中进行跨模态推理的能力,尽管每个模态投影都是单独训练的。为了研究模型的跨模态能力,我们提出了一个新颖的鉴别跨模态推理(DisCRn)评估任务,包括 9K 个音频 - 视频 QA 样本和 28K 个图像 - 3D QA 样本,要求模型在不同的输入模态之间进行鉴别性推理。
Nov, 2023
本文提出了一种名为 MultiModal Contrastive Learning (MMCL) 的新型框架,用于捕捉多模态表示中的内部和外部动态。我们采用对比学习技术,包括单模态对比编码和伪孪生网络,来过滤内嵌噪声和捕获跨模态动态。此外,我们设计了两种对比学习任务,实例和基于情感的对比学习,以促进预测过程并学习与情感相关的更多交互信息。在两个公共数据集上进行的广泛实验表明,我们的方法超过了现有的最先进方法。
Oct, 2022
本文介绍了一种新的跨模态场景数据集,并研究了如何学习跨模态场景的表示。通过正则化跨模态卷积神经网络,我们提出了一种共享表示方法,可以帮助跨模态检索表征。此外,我们的可视化结果表明,共享表示中出现了单元,它们倾向于独立于模态激活的一致概念。
Jul, 2016
本文提出了一种神经网络体系结构,灵感来源于认知学的 “全球工作区” 的概念,可以通过自监督训练对两种输入方式进行对齐和翻译,并且将全球工作区表示应用于下游分类任务和强大的转移学习。
Jun, 2023
本文提出了一种基于 Finite Discrete Tokens (FDT) 的多模态表示方法,通过引入 FDT tokens 来代替原有的视觉片段和语言词,减小了不同语义级别和粒度间的差异,实现了更好的跨模态对齐和性能表现。
Mar, 2023
本文提出了一种基于深度学习预训练模型的编码表示方法,使用简单的最小二乘和奇异值分解(SVD)解决 Procrustes 问题来构建不同模态之间的语义对齐,并通过对预训练模型进行反证学习和多层感知机改进,实现了在图像和文本交叉检索任务中可比拟于需要昂贵的神经网络训练和微调的高性能。
Apr, 2023
本文对异构数据检索问题进行了探讨,综述并分类了已有的交叉检索方法,包括基于实值表示学习和基于二进制表示学习的方法,并介绍了多个常用的多模态数据集以及比较不同方法的实验结果。
Jul, 2016
本文提出了一个结合多模态学习嵌入与持续学习的框架,研究了新任务导致了的困扰与不同因素造成的遗忘,发现索引阶段对任务效果有显著影响,并提出缓解遗忘的工具。在两个图像 - 文本检索数据集中证明了我们的方法的显著提高。
Apr, 2021