本文介绍了一种名为交叉调制网络的架构,可以利用特征调制机制在多个层次上实现支持示例和查询示例之间的交互,这种架构为少样本学习提供了一种新的方法。在 miniImageNet 的 5 路 1-shot 场景中,本文关键字提到的模型表现也达到最先进水平。
Dec, 2018
该论文提出了一种跨模态特征生成框架,利用文本数据来弥补计算机视觉任务中数据稀缺的不足,进而提高分类结果,并在实验中证明该方法的有效性。
Nov, 2020
使用多模态深度神经网络(DNN)预测了人脑多模态整合的位置,通过预测人类在观看电影时的立体脑电图(SEEG)记录,我们将多模态整合的位置定义为多模态视觉语言模型优于单模态语言、单模态视觉或线性整合的区域。通过对不同架构和多模态训练技术的目标 DNN 模型进行对比,我们发现在大脑区域中存在多个整合多模态信息的神经位点。此外,我们发现在我们评估的多模态训练技术变体中,CLIP 风格的训练最适合下游预测这些位点的神经活动。
Jun, 2024
本文提出了一种基于深度学习预训练模型的编码表示方法,使用简单的最小二乘和奇异值分解(SVD)解决 Procrustes 问题来构建不同模态之间的语义对齐,并通过对预训练模型进行反证学习和多层感知机改进,实现了在图像和文本交叉检索任务中可比拟于需要昂贵的神经网络训练和微调的高性能。
Apr, 2023
本篇研究提出了一种方法,使用特定的 loss 函数,在保持图像和文本子空间内的语义连贯性的同时鼓励它们之间的语义协同,并改进了基线模型,以实现跨模态检索。
Jul, 2020
本文研究如何学习跨模态场景表示并提出了新的跨模态场景数据集以及正则化方法,实现了共享的、跨模态的表示,实验表明我们的场景表示对于跨模态检索至关重要,同时我们的可视化结果表明,共享表示中的单元倾向于独立于模态激活在一致的概念上。
Oct, 2016
本篇论文提出了一种基于先前训练的深度生成模型,利用潜变量空间进行无监督跨模态域迁移的新方法,并探索了通过学习一个后续接口来提高模块性的可能性。通过定量和定性的实验证明了该方法的有效性,证明了在迁移过程中局部性和语义对齐得到了保留,而且通过这种模块化结构可以大大加快新接口模型的训练速度。
Feb, 2019
本文提出了一种机制,可以根据待学习的新图像类别自适应地从视觉和语义两方面结合信息,通过一系列实验表明,这种自适应组合可以在所有基准和 few-shot 情景上大幅优于当前单模态学习方法和模态对齐方法,特别是在少样本的情况下。
通过向文本转换器添加视觉信息,我们研究了冻结的文本转换器如何使用自监督视觉编码器和单一线性投影将一种模态的学习表示迁移到另一种模态,在转换器内部发现了模态之间的转换,并通过识别多模态神经元和解码它们注入模型剩余流的概念来验证其作用。通过一系列实验证明多模态神经元在特定的视觉概念上操作,并对图像字幕生成产生系统性的因果影响。
Aug, 2023
本文研究了两种神经网络结构用于学习图像和语言之间的相似性,其中一种网络结构学习了一个共享的潜在嵌入空间,另一种网络结构通过元素乘积将两个数据模态融合,并且实现了对于句子和图像的双向检索,取得了良好的结果。
Apr, 2017