多模态持续学习中,多个视角和多模态的互补信息使模型学习到更准确、更稳健的表示,显著减轻遗忘,并通过利用各个模态之间数据点的关系结构相似性,提出了一种整合和对齐不同模态信息的方法。
May, 2024
连续学习模型的任务制定和学习策略在神经信息检索中的有效性及应对主题变化和数据增强的影响进行了概括和评估。
Aug, 2023
本文对异构数据检索问题进行了探讨,综述并分类了已有的交叉检索方法,包括基于实值表示学习和基于二进制表示学习的方法,并介绍了多个常用的多模态数据集以及比较不同方法的实验结果。
Jul, 2016
构建在生成式语言模型基础上的多模态大型语言模型(MLLMs)拥有记忆和重新召回图像能力,介绍了一种基于生成式跨模态检索框架的方法,通过将图像存储在 MLLMs 中以实现记忆功能,并有效地进行跨模态检索。
Feb, 2024
本研究提出了 TAMiL 方法,应用任务注意模块和自动编码器捕捉共同表示空间中的任务特定信息,并在全局工作区中保留任务相关信息以缓解灾难性遗忘现象。实验结果表明,该方法优于现有基于重新玩彩和动态稀疏方法的连续学习方法。
Feb, 2023
本文综述了多模态智能领域中的各种模型和学习方法。主要关注点是视觉和自然语言模态的组合,涵盖了多模态表示学习、多模态信号融合以及多模态应用等方面,旨在为相关社群未来的研究提供参考。
Nov, 2019
提出两种不同的方法来解决跨模态检索的问题,一种基于 CLIP 对任意数量的输入模式进行扩展,而第二种方法通过回归跨模态相似性来解决协调问题,并在多个数据集上进行实验证明其简单有效,并允许以新的方式解决检索问题。
Jan, 2024
通过观察对神经网络输出的对比损失的冗余引发能力,我们的方法利用新任务的前几个样本来识别和保留对神经网络传递能力最有贡献的参数,从而使网络的其余部分能够学习新特征,并在诸如 CIFAR10 和 TinyImagenet 等基准计算机视觉数据集上证明了在任务增量、类别增量和领域增量持续学习场景中的最先进性能。
Nov, 2023
基于知识的视觉问答(VQA)涉及使用多模态知识库的信息检索,命名实体的多样化视觉表现使其难以识别,我们认为跨模态检索可能有助于弥合实体与其描述之间的语义差距,对单模态检索产生互补作用,通过对最近的 ViQuAE、InfoSeek 和 Encyclopedic-VQA 数据集上的实验,我们提供了经验证据。此外,我们研究了三种不同的模型微调策略:单模态、跨模态或联合训练。我们的方法结合了单模态和跨模态检索,与三个数据集上的数十亿参数模型相竞争,同时在概念上更简单、计算上更廉价。
本文提出了一种神经网络体系结构,灵感来源于认知学的 “全球工作区” 的概念,可以通过自监督训练对两种输入方式进行对齐和翻译,并且将全球工作区表示应用于下游分类任务和强大的转移学习。
Jun, 2023