跨模态检索中的持续学习

CVPRApr, 2021

Continual learning in cross-modal retrieval

Kai Wang, Luis Herranz, Joost van de Weijer

TL;DR本文提出了一个结合多模态学习嵌入与持续学习的框架，研究了新任务导致了的困扰与不同因素造成的遗忘，发现索引阶段对任务效果有显著影响，并提出缓解遗忘的工具。在两个图像 - 文本检索数据集中证明了我们的方法的显著提高。

Abstract

multimodal representations and continual learning are two areas closely related to human intelligence. The former considers the learning of shared representation spaces where information from different modalities

multimodal representations continual learning cross-modal retrieval embedding spaces catastrophic interference

发现论文，激发创造

超越单一学习：整合多种认知方式对终身学习的重要性

多模态持续学习中，多个视角和多模态的互补信息使模型学习到更准确、更稳健的表示，显著减轻遗忘，并通过利用各个模态之间数据点的关系结构相似性，提出了一种整合和对齐不同模态信息的方法。

May, 2024

推动神经信息检索中的持续终身学习：定义、数据集、框架和实证评估

连续学习模型的任务制定和学习策略在神经信息检索中的有效性及应对主题变化和数据增强的影响进行了概括和评估。

Aug, 2023

跨模态检索综述

本文对异构数据检索问题进行了探讨，综述并分类了已有的交叉检索方法，包括基于实值表示学习和基于二进制表示学习的方法，并介绍了多个常用的多模态数据集以及比较不同方法的实验结果。

Jul, 2016

生成跨模态检索：以检索和超越为目的的多模态语言模型中的图像记忆

构建在生成式语言模型基础上的多模态大型语言模型（MLLMs）拥有记忆和重新召回图像能力，介绍了一种基于生成式跨模态检索框架的方法，通过将图像存储在 MLLMs 中以实现记忆功能，并有效地进行跨模态检索。

Feb, 2024

生命周期学习中基于共同表示空间的任务感知信息路由

本研究提出了 TAMiL 方法，应用任务注意模块和自动编码器捕捉共同表示空间中的任务特定信息，并在全局工作区中保留任务相关信息以缓解灾难性遗忘现象。实验结果表明，该方法优于现有基于重新玩彩和动态稀疏方法的连续学习方法。

Feb, 2023

多模态智能：表示学习、信息融合与应用

本文综述了多模态智能领域中的各种模型和学习方法。主要关注点是视觉和自然语言模态的组合，涵盖了多模态表示学习、多模态信号融合以及多模态应用等方面，旨在为相关社群未来的研究提供参考。

Nov, 2019

跨模态协调：在多元输入模态中的协同

提出两种不同的方法来解决跨模态检索的问题，一种基于 CLIP 对任意数量的输入模式进行扩展，而第二种方法通过回归跨模态相似性来解决协调问题，并在多个数据集上进行实验证明其简单有效，并允许以新的方式解决检索问题。

Jan, 2024

前瞻性选择性可塑性实现视觉任务的持续学习

通过观察对神经网络输出的对比损失的冗余引发能力，我们的方法利用新任务的前几个样本来识别和保留对神经网络传递能力最有贡献的参数，从而使网络的其余部分能够学习新特征，并在诸如 CIFAR10 和 TinyImagenet 等基准计算机视觉数据集上证明了在任务增量、类别增量和领域增量持续学习场景中的最先进性能。

Nov, 2023

基于知识的视觉问答的跨模态检索

基于知识的视觉问答（VQA）涉及使用多模态知识库的信息检索，命名实体的多样化视觉表现使其难以识别，我们认为跨模态检索可能有助于弥合实体与其描述之间的语义差距，对单模态检索产生互补作用，通过对最近的 ViQuAE、InfoSeek 和 Encyclopedic-VQA 数据集上的实验，我们提供了经验证据。此外，我们研究了三种不同的模型微调策略：单模态、跨模态或联合训练。我们的方法结合了单模态和跨模态检索，与三个数据集上的数十亿参数模型相竞争，同时在概念上更简单、计算上更廉价。

Jan, 2024

全局工作空间下的半监督多模态表示学习

本文提出了一种神经网络体系结构，灵感来源于认知学的 “全球工作区” 的概念，可以通过自监督训练对两种输入方式进行对齐和翻译，并且将全球工作区表示应用于下游分类任务和强大的转移学习。

Jun, 2023