使用冻结语言模型的多模式小样本学习
本文提出了一种用于多模态多任务学习的 few-shot 学习框架,采用预训练的视觉和语言模型,并通过任务特定的超网络和对比度微调来适应不同的场景,学习视觉推理、视觉问答和自然语言理解等重要任务。
Feb, 2023
本文提出了通过图像和语言模型进行少样本学习的视频语言学习器(VidIL),它在视频描述、视频问答、视频描述检索和视频未来事件预测等多种视频语言任务中表现出强大的性能,并且能够在使用上下文中的几个例子来生成目标输出,进而大大提高视频未来事件预测的准确率。
May, 2022
为了解决深度学习中少样本学习的挑战,我们提出了一个简单而有效的框架,专门设计用于利用文本信息和语言模型,通过学习可调的提示来显式地利用预训练的语言模型的零样本能力,并且直接将视觉特征和文本特征进行推断而无需复杂设计的融合模块,进一步运用自集成和蒸馏来增强这些组件,在四个广泛使用的少样本数据集上进行了大量实验证明我们的简单框架取得了令人印象深刻的结果,特别值得注意的是,在 1-shot 学习任务中,我们的分类准确率平均超过基准方法 3.0%。
Jan, 2024
本文提出了一种基于对比学习的新的 few-shot learning 框架,通过预训练语言模型解决视觉特征与文本嵌入之间的对齐问题,并引入度量模块来实现余弦相似度的泛化,通过双层优化结构中的 MAML 训练模型以提高可迁移性,此外,在多个基准测试上进行了大量实验证明我们方法的有效性。
Jul, 2023
通过部分冻结的简单微调变体和上下文化标签,提出了一种在有限样本大小下超越传统微调方法的方法,从而显著提高了医学图像的语义嵌入区分度,使得在 1-shot 设置下与常用的 one-hot 标签和其他语义监督方法相比性能提高了 3%-5%。
Dec, 2023
通过对 LLMs 的两种输入图像的方法进行比较,本研究发现对于具有 3B 参数 LLMs 的 Flan-T5 XL 模型,将图像特征嵌入直接连接到 LLM 嵌入空间并不能保证相比使用图像标题获得更好的性能,在零样本情况下,使用文本图像标题效果更好。在少样本情况下,如何选择上下文示例决定了哪个更好。
Mar, 2024
近期的视觉 - 语言模型主要面临有限数据下的过拟合、灾难性遗忘以及视觉与语言之间的跨模态差距等挑战,本研究引入了一种参数高效的方法来解决这些问题,通过结合多模态提示学习和基于 Transformer 的映射网络,在预训练模型的冻结状态下实现。在几个视频问答基准测试中,我们的实验结果证明了我们的方法在性能和参数效率方面在零样本和少样本设置下的优越性。我们的代码可以通过该 https 网址获得。
Sep, 2023
该论文提出了一种方法,通过将文本形式的大型语言模型嵌入图像编码器和解码器模型中,利用它们的嵌入空间之间的映射来融合两者,从而实现多模态的图像检索、新颖图像生成和多模态对话,同时还能生成并处理图像和文本输入,比非基于 LLM 的模型在一些基于文本生成图像任务方面表现更好。
May, 2023
多模态元学习中,通过语言表示来指导视觉学习的多模态架构被提出,但在两个流行的少样本分类基准上验证后发现改进效果不稳定且主要取决于桥连接网络的计算和参数引入。
May, 2024
本文在多语言和交叉语言设置下,通过全面研究检索语义相似的少样本示例的方法来提升 Transformer 模型在自然语言理解任务中的性能。结果表明该方法在英语以外的单语言和交叉语言任务中均优于随机抽样。
Jun, 2023