小型视觉语言模型也可以是开放式少样本学习器

Sep, 2023

小型视觉语言模型也可以是开放式少样本学习器

Small Visual Language Models can also be Open-Ended Few-Shot Learners

Mohammad Mahdi Derakhshani, Ivona Najdenkoska, Cees G. M. Snoek, Marcel Worring, Yuki M. Asano

TL;DRSelf-Context Adaptation (SeCAt) 是一种自供给的方法，通过学习符号化的、自供给的训练任务，解锁了小型视觉语言模型的开放性少样本能力。我们的方法模仿图像的自供应方式，通过对大量图像进行聚类，为聚类分配语义不相关的名称，构建了 “自上下文”，即由图像和伪标题对序列交替和查询图像组成的训练信号，模型要训练出正确的伪标题。我们在几个多模态少样本数据集上展示了 SeCAt 的性能和灵活性，涵盖了各种粒度。通过使用大约 10 亿个参数的模型，我们的性能优于更大的模型，如 Frozen 和 FROMAGe，为开放性少样本学习中需要访问大型或专有模型的研究开辟了新的可能性。

Abstract

We present self-context adaptation (SeCAt), a self-supervised approach that unlocks open-ended few-shot abilities of small visual language models

self-context adaptation few-shot abilities small visual language models self-supervised training tasks open-ended few-shot learning

发现论文，激发创造

自监督学习的情景推理

本文基于自监督学习提出了一种上下文感知的自监督学习方法 SeCo，该方法使用可学习的外部记忆存储先前的上下文信息以支持目标辨识，通过两个评估协议证明 SeCo 的性能优于目前最先进的自监督学习方法，并准确模拟人类学习行为。

Nov, 2022

部分监督图像字幕生成

通过有标签的图片和物体检测数据教授图像字幕模型学习新的视觉概念，通过有限状态自动机表示部分指定的序列数据并提出了一种新颖的算法，可以训练神经网络。在图像字幕任务中，我们取得了基于 COCO 数据集的最新物体字幕任务的最先进结果，并进一步表明，我们可以训练一个字幕模型来描述来自 Open Images 数据集的新的视觉概念，同时保持竞争性的 COCO 评估得分。

Jun, 2018

视觉 - 语义对比对齐在小样本图像分类中的应用

本文介绍了一种对称的对齐机制，用于学习从极少的例子中获取更广义的视觉概念的方法。实验结果表明，该方法是通用的，并提供了一个强大的基准。

Oct, 2022

SeCoKD: 对大型语言模型进行上下文学习的对齐方法，更少的示例

我们研究了如何减少示范数量，同时保持竞争性能。我们提出了 SeCoKD，一种自我知识蒸馏训练框架，通过将学生模型与大量提示变体对齐，从而提高单个示范的利用率。结果表明我们的方法在零示范和一示范设置中分别比基准模型和监督微调 (SFT) 的性能高出 30％和 10％。此外，SeCoKD 在新任务评估时几乎没有负面作用，比监督微调更稳健。

Jun, 2024

简单语义辅助的少样本学习

利用少量数据进行学习是一项具有挑战性的计算机视觉任务，本文通过引入高质量的语义以及使用简单的网络结构，设计了一个名为 “语义进化” 的自动化方式来解决少样本学习中的问题，实验证明该方法在少样本分类任务中表现优异。

Nov, 2023

基于大型语言模型的图像背景和描述生成字幕

本论文提出了一种新方法，使用大型语言模型从文本描述和上下文中生成图像字幕，而无需直接处理图像，经调优后，该方法在 CIDEr 指标上优于目前最先进的图像 - 文本对齐模型，解决了使用深度学习模型进行图像字幕生成时遭遇的一些难题。

Jun, 2023

用于改善图像字幕的对抗语义对齐

本文提出了一种基于有上下文的 LSTM 描述生成器和协同对抗网络鉴别器的图像描述生成方法，并比较了两种训练方法，结果表明 Self-critical Sequence Training 表现更好；同时，介绍了一种用于衡量生成模型的语义得分，构建了 OOC 数据集来检测生成器的泛化能力与语义相似度。

Apr, 2018

SINC：自我监督上下文学习用于视觉 - 语言任务

本文提出了一种自监督的上下文学习 (SINC) 框架，可以在视觉 - 语言领域的各种任务中进行前馈预测，无需通过渐变更新进行特定任务微调，并表明在少样本数据的情况下 SINC 方法优于基于梯度的方法。

Jul, 2023

利用图像描述符的语言模型是强的少样本视频语言学习器

本文提出了通过图像和语言模型进行少样本学习的视频语言学习器（VidIL），它在视频描述、视频问答、视频描述检索和视频未来事件预测等多种视频语言任务中表现出强大的性能，并且能够在使用上下文中的几个例子来生成目标输出，进而大大提高视频未来事件预测的准确率。

May, 2022

语言引导的少样本语义分割

通过语言信息进行语言指导的少样本语义分割，使用视觉 - 语言预训练模型和遮罩优化来生成高质量伪语义遮罩，引入分布式原型监督方法和互补相关匹配模块来指导模型挖掘支持和查询图像的精确语义关系。在两个基准数据集上的实验表明，我们的方法为语言指导的少样本语义分割建立了新的基准，并达到了与最近的视觉指导方法竞争的结果。

Nov, 2023