多重语义下走向少样本学习的初步探索
利用少量的『类别级别』的语言描述,结合视觉特征分形成一个瓶颈视觉特征(混合原型)并建立一种Transformer机制,以编码这两种形式的丰富语义,并且经过多个数据集的实验证明,该算法能有效提升 few-shot learning 的性能。
Apr, 2021
通过对齐图像和标题数据,我们训练一个视觉编码器将每个图像表示为一系列连续的嵌入,并使用预先训练的冻结语言模型来生成相应的标题,从而将这种少量样本学习能力转移至多模态设置。该系统是一种多模态少样本学习模型,具有学习各种新任务的惊人能力,如用只有少数几个样例进行视觉问答,或者利用外部知识。
Jun, 2021
本文介绍了一个基于原型的新型学习方法——原型提示学习法(PTP),用于在预先训练的视觉语言模型中进行少量样本的图像识别任务。通过定义图像原型和提示原型来实现相似图像的相似提示,从而有效地利用潜在知识并适应各种PVLM。
Oct, 2022
我们提出了一种利用CLIP等大规模视觉语言模型进行少样本学习的新框架PROT0-CLIP。该框架通过图像原型和文本原型实现少样本学习,并通过对齐相应类别的图像和文本原型来提高分类效果。我们通过在少样本学习的基准数据集上以及在机器人感知领域的实际应用中进行实验证明了我们方法的有效性。
Jul, 2023
利用少量数据进行学习是一项具有挑战性的计算机视觉任务,本文通过引入高质量的语义以及使用简单的网络结构,设计了一个名为“语义进化”的自动化方式来解决少样本学习中的问题,实验证明该方法在少样本分类任务中表现优异。
Nov, 2023
为了解决深度学习中少样本学习的挑战,我们提出了一个简单而有效的框架,专门设计用于利用文本信息和语言模型,通过学习可调的提示来显式地利用预训练的语言模型的零样本能力,并且直接将视觉特征和文本特征进行推断而无需复杂设计的融合模块,进一步运用自集成和蒸馏来增强这些组件,在四个广泛使用的少样本数据集上进行了大量实验证明我们的简单框架取得了令人印象深刻的结果,特别值得注意的是,在1-shot学习任务中,我们的分类准确率平均超过基准方法3.0%。
Jan, 2024
本文提出了一种迭代式视觉知识完善(KCL)方法,通过正确利用未标记样本来补充视觉知识,以应对少样本学习中存在的分类偏差问题。经过多次迭代,收集更多样本以逐步稳定和完善视觉知识。实验结果表明,KCL在少样本和零样本学习设置下作为即插即用模块具有有效性和高效性。
Apr, 2024
在利用预先训练的视觉-语言模型进行少样本调整以应对下游任务方面取得显著进展的同时,我们的详细实证研究突出了少样本学习结果在训练样本的精心选择上具有显著的依赖性——这是以前的研究忽视了的一个方面。本研究深入探讨了更有效的少样本训练样本选择策略的制定,与依赖随机抽样不同,以增强现有的少样本提示学习方法的潜力。为了实现这一目标,我们评估了各种主动学习技术(如熵和置信度边界)在少样本训练环境中进行实例选择的有效性。此外,我们引入了两种创新的选择方法——代表性(REPRE)和高斯蒙特卡洛(Montecarlo),旨在为与预训练的视觉-语言模型相关的标注主动定位信息丰富的样本。我们的研究结果表明,REPRE和Montecarlo在少样本训练场景中显著优于随机选择和基于主动学习的策略。该研究还强调了这些实例选择方法的模型无关性,为广泛的少样本训练方法提供了灵活的增强。
May, 2024
该研究解决了现有少样本学习多集中于单一模态的问题,提出了跨模态少样本学习(CFSL)任务,以应对仅有少量标记样本时的多模态数据识别挑战。通过提出的生成转移学习(GTL)框架,研究显示该方法在多个多模态数据集上表现优越,能够从丰富的单模态数据中提取潜在概念,并有效推广至未见模态,展现出类人认知的能力。
Oct, 2024
本研究针对专门领域中数据稀缺的问题,提出了一种通过课程学习优化视觉-语言任务的方法,来提高小规模多模态训练的效果。核心发现显示,相较于非课程学习模型,在结合文本预训练时,课程学习在多模态评估中展现了显著的优势,尤其是在文本单一任务中,小参数模型的训练也受益于课程学习。这一发现为如何在数据有限的环境中有效利用机器学习提供了新的见解。
Oct, 2024