通过无监督知识蒸馏提高学得提示的零样本推理能力
通过将广泛多样的监督数据集转换为易读提示集合的方式,使用预先训练的编码器 - 解码器模型进行多任务学习可以直接导致强大的零-shot 表现,该方法能够在多个标准数据集上表现出比同类模型大多数情况下强16倍的性能,并在 BIG-bench 基准测试中的某些任务上表现出比同类型模型强6倍的性能。
Oct, 2021
该研究提出PromptDFD,一种基于提示的数据无关知识蒸馏法,利用一个预训练的生成模型提供语言先验知识,进一步提高数据合成的质量,并在蒸馏性能上取得了显著的改进。
May, 2022
本文提出一种叫做测试时提示调整 (TPT) 的方法,可在单个测试样本上实时学习适应性提示,优化提前提供的CLIP模型动态调整提示, 以最小化模型预测时的不确定度,提高CLIP模型的泛化能力。实验结果表明,TPT方法在自然情况下的zero-shot top-1准确率比以往方法的提升3.6%,并达到了使用额外培训数据的最新先进方法的性能水平。
Sep, 2022
本文提出了一种理论框架,以解释在零/少样本场景下提示学习的功效,我们进一步假设语言差异可以衡量提示的质量,并且通过基于perplexity的注释无关模板选择方法,使我们能够提前预测提示性能。
Sep, 2022
本文探索了通过提示调整获得的软提示如何在零样本推理中协助硬提示,以实现任务泛化。结果表明,此简单方法仅增加了0.007%的额外参数,但在大型基准测试上提高了2.39%的平均准确率,对不同评估提示的准确性和鲁棒性有更好的排名。
Oct, 2022
通过设计两种类型的知识感知提示,离散提示和学习连续提示,以及视觉编码器的适应头部,实现针对视觉-语言模型的知识感知提示调整(KAPT)框架在少样本图像分类中的有效性和对未见类别的泛化能力。与最先进的CoCoOp方法相比,KAPT在新类别中获得了3.22%的绝对增益和2.57%的调和均值增益。
Aug, 2023
最近大型语言模型(LLMs)的进展引发了对推断成本的担忧,加大了对模型压缩研究的需求。尽管知识蒸馏(KD)是一种突出的方法,但对于生成性语言模型(如LLMs)的KD研究相对较少,而在分类模型的KD中表现出有希望的学生友好知识蒸馏方法在生成性语言模型中尚未被探索。为了探索这种方法,我们提出了PromptKD,一种简单而有效的方法,利用首次使用的提示调整方法在KD中实现生成性语言模型的学生友好知识转移。与需要对整个教师模型进行微调以提取学生友好知识的分类作品不同,PromptKD通过添加少量的提示符令牌并仅调整提示来实现类似效果,并在学生的指导下进行。在使用GPT-2模型系列对遵循指令的数据集进行的广泛实验表明,PromptKD实现了最先进的性能,并且仅添加了教师参数的0.0007%作为提示。进一步的分析表明,蒸馏学生友好的知识有效地减轻了整个训练过程中的曝光偏差,从而提高了性能。
Feb, 2024
在这篇论文中,我们介绍了一种无监督域提示蒸馏框架,通过使用未标记的领域图像进行提示驱动的模仿,旨在将更大的教师模型的知识转移给轻量级目标模型。
Mar, 2024
大型预训练视觉语言模型(VLMs)在下游任务中展现出令人印象深刻的零-shot能力,但人工设计的提示对特定领域不够优化。本文提出了一种用于下游任务的软提示方法,通过在特定域数据上进行微调,将软提示作为学习向量。我们从生成的角度重构了提示学习框架,并提出了一种简单而高效的域泛化(DG)任务方法,即软提示生成(SPG)。在训练阶段,我们引入了每个领域的软提示标签,以融合生成模型的领域知识。在推理阶段,生成模型的生成器被用来获取未知目标域的实例特定软提示。对三个域泛化任务的五个领域泛化基准进行的大量实验证明了我们提出的SPG方法达到了最先进的性能。代码将很快提供。
Apr, 2024