预训练语言模型为什么比零 / 少样本学习者更好?
本研究探讨了在语言模型提示方法中继续预训练阶段是否能够提高零 - shot 以及少量样本情况下语言模型的性能,并通过大规模实验表明使用多任务学习的实时递归预训练策略可将零 - shot 及几轮试验下的效果提高至 31% 相对性能,然而使用元学习方法的继续预训练阶段的性能不佳。我们提出了针对不同应用的具体推荐,以优化语言模型的性能。
Oct, 2022
本文研究表明,在句子对分类任务中,虽然预训练语言模型提供了低数据环境下的优势,但基于提示的微调模型仍然存在使用基于词汇重叠的推理启发式的共同缺陷,加入保留预训练权重的正则化可以缓解这种破坏性的微调倾向,并在三个挑战数据集上显示了可预期的改进。
Sep, 2021
本研究证实了即使是故意无关或甚至有误导性的提示,也可以让一些零样本或少样本学习模型像 “好” 的提示一样快地进行学习,这一模式适用于模型尺寸大小,这引出一个问题,问这种改进是不是源于模型像人类一样理解掌握任务提示。
Sep, 2021
本文提出了一种基于预训练语言模型的无参考学习方法 NPPrompt,能够有效扩展一个预训练模型到多个语言理解任务,且不需要标注数据或附加未标注语料库进行微调。实验结果表明,NPPrompt 在文本分类和 GLUE 基准测试等任务中具有比以前最好的全零样本方法更高的绝对增益。
Dec, 2022
为了解决深度学习中少样本学习的挑战,我们提出了一个简单而有效的框架,专门设计用于利用文本信息和语言模型,通过学习可调的提示来显式地利用预训练的语言模型的零样本能力,并且直接将视觉特征和文本特征进行推断而无需复杂设计的融合模块,进一步运用自集成和蒸馏来增强这些组件,在四个广泛使用的少样本数据集上进行了大量实验证明我们的简单框架取得了令人印象深刻的结果,特别值得注意的是,在 1-shot 学习任务中,我们的分类准确率平均超过基准方法 3.0%。
Jan, 2024
在这篇论文中,我们通过对 16 个文本分类数据集进行大规模评估研究,比较了零样本和少样本的大型语言模型与微调较小语言模型在文本分类方面的表现。结果表明,更小且更高效的语言模型的微调仍然能胜过大型语言模型的少样本方法,在文本分类方面有改进的空间。
Mar, 2024
在本研究中,我们调查了小语言模型(具有不到 10 亿参数)与 prompt-learning 范例相结合,在零样本和少样本场景下针对零售业中客户 - 代理商互动的领域特定文本分类的潜力。我们的评估结果显示,在少样本设置下进行基于提示的模型微调时,220M 参数的典型小语言模型 T5-base 可以在有限的标记数据(高达全数据的 15%)上实现约 75% 的准确性,显示了小语言模型与 prompt-learning 的巨大潜力。基于此,我们进一步验证了主动少样本抽样和 prompt-learning 流程中的集成策略对显著性能提升的有效性。此外,在固定模型的零样本设置中,我们强调了一个关键的观察结果,即尽管具有约 1540B 参数的 GPT-3.5-turbo 可以达到 55.16% 的准确性,但当仅有 0.5% 参数的 FLAN-T5-large 使用经过优化的提示时,其准确性超过 31%,相比使用未经优化提示的准确性提升了近 13%。我们的发现强调了使用小语言模型进行 prompt-learning 的分类任务中的潜力,强调了主动少样本抽样和集成策略在少样本设置中的好处,并强调了零样本设置中提示工程的重要性。
Sep, 2023
该论文综述了大型语言模型在自然语言处理任务中的重要性,并聚焦于不同类型的提示(如离散、连续、少样本和零样本)及其对模型性能的影响。论文探讨了手动设计、优化算法和评估方法等多种提示设计方法,以优化模型在不同任务中的性能。此外,论文还讨论了评估提示性能所面临的挑战,并指出了提示设计在充分利用大型语言模型的潜力中的关键作用,为在自然语言处理任务中更有效、更高效地使用大型语言模型提供了启示。
Sep, 2023
该研究旨在在零 - shot 设置中找到高质量的 prompt。我们的自动化方法使用位置、推理和释义技术生成多个与基本 prompt 类似的 prompt,然后使用新的度量标准对这些 prompt 进行排名。我们实验证明,排名靠前的 prompt 是高质量的,显著优于基本 prompt 和使用 few-shot learning 生成的 prompt,适用于句子级情感分类任务。
May, 2023