文本分类的语言模型:局部学习是否足够?
在本研究中,我们调查了小语言模型(具有不到 10 亿参数)与 prompt-learning 范例相结合,在零样本和少样本场景下针对零售业中客户 - 代理商互动的领域特定文本分类的潜力。我们的评估结果显示,在少样本设置下进行基于提示的模型微调时,220M 参数的典型小语言模型 T5-base 可以在有限的标记数据(高达全数据的 15%)上实现约 75% 的准确性,显示了小语言模型与 prompt-learning 的巨大潜力。基于此,我们进一步验证了主动少样本抽样和 prompt-learning 流程中的集成策略对显著性能提升的有效性。此外,在固定模型的零样本设置中,我们强调了一个关键的观察结果,即尽管具有约 1540B 参数的 GPT-3.5-turbo 可以达到 55.16% 的准确性,但当仅有 0.5% 参数的 FLAN-T5-large 使用经过优化的提示时,其准确性超过 31%,相比使用未经优化提示的准确性提升了近 13%。我们的发现强调了使用小语言模型进行 prompt-learning 的分类任务中的潜力,强调了主动少样本抽样和集成策略在少样本设置中的好处,并强调了零样本设置中提示工程的重要性。
Sep, 2023
本文提出了一种理论框架,以解释在零 / 少样本场景下提示学习的功效,我们进一步假设语言差异可以衡量提示的质量,并且通过基于 perplexity 的注释无关模板选择方法,使我们能够提前预测提示性能。
Sep, 2022
通过使用指导微调的语言模型,构建了一个用于 few-shot 学习的方法,名为 AuT-Few,该方法可以自动选择适合的任务指令,并实现了较强的 prompt 稳健性和良好的分类性能。
May, 2023
Gen-Z 是一种用于零食文本分类的生成提示框架,通过在标签的自然语言描述上依赖语言模型的可能性来改善任务性能,并在多个标准分类基准上展现了优越性能。
Nov, 2023
本文提出了一种使用正则表达式从未标记语料库中挖掘标记示例的替代模板提示方法,通过微调预训练模型,相比模板提示方法更加灵活和可解释,在使用相似模板时在多个任务中表现出更好的性能。
Oct, 2022
利用预训练的密集检索模型,我们在有限样本设置中的常见意图分类数据集上,以及特定情况下的细粒度情感分类中,优于微调性能。通过多个实验,我们分析了模型对于上下文示例和不同模型规模的利用情况,并展示了在不同领域中需要不同程度上下文示例的相似性、类名的语义内容和示例与标签之间的正确对应。
Sep, 2023
本文比较了预先训练的语言模型的任务适应的两种替代策略:few-shot fine-tuning 和 in-context learning。通过控制模型、样本数量和参数数量,研究表明 fine-tuned language models 确实可以很好地泛化到 domain 外。虽然两种方法的表现存在巨大变化,并且取决于模型大小和样本数量等属性,说明鲁棒的任务适应仍然是一个挑战。
May, 2023
在计算社会科学分类任务中,评估了 ChatGPT 和 OpenAssistant 两种公共可访问的 LLM 的零次效果,并研究了各种提示策略的影响。发现在零次设置下,当前 LLMs 无法与较小的经过微调的基线变压器模型(如 BERT)的性能匹配。此外,发现不同的提示策略可以显着影响分类准确性,准确性和 F1 分数的差异超过 10%。
May, 2023