使用 PEFT 和合成数据增强低资源 LLMs 分类
通过对大规模语言模型进行参数高效微调技术的研究,本文在自动化代码生成场景下全面研究了这些技术对大规模语言模型的影响,实验结果表明这些技术在减轻计算负担和提高性能方面表现优越,为软件工程场景中的更广泛应用开启了机会。
Aug, 2023
通过询问对齐方式的另一种选择,全面研究了一致性学习(ICL)及其跨语言变体(X-ICL)对于 25 种低资源和 7 种相对较高资源的语言的有效性,发现了标签对齐的不足,并提供了有价值的洞察力,强调了提升低资源语言的理解能力的重要性。
Mar, 2024
通过比较 Few-shot in-context learning 和 Parameter-efficient fine-tuning 的方法,我们证明 PEFT 具有更好的精度和极低的计算成本。我们提出了一种名为 (IA)$^3$ 的新的 PEFT 方法,并提出了一个基于 T0 模型的简单配方,称为 T-Few,在没有任务特定调整或修改的情况下可以应用于新任务。我们在 RAF 基准测试中验证了 T-Few 的有效性,首次达到了超人类表现,并超越了现有技术的 6%。
May, 2022
三种常用方法,即监督微调、监督指令微调和上下文学习,是少样本学习的三种替代方法。本文对这三种方法进行了广泛而系统的比较,测试了六种高低资源语言、三种不同的 NLU 任务以及各种语言和领域设置。观察结果显示,监督指令微调在性能和资源需求方面具有最佳平衡性。此外,本文还分析了预训练 LLM 的目标语言适应性,并发现标准适应方法能在表面上提高目标语言生成能力,但经 ICL 引发的语言理解并未改善且受限,尤其是对于低资源语言而言,得分较低。
Mar, 2024
我们提出了一种简单但有效的方法来将任务上下文化为特定的大语言模型,通过观察给定的大语言模型如何描述目标数据集,聚合大语言模型的开放式推理结果,并最终将聚合的元信息纳入实际任务中,我们展示了这种方法在文本聚类任务中的有效性,并通过上述过程的示例突出了上下文化的重要性。
Jun, 2024
标准的 NLP 全数据分类器需要成千上万个标记示例,在数据有限的领域中是不切实际的。少样本学习方法提供了一种替代方案,利用对比学习技术,在每个类别只需 20 个示例即可发挥有效作用。类似地,像 GPT-4 这样的大型语言模型也可在每个类别只有 1-5 个示例的情况下有效运行。然而,这些方法的性能与成本之间的权衡仍然未被充分研究,这对于预算有限的组织来说是一个关键问题。我们的工作通过在 Banking77 金融意图检测数据集上研究上述方法来填补这一空白,包括评估 OpenAI、Cohere 和 Anthropic 的最新大型语言模型在全面的少样本场景中的表现。我们通过两种额外的方法来完善整个研究:一是基于检索增强生成(RAG)的成本效益查询方法,与经典的少样本方法相比,能够多次降低运营成本;二是使用 GPT-4 的数据增强方法,能够改善数据有限情况下的性能。最后,为了激发未来的研究,我们提供了一个人工专家策划的 Banking77 子集,以及广泛的错误分析。
Nov, 2023
利用预训练的密集检索模型,我们在有限样本设置中的常见意图分类数据集上,以及特定情况下的细粒度情感分类中,优于微调性能。通过多个实验,我们分析了模型对于上下文示例和不同模型规模的利用情况,并展示了在不同领域中需要不同程度上下文示例的相似性、类名的语义内容和示例与标签之间的正确对应。
Sep, 2023
通过加上自然语言解释,人工智能模型在各种任务中有了显著提升,但在遇到对抗性输入时,效果下降。本文研究了如何通过加入自然语言解释来提高模型对七个对抗性和具有挑战性的自然语言推理数据集的鲁棒性,并提出了 ChatGPT 的几个人工生成的自然语言解释来产生更多自然语言解释的新方法,表现更好。通过对五种常见的大语言模型进行评估,我们发现 ChatGPT 的几个人工生成的自然语言解释的 X-ICL 方法比 ICL 方法提高了 6% 以上。此外,我们还发现之前能有效提高 ICL 性能的提示选择策略,在鲁棒性评估中并不具有与 X-ICL 范式相称的效果。
Nov, 2023
大型语言模型的新兴能力是利用少量示例来学习在新领域和任务中执行的能力,本文通过针对专门的培训目标进行微调展示了一个更小的模型可以被训练用于执行上下文学习,在神经机器翻译的领域适应任务上进行了示例。通过这种上下文学习的能力,模型可以利用相关的少量示例将其输出适应到该领域。我们将这种域自适应的质量与传统的监督技术以及基于 400 亿参数的大型语言模型的上下文学习进行了比较。我们的方法允许对多个领域进行高效的批处理推理,并在翻译质量和即时适应率方面优于现有技术基线,也就是在展示一次示例后重新生成特定术语的能力。
Sep, 2023