自然语言理解测试套件的快速几次调试

ACLApr, 2022

自然语言理解测试套件的快速几次调试

Fast Few-shot Debugging for NLU Test Suites

Christopher Malon, Kai Li, Erik Kruus

TL;DR本文研究了使用测试套件进行少量样本的转换器调试的自然语言理解模型，旨在最大程度提高现象的正确性，最大程度减少对原始测试集的正确性成本，并介绍了一种新的快速方法来样本。

Abstract

We study few-shot debugging of transformer based natural language understanding models, using recently popularized test suites to not just diagnose but correct a problem. Given a few debugging examples of a certa

few-shot debugging transformer-based models natural language understanding test suites accuracy maximization

发现论文，激发创造

FewNLU: 少量样本自然语言理解方法的最新基准测试

该研究提出了一种新的评估框架，改进了之前评估程序的测试性能、开发测试相关性和稳定性三个方面，重新评估了几种最先进的少样本自然语言理解方法，发现不同的方法在不同的任务上表现得不尽相同，而且不同方法之间的提高往往是互补的，结合多种方法后最佳组合模型与强有力的完全监督基线的性能接近。

Sep, 2021

Few-Shot 学习在机器翻译中的不合理有效性

通过少量有质量的翻译数据训练的自监督学习解码器模型，在没有多语言联合训练或反向翻译的情况下，在较高和较低资源语言对中均显示出潜力。同时，该方法还提供了一种控制翻译属性的方法，为可控机器翻译系统铺平了道路。

Feb, 2023

让预训练语言模型成为更好的少样本学习者

LM-BFF 提出了一种改进的面向小型语言模型的少样本 fine-tuning 方法以提升在多种 NLP 任务上的性能。通过与传统的 fine-tuning 方法相比，LM-BFF 组合的技术在低资源环境下具有显著改进，最高可达 30％，平均提高 11％。

Dec, 2020

语言模型实现真正的小样本学习

评估少量样本学习模型在没有未使用样本的情况下的表现，发现先前的工作对于 LM prompt 和超参数的选择方式大大低估了预训练语言模型在小样本学习方面的能力。

May, 2021

增强断言少样本学习：为大型语言模型生成教育性解释的指导技术

利用大型语言模型的少样本学习能力，我们提出了一种新颖的提示技术，即增强断言的少样本学习，以促进准确、详细的教育解释的生成。通过对 12 名在职教师的比较研究，我们证明了增强断言的少样本学习在解释准确性上提高了 15％，并且得到了教师评价中更高质量的解释。我们还进行了定性消融研究，以考察断言对生成感兴趣领域解释的影响，从而为教育者提供友好的提示指南。

Dec, 2023

基于少样本学习的蕴涵推理

本研究提出了一种名为 EFL 的新方法，将潜在的自然语言处理任务重新表述为蕴含任务，并在少至 8 个样例的情况下微调模型，进而证明该方法可以自然地与无监督对比学习数据增强方法相结合，易于扩展为多语言少样本学习，并在 18 个标准 NLP 任务上进行了系统评估，表明该方法将现有 SOTA 少样本学习方法的性能提高了 12％，在相同数据量下，可以达到与 GPT-3 相近的少样本性能

Apr, 2021

自动内容分析的少样本学习：对乌克兰军火交付辩论中论点和主张的高效编码

使用多语言 Transformer 模型和适配器扩展加上少样本学习方法的组合，成功地在沟通科学领域的实际案例中实现了通过自动检测声明和论据并确定其立场来改善包括复杂语义类别编码在大数据集上的自动内容分析，提供了与完全微调 PLMs 相媲美的有效性，同时在沟通研究中具有更好的特性。

Dec, 2023

FewshotQA：一种用预训练文本到文本模型进行少样本学习的问答任务简单框架

本研究提出一种简单的微调框架，利用预先训练的文本模型与其预训练框架直接对齐，将问题、掩码代表答案范围和上下文连接为输入，使用相同的目标进行微调，通过实验研究表明该模型在各种 few-shot 配置下均取得了显著的增益。

Sep, 2021

基于语言模型检索的多语言少样本学习

本文在多语言和交叉语言设置下，通过全面研究检索语义相似的少样本示例的方法来提升 Transformer 模型在自然语言理解任务中的性能。结果表明该方法在英语以外的单语言和交叉语言任务中均优于随机抽样。

Jun, 2023

FLEX: 少样本自然语言处理任务的统一评估

提出了 FLEX 原则，其中最重要的是新的基准设计方法 Sample Size Design，可以优化统计精度和评估成本；基于该原则，发布了涵盖四种 Few-shot 转移设置和零 - shot 评估的 FLEX 基准测试，以及 UniFew 模型，后者能够将预训练和微调提示格式统一起来，并且即使是简单的提示格式，也能够取得与流行的元学习和提示为基础的方法相媲美的结果。

Jul, 2021