自然语言理解测试套件的快速几次调试
该研究提出了一种新的评估框架,改进了之前评估程序的测试性能、开发测试相关性和稳定性三个方面,重新评估了几种最先进的少样本自然语言理解方法,发现不同的方法在不同的任务上表现得不尽相同,而且不同方法之间的提高往往是互补的,结合多种方法后最佳组合模型与强有力的完全监督基线的性能接近。
Sep, 2021
通过少量有质量的翻译数据训练的自监督学习解码器模型,在没有多语言联合训练或反向翻译的情况下,在较高和较低资源语言对中均显示出潜力。同时,该方法还提供了一种控制翻译属性的方法,为可控机器翻译系统铺平了道路。
Feb, 2023
LM-BFF 提出了一种改进的面向小型语言模型的少样本 fine-tuning 方法以提升在多种 NLP 任务上的性能。通过与传统的 fine-tuning 方法相比,LM-BFF 组合的技术在低资源环境下具有显著改进,最高可达 30%,平均提高 11%。
Dec, 2020
评估少量样本学习模型在没有未使用样本的情况下的表现,发现先前的工作对于 LM prompt 和超参数的选择方式大大低估了预训练语言模型在小样本学习方面的能力。
May, 2021
利用大型语言模型的少样本学习能力,我们提出了一种新颖的提示技术,即增强断言的少样本学习,以促进准确、详细的教育解释的生成。通过对 12 名在职教师的比较研究,我们证明了增强断言的少样本学习在解释准确性上提高了 15%,并且得到了教师评价中更高质量的解释。我们还进行了定性消融研究,以考察断言对生成感兴趣领域解释的影响,从而为教育者提供友好的提示指南。
Dec, 2023
本研究提出了一种名为 EFL 的新方法,将潜在的自然语言处理任务重新表述为蕴含任务,并在少至 8 个样例的情况下微调模型,进而证明该方法可以自然地与无监督对比学习数据增强方法相结合,易于扩展为多语言少样本学习,并在 18 个标准 NLP 任务上进行了系统评估,表明该方法将现有 SOTA 少样本学习方法的性能提高了 12%,在相同数据量下,可以达到与 GPT-3 相近的少样本性能
Apr, 2021
使用多语言 Transformer 模型和适配器扩展加上少样本学习方法的组合,成功地在沟通科学领域的实际案例中实现了通过自动检测声明和论据并确定其立场来改善包括复杂语义类别编码在大数据集上的自动内容分析,提供了与完全微调 PLMs 相媲美的有效性,同时在沟通研究中具有更好的特性。
Dec, 2023
本研究提出一种简单的微调框架,利用预先训练的文本模型与其预训练框架直接对齐,将问题、掩码代表答案范围和上下文连接为输入,使用相同的目标进行微调,通过实验研究表明该模型在各种 few-shot 配置下均取得了显著的增益。
Sep, 2021
本文在多语言和交叉语言设置下,通过全面研究检索语义相似的少样本示例的方法来提升 Transformer 模型在自然语言理解任务中的性能。结果表明该方法在英语以外的单语言和交叉语言任务中均优于随机抽样。
Jun, 2023
提出了 FLEX 原则,其中最重要的是新的基准设计方法 Sample Size Design,可以优化统计精度和评估成本;基于该原则,发布了涵盖四种 Few-shot 转移设置和零 - shot 评估的 FLEX 基准测试,以及 UniFew 模型,后者能够将预训练和微调提示格式统一起来,并且即使是简单的提示格式,也能够取得与流行的元学习和提示为基础的方法相媲美的结果。
Jul, 2021