自然语言提示下的小样本自我合理化
使用GPT-3模型分析得出少量样例引导更接近于已学习的任务,本文探讨使用自然语言编程来优化引导,提出元引导概念后能够生成更多的任务自然语言引导,展望这些方法如何应用于实践应用。
Feb, 2021
提出了FLEX原则,其中最重要的是新的基准设计方法Sample Size Design,可以优化统计精度和评估成本;基于该原则,发布了涵盖四种Few-shot转移设置和零-shot评估的FLEX基准测试,以及UniFew模型,后者能够将预训练和微调提示格式统一起来,并且即使是简单的提示格式,也能够取得与流行的元学习和提示为基础的方法相媲美的结果。
Jul, 2021
利用自训练语言模型进行多任务教师-学生框架,在有限的任务特定标签和理由下,通过精心选择样本学习信息伪标签示例以及明确合理化预测的特征,显著提高了神经模型的性能,特别在低资源环境中表现出有效性。
Sep, 2021
本研究探索了利用解释来改善小型语言模型的few-shot自我合理性。我们提出了一种新方法Zero-shot Augmentation of Rationale-Answer pairs (ZARA),通过将可能性判断问题转换为自然语言推理,自动构建了伪平行数据来进行自我训练。实验结果表明,ZARA在FEB基准测试中实现了SOTA性能,包括任务准确性和解释度量。此外,我们进行了人类和定量评估,验证了ZARA自动识别合理和准确的理由-答案对的能力。
May, 2023
本文介绍了一种自我训练方法,利用有标记和无标记数据进一步改进少样本模型的效果,并提出了一种新的损失函数Masked Label Regularization(MLR),以促进解释与预测标签之间的紧密联系。在三个公共数据集上的评估表明,所提出的方法在建模任务标签和生成忠实的解释方面是有效的。
Jun, 2023
该论文介绍了一种名为MaRio的算法,该算法可以使规模较小的语言模型(约为GPT-3的1/200)生成合理、多样且一致的自我理解解释,从而提高问题回答的准确性和自我理解质量,并通过人工评估验证了MaRio方案的可行性。
Nov, 2023
大型语言模型能够在缺乏任务特定监督的情况下生成流畅的文本,但其在具有知识密集型任务中提供有根据的解释的能力仍未得到充分探索。我们通过使用专家编写的几个样本,以少量样本的方式生成基于知识的解释来解决这一问题。通过研究发现,众包工作者更喜欢基于知识的解释,因为它们具有实际性、充分性和全面的反驳。虽然大型语言模型生成的解释更受欢迎,但需要进一步提高简明性和新颖性。另外,我们还展示了错误模型预测的解释如何削弱人类对大型语言模型生成的解释的信任。基于这些观察的动机,我们创建了一个两阶段的流程,在生成解释之前审查任务预测并消除潜在的错误决策,以实现可信赖的解释生成。
Nov, 2023
在这篇论文中,作者提出了一种新方法Quiet-STaR,通过使语言模型能够生成每个标记的理由来解释未来的文本,以改进其预测能力,并在不需要对这些任务进行微调的情况下,在多个基准测试中取得了显著的改进。
Mar, 2024