基于提示的偏差校正以提升语言模型的零 / 小样本学习
本文提出了一个度量标准,评估了一个固定提示对标签或给定属性的预测偏差,并提出了一种新的基于贪心搜索的搜索策略来确定最佳提示,以提高上下文学习的性能,并在多种下游任务中使用 GPT-3 等最先进的主流模型进行全面实验。结果表明,我们的方法可以有效提高模型的在上下文学习性能。
Mar, 2023
探究了 GPT-3 的 few-shot 学习的不稳定性,发现这种不稳定性来自于语言模型偏向性,经过文本校准,这种偏向得到了有效的改善,平均准确率可以提高 30%。
Feb, 2021
本文提出了一种理论框架,以解释在零 / 少样本场景下提示学习的功效,我们进一步假设语言差异可以衡量提示的质量,并且通过基于 perplexity 的注释无关模板选择方法,使我们能够提前预测提示性能。
Sep, 2022
提出了一种用于指示预训练语言模型检测社会偏见的 few-shot 方法,该方法用少量标记过的示例和定义的偏见作为指示提供给模型,大型语言模型的检测效果十分准确。
Dec, 2021
使用少量训练示例和任务说明来训练语言模型对于几乎所有任务都很重要,本文提出在极小数据量情境下调整 LM 可显著降低提示工程需求,使用 0.1% 参数更新的 bias terms 可以实现与标准调整相当甚至更好的准确性。
Jun, 2021
该研究量化了各种类型提示的偏差,并评估了其对不同基准测试的影响。通过提出一种基于表示的方法来缓解提示偏差,研究发现该方法不仅可以纠正由提示偏差引起的过拟合性能,还可以显著提高提示检索能力。
Mar, 2024
本研究探讨了在语言模型提示方法中继续预训练阶段是否能够提高零 - shot 以及少量样本情况下语言模型的性能,并通过大规模实验表明使用多任务学习的实时递归预训练策略可将零 - shot 及几轮试验下的效果提高至 31% 相对性能,然而使用元学习方法的继续预训练阶段的性能不佳。我们提出了针对不同应用的具体推荐,以优化语言模型的性能。
Oct, 2022
本论文探讨了在多任务文本生成模型中,使用问题 - 答案格式输入与前提 - 假设格式输入是否会影响模型的社会偏见,并使用两个基准测试评估了 T0 模型在其中的表现,结果表明前者会使得模型表现出更多的社会偏见。
May, 2022
本文探讨在情感分类任务上使用软提示调整识别大型语言模型(LLMs)如 OPT 和 Galactica 语言模型中的偏见,使用群体公平性(偏见)来检查模型偏见,并发现有趣的偏见模式,以便在实践中部署这些模型之前,识别这些偏见。
Jun, 2023
通过对现有校准方法的系统分析,我们提出了一种简单而直观的批量校准(BC)方法,它控制了批量输入的上下文偏差,统一了各种先前的方法,并有效解决了上述问题,这种方法是零 - shot、只有推理过程中存在,且额外成本极低。在少样本设置下,我们进一步扩展了 BC,使其能够从标记数据中学习上下文偏差,并且通过对 PaLM 2-(S, M, L) 和 CLIP 模型的验证,证明了 BC 的有效性,并在 10 多个自然语言理解和图像分类任务中展示了优于以往校准基线的最新表现。
Sep, 2023