基于提示的偏差校正以提升语言模型的零 / 小样本学习

Feb, 2024

基于提示的偏差校正以提升语言模型的零 / 小样本学习

Prompt-Based Bias Calibration for Better Zero/Few-Shot Learning of Language Models

Kang He, Yinghan Long, Kaushik Roy

TL;DR我们提出了一种空输入提示方法，通过使用来自 GPT-4 的多样化的空意义输入来为预训练语言模型的内在偏差校准提供基准，从而提高了零 / 少样本学习的性能。

Abstract

prompt learning is susceptible to intrinsic bias present in pre-trained language models (LMs), resulting in sub-optimal performance of prompt-based →

prompt learning intrinsic bias pre-trained language models null-input prompting method zero/few-shot learning

发现论文，激发创造

大语言模型的公平指导少样本提示

本文提出了一个度量标准，评估了一个固定提示对标签或给定属性的预测偏差，并提出了一种新的基于贪心搜索的搜索策略来确定最佳提示，以提高上下文学习的性能，并在多种下游任务中使用 GPT-3 等最先进的主流模型进行全面实验。结果表明，我们的方法可以有效提高模型的在上下文学习性能。

Mar, 2023

使用前校准：提高语言模型的少样本性能

探究了 GPT-3 的 few-shot 学习的不稳定性，发现这种不稳定性来自于语言模型偏向性，经过文本校准，这种偏向得到了有效的改善，平均准确率可以提高 30%。

Feb, 2021

预训练语言模型为什么比零 / 少样本学习者更好？

本文提出了一种理论框架，以解释在零 / 少样本场景下提示学习的功效，我们进一步假设语言差异可以衡量提示的质量，并且通过基于 perplexity 的注释无关模板选择方法，使我们能够提前预测提示性能。

Sep, 2022

针对预训练语言模型的少样本指令提示，用于检测社会偏见

提出了一种用于指示预训练语言模型检测社会偏见的 few-shot 方法，该方法用少量标记过的示例和定义的偏见作为指示提供给模型，大型语言模型的检测效果十分准确。

Dec, 2021

减少提示和参数：使用语言模型进行简单的小样本学习

使用少量训练示例和任务说明来训练语言模型对于几乎所有任务都很重要，本文提出在极小数据量情境下调整 LM 可显著降低提示工程需求，使用 0.1% 参数更新的 bias terms 可以实现与标准调整相当甚至更好的准确性。

Jun, 2021

小心提示偏见！研究和缓解事实知识提取中的提示偏见

该研究量化了各种类型提示的偏差，并评估了其对不同基准测试的影响。通过提出一种基于表示的方法来缓解提示偏差，研究发现该方法不仅可以纠正由提示偏差引起的过拟合性能，还可以显著提高提示检索能力。

Mar, 2024

持续预训练以提高零样本和少样本提示能力

本研究探讨了在语言模型提示方法中继续预训练阶段是否能够提高零 - shot 以及少量样本情况下语言模型的性能，并通过大规模实验表明使用多任务学习的实时递归预训练策略可将零 - shot 及几轮试验下的效果提高至 31% 相对性能，然而使用元学习方法的继续预训练阶段的性能不佳。我们提出了针对不同应用的具体推荐，以优化语言模型的性能。

Oct, 2022

基于提示的多任务学习中社交偏见的测量

本论文探讨了在多任务文本生成模型中，使用问题 - 答案格式输入与前提 - 假设格式输入是否会影响模型的社会偏见，并使用两个基准测试评估了 T0 模型在其中的表现，结果表明前者会使得模型表现出更多的社会偏见。

May, 2022

基于软提示调节的大型语言模型偏置评估

本文探讨在情感分类任务上使用软提示调整识别大型语言模型（LLMs）如 OPT 和 Galactica 语言模型中的偏见，使用群体公平性（偏见）来检查模型偏见，并发现有趣的偏见模式，以便在实践中部署这些模型之前，识别这些偏见。

Jun, 2023

批量校准：重新思考上下文学习和提示工程的校准

通过对现有校准方法的系统分析，我们提出了一种简单而直观的批量校准（BC）方法，它控制了批量输入的上下文偏差，统一了各种先前的方法，并有效解决了上述问题，这种方法是零 - shot、只有推理过程中存在，且额外成本极低。在少样本设置下，我们进一步扩展了 BC，使其能够从标记数据中学习上下文偏差，并且通过对 PaLM 2-(S, M, L) 和 CLIP 模型的验证，证明了 BC 的有效性，并在 10 多个自然语言理解和图像分类任务中展示了优于以往校准基线的最新表现。

Sep, 2023