基于标记的决策准则在上下文学习中存在亚最优问题

Jun, 2024

基于标记的决策准则在上下文学习中存在亚最优问题

Token-based Decision Criteria Are Suboptimal in In-context Learning

Hakaze Cho, Yoshihiro Sakai, Mariko Kato, Kenshiro Tanaka, Akira Ishii...

TL;DR基于最近的质心分类器和语言模型的最后隐藏状态，使用隐藏校准来提供更好的分类准则，并通过实验证明隐藏校准在当前基于令牌的校准方法上具有约 20% 的性能优势，同时提供新的对传统上下文学习的认识。

Abstract

in-context learning (ICL) typically utilizes classification criteria from probabilities of manually selected label tokens. However, we argue that such token-based →

in-context learning hidden calibration classification criteria nearest centroid classifier lm's last hidden states

发现论文，激发创造

关于环境学习校准的研究

现代自回归语言模型研究了在上下文学习中，如何在广泛数据上通过预测下一个令牌以最小化对数损失，以获得校准答案。通过大量实验，发现当增加模型大小、增加上下文学习示例以及使用指导、对话或强化学习等方法在精心策划的数据集上对模型进行微调时，性能和校准之间存在权衡，并且常用的重新校准技术在校准错误方面的改善有限，因此在期望模型可靠性的设置下，可能需要新的方法。

Dec, 2023

通过线性探测校准增强上下文学习

通过使用新的线性校准技术（LinC），在仅需少量数据样本（如仅五个标记数据样本）的情况下，对于以 in-context learning（ICL）为基础的 GPT 模型进行概率输出校准，从而达到可靠的预测和改善性能，并显著提升 GPT 模型在各种基准数据集上的测试性能，平均改善率高达 21％，某些情况下高达 50％，尤其在资源有限的情况下提升 PEFT 方法的性能，同时具有较低的期望校准误差，并对不同的标签比例、提示模板和演示排列都具有高度的鲁棒性。

Jan, 2024

多标签文本分类的上下文学习

利用预训练的密集检索模型，我们在有限样本设置中的常见意图分类数据集上，以及特定情况下的细粒度情感分类中，优于微调性能。通过多个实验，我们分析了模型对于上下文示例和不同模型规模的利用情况，并展示了在不同领域中需要不同程度上下文示例的相似性、类名的语义内容和示例与标签之间的正确对应。

Sep, 2023

由标签分布指导的上下文示例排序

通过优化问题，研究通过预训练语言模型的上下文学习中的示例排序，以提高文本分类的准确性和选择更好的上下文示例。

Feb, 2024

生成式校准用于上下文学习

通过理论和实证研究，我们首次确定了上下文学习中的标签偏移现象，并提出了一种生成校准方法，通过调整标签边际分布来校准上下文预测分布，实验证明该方法在文本分类任务中显著且一致地优于其他校准方法，同时对于不同的提示配置也表现稳定。

Oct, 2023

缓解上下文学习中的标签偏差

通过提出自己的划分方式，本文研究了三种在上下文学习中导致标签偏差的问题，并提出了一个基于领域的偏差校准方法，进一步优化了 GPT-J 和 GPT-3 在不同任务中的分类表现。

May, 2023

批量校准：重新思考上下文学习和提示工程的校准

通过对现有校准方法的系统分析，我们提出了一种简单而直观的批量校准（BC）方法，它控制了批量输入的上下文偏差，统一了各种先前的方法，并有效解决了上述问题，这种方法是零 - shot、只有推理过程中存在，且额外成本极低。在少样本设置下，我们进一步扩展了 BC，使其能够从标记数据中学习上下文偏差，并且通过对 PaLM 2-(S, M, L) 和 CLIP 模型的验证，证明了 BC 的有效性，并在 10 多个自然语言理解和图像分类任务中展示了优于以往校准基线的最新表现。

Sep, 2023

NoisyICL: 模型参数微噪音对上下文学习的校正

通过在模型参数中引入随机噪声，我们提出了 NoisyICL 方法，以改善 In-Context Learning 的性能和校准，实验证明 NoisyICL 能够产生更准确、更公平、更可靠的预测结果。

Feb, 2024

上下文学习的可区分性校准

本文提出了一种基于特征转换、超球面嵌入和粗粒度到细粒度度量学习策略的校准方法，以提高模型在含有细粒度分类标签的文本分类任务中的表现。实验证实了该方法的有效性。

Feb, 2023

解析标签空间、格式和歧视：通过上下文学习重新思考 LLM 如何响应并解决任务

通过实证研究，我们在文中将 ICL 的整体表现分解为三个方面，即标签空间、格式和区分能力，并评估四种通用语言模型在各种任务中的性能。结果显示，虽然示范对于激发语言模型的区分知识的影响较小，但 ICL 对于调节标签空间和格式的表现具有显著效果，并能帮助语言模型按照期望的标签进行响应。此外，我们通过对检索机制的深入分析发现，检索最语义相似的示例明显提升了模型的区分能力。

Apr, 2024