关于环境学习校准的研究

Dec, 2023

A Study on the Calibration of In-context Learning

Hanlin Zhang, Yi-Fan Zhang, Yaodong Yu, Dhruv Madeka, Dean Foster...

TL;DR现代自回归语言模型研究了在上下文学习中，如何在广泛数据上通过预测下一个令牌以最小化对数损失，以获得校准答案。通过大量实验，发现当增加模型大小、增加上下文学习示例以及使用指导、对话或强化学习等方法在精心策划的数据集上对模型进行微调时，性能和校准之间存在权衡，并且常用的重新校准技术在校准错误方面的改善有限，因此在期望模型可靠性的设置下，可能需要新的方法。

Abstract

Modern auto-regressive language models are trained to minimize log loss on broad data by predicting the next token so they are expected to get calibrated answers when framing a problem as a next-token prediction task. We study this for →

auto-regressive language models in-context learning calibration natural language understanding reasoning tasks

发现论文，激发创造

生成式校准用于上下文学习

通过理论和实证研究，我们首次确定了上下文学习中的标签偏移现象，并提出了一种生成校准方法，通过调整标签边际分布来校准上下文预测分布，实验证明该方法在文本分类任务中显著且一致地优于其他校准方法，同时对于不同的提示配置也表现稳定。

Oct, 2023

用于近似无偏上下文学习的精调语言模型

引入了一种重新加权的算法 RICL（Reweighted In-context Learning），并提出了一种低成本重新加权算法 LARICL（Linear Approximation of Reweighted In-context Learning），这些算法通过有效地优化输入提示来改善大语言模型（LLMs）的性能。

Oct, 2023

关于现场学习的调查

本文概述了大型语言模型的新范式 —— 上下文学习，并探讨了训练策略和演示设计策略等高级技术，以及上下文学习所面临的挑战和未来方向。

Dec, 2022

批量校准：重新思考上下文学习和提示工程的校准

通过对现有校准方法的系统分析，我们提出了一种简单而直观的批量校准（BC）方法，它控制了批量输入的上下文偏差，统一了各种先前的方法，并有效解决了上述问题，这种方法是零 - shot、只有推理过程中存在，且额外成本极低。在少样本设置下，我们进一步扩展了 BC，使其能够从标记数据中学习上下文偏差，并且通过对 PaLM 2-(S, M, L) 和 CLIP 模型的验证，证明了 BC 的有效性，并在 10 多个自然语言理解和图像分类任务中展示了优于以往校准基线的最新表现。

Sep, 2023

由标签分布指导的上下文示例排序

通过优化问题，研究通过预训练语言模型的上下文学习中的示例排序，以提高文本分类的准确性和选择更好的上下文示例。

Feb, 2024

通过线性探测校准增强上下文学习

通过使用新的线性校准技术（LinC），在仅需少量数据样本（如仅五个标记数据样本）的情况下，对于以 in-context learning（ICL）为基础的 GPT 模型进行概率输出校准，从而达到可靠的预测和改善性能，并显著提升 GPT 模型在各种基准数据集上的测试性能，平均改善率高达 21％，某些情况下高达 50％，尤其在资源有限的情况下提升 PEFT 方法的性能，同时具有较低的期望校准误差，并对不同的标签比例、提示模板和演示排列都具有高度的鲁棒性。

Jan, 2024

基于核回归的大语言模型上下文学习解析

通过研究大型语言模型，本文提出 Large language models 可以在面对语境示例时模拟核回归算法，并证明了在 Context prompts 上的贝叶斯推理可以被当作大样本上的核回归，并通过实证研究发现，LLMs 中的注意力和隐藏特征与核回归的行为相匹配，这些为 ICL 领域中观察到的多种现象提供了见解。

May, 2023

上下文语言学习：结构和算法

通过研究在背景语境中的大规模神经语言模型对正则语言的学习，我们展示了 Transformers 相对于递归或卷积模型在 in-context 语言学习任务上的显著优势，并提出硬连接高阶归纳头到递归和卷积模型可改善这个任务和自然语言建模的性能。

Jan, 2024

基于监督和自组织的上下文学习任务表现和模型校准

探索了标准的有监督微调（SFT）和上下文学习（ICL）两种方法在低资源环境中存在的过度自信和误校准问题，提出了使用自我集成技术来增强预测校准性和性能，为选择学习范式以及如何提升大语言模型的任务性能和校准性提供了具体指导。

Dec, 2023

多标签文本分类的上下文学习

利用预训练的密集检索模型，我们在有限样本设置中的常见意图分类数据集上，以及特定情况下的细粒度情感分类中，优于微调性能。通过多个实验，我们分析了模型对于上下文示例和不同模型规模的利用情况，并展示了在不同领域中需要不同程度上下文示例的相似性、类名的语义内容和示例与标签之间的正确对应。

Sep, 2023