使预训练语言模型既成为任务求解器又成为自我校准器

ACLJul, 2023

使预训练语言模型既成为任务求解器又成为自我校准器

Making Pre-trained Language Models both Task-solvers and Self-calibrators

Yangyi Chen, Xingyao Wang, Heng Ji

TL;DR为解决现实场景下对训练样本的有效利用，提出了一种训练算法 LM-TOAST，可以在保持原任务性能的同时，有效利用训练数据使预训练语言模型具有合理的置信度估计。

Abstract

pre-trained language models (PLMs) serve as backbones for various real-world systems. For high-stake applications, it's equally essential to have reasonable confidence estimations in predictions. While the vanill

pre-trained language models confidence estimations calibration task training samples lm-toast

发现论文，激发创造

预训练 Transformer 内部分布校准的技巧

本文探讨了针对预训练语言模型（PLMs）的置信度校准，提出了一种 Calibrated PLM（CALL）的组合方法，包括置信度惩罚损失、数据增强和集成方法，CALL 能够弥补对单独使用校准方法可能产生的缺陷，提高了分类和校准精度。

Feb, 2023

预训练语言模型的校准研究

本文通过精细控制实验和给定数据集，考察了 PLM 模型在训练过程中的校准性能，发现仍然存在校准问题；然后对比了多种方法，提出基于已有方法的扩展性学习方法，证明其显著提高模型的不确定性估计水平。

Oct, 2022

语言模型置信度评估与校准调查

评估语言模型预测的可靠性和置信度以及解决其与 AI 安全需求的关系是一项重要研究领域，本文综述了语言模型置信度估计和校准的方法、技术和挑战，并提出了未来研究的方向。

Nov, 2023

少样本重新校准语言模型

通过提出新的少样本特定切片校准框架，使语言模型能够提取出对于任意切片的校准信心估计，可以识别出领域特定的信心阈值，从而改善了准确度并且实验中相较于温度缩放法在 MMLU 上的校准误差提高了 16%。

Mar, 2024

上下文学习的可区分性校准

本文提出了一种基于特征转换、超球面嵌入和粗粒度到细粒度度量学习策略的校准方法，以提高模型在含有细粒度分类标签的文本分类任务中的表现。实验证实了该方法的有效性。

Feb, 2023

使用预训练语言模型的不确定性量化：一项大规模经验分析

该论文研究了基于预训练语言模型的 NLP 任务中的预测流水线如何最小化校准误差，比较了不同选项的表现，并推荐使用 ELECTRA 作为 PLM 编码，尽可能使用更大的 PLM，使用温度调节作为不确定性度量，以及使用 Focal Loss 进行微调。

Oct, 2022

通过询问进行校准：从人类反馈 Fine-Tune 的语言模型中获取校准置信度得分的策略

本研究旨在评估从经过强化学习加人工反馈的预先训练语言模型中提取置信度得分的可行方法，通过合理的提示策略和温度缩放，成功降低超过 50％的校准误差

May, 2023

保留预训练特征有助于校准微调语言模型

本研究主要探讨了针对领域偏移的细调语言模型进行校准的问题，并提出了一种有效的方法，即在辅助语言建模目标的基础上鼓励细调模型学习生成表示，从而提高其校准度并在三项下游自然语言理解任务中具有良好的表现。

May, 2023

预训练语言模型的事实知识校准

本文提出了一种简单轻量级的方法 CaliNet，用于校准预训练语言模型（PLMs）中所保存的事实性知识，试图解决当前存储知识的准确性问题，这一方法通过知识探测任务的实验表明其效率及有效性，并且经过微调后，其校准后的 PLM 具有良好的知识泛化能力，并且我们还进一步研究了知识校准机制。

Oct, 2022

通过帕累托最优自我监督实现大型语言模型的自动校准和误差修正

本文提出了一种 Pareto 最优的自我监督框架，该框架可以利用可用的程序监督来系统地校准 LLM 响应，为每个响应产生风险分数，从而不需要进行任何额外的人工努力。

Jun, 2023