使用预训练语言模型的不确定性量化：一项大规模经验分析

EMNLPOct, 2022

使用预训练语言模型的不确定性量化：一项大规模经验分析

Uncertainty Quantification with Pre-trained Language Models: A Large-Scale Empirical Analysis

Yuxin Xiao, Paul Pu Liang, Umang Bhatt, Willie Neiswanger, Ruslan Salakhutdinov...

TL;DR该论文研究了基于预训练语言模型的 NLP 任务中的预测流水线如何最小化校准误差，比较了不同选项的表现，并推荐使用 ELECTRA 作为 PLM 编码，尽可能使用更大的 PLM，使用温度调节作为不确定性度量，以及使用 Focal Loss 进行微调。

Abstract

pre-trained language models (PLMs) have gained increasing popularity due to their compelling prediction performance in diverse natural language processing (NLP) tasks. When formulating a PLM-based prediction pipeline

pre-trained language models prediction pipeline calibration error uncertainty quantifier fine-tuning loss

发现论文，激发创造

预训练 Transformer 内部分布校准的技巧

本文探讨了针对预训练语言模型（PLMs）的置信度校准，提出了一种 Calibrated PLM（CALL）的组合方法，包括置信度惩罚损失、数据增强和集成方法，CALL 能够弥补对单独使用校准方法可能产生的缺陷，提高了分类和校准精度。

Feb, 2023

预训练语言模型的校准研究

本文通过精细控制实验和给定数据集，考察了 PLM 模型在训练过程中的校准性能，发现仍然存在校准问题；然后对比了多种方法，提出基于已有方法的扩展性学习方法，证明其显著提高模型的不确定性估计水平。

Oct, 2022

基于预训练语言模型的文本分类器不确定性解释框架

该论文提出了一种名为 CUE 的新框架，通过一个变分自动编码器将预训练语言模型编码表示映射到一个潜在空间并通过扰动潜在空间生成文本表示，从而比较扰动前后的预测不确定性差异以识别引起不确定性的潜在维度并进一步追溯贡献于不确定性的输入特征。该框架在包括语言可接受性分类、情感分类和自然语言推理在内的四个基准数据集上进行了广泛的实验，可行性得到证明。

Jun, 2023

使预训练语言模型既成为任务求解器又成为自我校准器

为解决现实场景下对训练样本的有效利用，提出了一种训练算法 LM-TOAST，可以在保持原任务性能的同时，有效利用训练数据使预训练语言模型具有合理的置信度估计。

Jul, 2023

保留预训练特征有助于校准微调语言模型

本研究主要探讨了针对领域偏移的细调语言模型进行校准的问题，并提出了一种有效的方法，即在辅助语言建模目标的基础上鼓励细调模型学习生成表示，从而提高其校准度并在三项下游自然语言理解任务中具有良好的表现。

May, 2023

审慎行事：大型语言模型下的不确定性测量的探索性研究

从不确定性的角度进行的风险评估研究表明不确定性估计方法可用于揭示大型语言模型的预测风险，并可能发现由该模型生成的有错误的程序。

Jul, 2023

预训练语言模型在简单知识图谱问答中的实证研究

本文针对知识图谱问答中不同预训练语言模型的性能对比，基于两个基本框架和三个基准数据集进行了实验和分析，结果表明知识蒸馏和知识增强技术对于知识图谱问答有很大的帮助；同时，该文还测试了 ChatGPT 在零样本知识图谱问答方面的表现，最终发布了相关代码与基准数据集供后续研究使用。

Mar, 2023

ElitePLM：预训练语言模型通用语言能力评估的实证研究

本文介绍了一个对预训练语言模型（PLMs）的普适语言能力进行大规模实证研究的 ElitePLM，并设计了四个评估维度来衡量十种广泛使用的 PLMs，包括记忆、理解、推理和组合。实验结果表明，PLMs 在不同的能力测试中表现出色；下游任务中的微调通常对数据大小和分布敏感；PLMs 在类似任务之间具有出色的可转移性，并且 PLMs 的预测结果在我们的实验中作为开放资源发布，以进行更深入和详细的 PLMs 语言能力分析。这篇论文可以引导未来的工作选择，应用和设计特定任务的 PLMs。

May, 2022

大型语言模型必须学会自知之明

在高风险应用中使用大型语言模型（LLMs）时，我们需要知道何时可以信赖它们的预测。本研究首先论证了仅仅使用提示是不足以实现良好校准的，然后展示了在一个小数据集上进行精调以创建具有良好概括性和小计算开销的不确定性估计的方法。我们还研究了可靠的 LLM 不确定性估计的机制，并通过用户研究展示了不确定性估计如何影响人与 AI 的协作环境中的人类使用 LLMs。

Jun, 2024

LLMs 的不确定性估计与量化：一种简单的监督方法

通过使用标记的数据集，本文研究了针对大型语言模型（LLMs）的不确定性估计和校准问题，提出了一个监督学习方法来估计 LLMs 响应的不确定性，并展示了利用隐藏激活对不同任务进行增强不确定性估计的好处和在超出分布范围的情况下的鲁棒性，同时区分了不确定性估计任务和不确定性校准任务，并表明更好的不确定性估计模式会导致更好的校准性能。

Apr, 2024