预训练语言模型的校准研究

Oct, 2022

A Close Look into the Calibration of Pre-trained Language Models

Yangyi Chen, Lifan Yuan, Ganqu Cui, Zhiyuan Liu, Heng Ji

TL;DR本文通过精细控制实验和给定数据集，考察了 PLM 模型在训练过程中的校准性能，发现仍然存在校准问题；然后对比了多种方法，提出基于已有方法的扩展性学习方法，证明其显著提高模型的不确定性估计水平。

Abstract

pre-trained language models (PLMs) achieve remarkable performance on many downstream tasks, but may fail in giving reliable estimates of their predictive uncertainty. Given the lack of a comprehensive understanding of PLMs →

pre-trained language models predictive uncertainty calibration fine-grained control experiments learnable methods

发现论文，激发创造

预训练 Transformer 内部分布校准的技巧

本文探讨了针对预训练语言模型（PLMs）的置信度校准，提出了一种 Calibrated PLM（CALL）的组合方法，包括置信度惩罚损失、数据增强和集成方法，CALL 能够弥补对单独使用校准方法可能产生的缺陷，提高了分类和校准精度。

Feb, 2023

使预训练语言模型既成为任务求解器又成为自我校准器

为解决现实场景下对训练样本的有效利用，提出了一种训练算法 LM-TOAST，可以在保持原任务性能的同时，有效利用训练数据使预训练语言模型具有合理的置信度估计。

Jul, 2023

预训练语言模型的事实知识校准

本文提出了一种简单轻量级的方法 CaliNet，用于校准预训练语言模型（PLMs）中所保存的事实性知识，试图解决当前存储知识的准确性问题，这一方法通过知识探测任务的实验表明其效率及有效性，并且经过微调后，其校准后的 PLM 具有良好的知识泛化能力，并且我们还进一步研究了知识校准机制。

Oct, 2022

保留预训练特征有助于校准微调语言模型

本研究主要探讨了针对领域偏移的细调语言模型进行校准的问题，并提出了一种有效的方法，即在辅助语言建模目标的基础上鼓励细调模型学习生成表示，从而提高其校准度并在三项下游自然语言理解任务中具有良好的表现。

May, 2023

使用预训练语言模型的不确定性量化：一项大规模经验分析

该论文研究了基于预训练语言模型的 NLP 任务中的预测流水线如何最小化校准误差，比较了不同选项的表现，并推荐使用 ELECTRA 作为 PLM 编码，尽可能使用更大的 PLM，使用温度调节作为不确定性度量，以及使用 Focal Loss 进行微调。

Oct, 2022

研究多选设置下对齐语言模型的不确定性校准

对齐的语言模型在多选题设置下多显示过于自信的输出答案，我们系统评估了对齐过程对语言模型的逻辑回归置信度校准的影响，并提出了易于实施且高效的校准方法。

Oct, 2023

关于大型语言模型和对齐的校准

通过对大型语言模型的可靠性进行置信度校准的系统检查，我们评估了在预训练和对齐训练阶段中不同训练设置（如参数尺度和训练数据）对模型校准的影响，并对生成、真实性和理解等方面进行了全面的评估。

Nov, 2023

预训练语言模型的一致性测量和提升

研究了预训练语言模型的一致性，发现它们在事实知识方面缺乏一致性，且表现良莠不齐；提出了一种改善模型一致性的方法，并在实验中证明其有效性。

Feb, 2021

多语言问答模型的校准理解

这篇论文研究了多语言预训练语言模型在问答任务中的校准性质，包括从不同维度研究了其在分布内、分布外和跨语言迁移设置下的校准情况，以及改进校准性的策略和技术。通过实验证明了自动翻译数据增强是提高模型校准性的一种高效技术，并进行了模型大小和多语言模型在不同任务和语言下与单语模型的比较的实验。

Nov, 2023

大规模多语言语言模型的校准研究

研究在零样本场景下的大规模多语言语言模型（MMLMs）的标定问题，观察到很明显的误标定现象，在低资源语言或与英语语言类型不同的语种中尤为突出。进一步实证研究表明，温度缩放和标签平滑等标定方法能够在提高零样本场景下的标定过程中发挥良好作用，并发现少量样本数据能够显著降低标定误差。

Oct, 2022