预训练语言模型的校准研究
本文探讨了针对预训练语言模型(PLMs)的置信度校准,提出了一种 Calibrated PLM(CALL)的组合方法,包括置信度惩罚损失、数据增强和集成方法,CALL 能够弥补对单独使用校准方法可能产生的缺陷,提高了分类和校准精度。
Feb, 2023
为解决现实场景下对训练样本的有效利用,提出了一种训练算法 LM-TOAST,可以在保持原任务性能的同时,有效利用训练数据使预训练语言模型具有合理的置信度估计。
Jul, 2023
本文提出了一种简单轻量级的方法 CaliNet,用于校准预训练语言模型(PLMs)中所保存的事实性知识,试图解决当前存储知识的准确性问题, 这一方法通过知识探测任务的实验表明其效率及有效性,并且经过微调后, 其校准后的 PLM 具有良好的知识泛化能力,并且我们还进一步研究了知识校准机制。
Oct, 2022
本研究主要探讨了针对领域偏移的细调语言模型进行校准的问题,并提出了一种有效的方法,即在辅助语言建模目标的基础上鼓励细调模型学习生成表示,从而提高其校准度并在三项下游自然语言理解任务中具有良好的表现。
May, 2023
该论文研究了基于预训练语言模型的 NLP 任务中的预测流水线如何最小化校准误差,比较了不同选项的表现,并推荐使用 ELECTRA 作为 PLM 编码,尽可能使用更大的 PLM,使用温度调节作为不确定性度量,以及使用 Focal Loss 进行微调。
Oct, 2022
对齐的语言模型在多选题设置下多显示过于自信的输出答案,我们系统评估了对齐过程对语言模型的逻辑回归置信度校准的影响,并提出了易于实施且高效的校准方法。
Oct, 2023
通过对大型语言模型的可靠性进行置信度校准的系统检查,我们评估了在预训练和对齐训练阶段中不同训练设置(如参数尺度和训练数据)对模型校准的影响,并对生成、真实性和理解等方面进行了全面的评估。
Nov, 2023
这篇论文研究了多语言预训练语言模型在问答任务中的校准性质,包括从不同维度研究了其在分布内、分布外和跨语言迁移设置下的校准情况,以及改进校准性的策略和技术。通过实验证明了自动翻译数据增强是提高模型校准性的一种高效技术,并进行了模型大小和多语言模型在不同任务和语言下与单语模型的比较的实验。
Nov, 2023
研究在零样本场景下的大规模多语言语言模型(MMLMs)的标定问题,观察到很明显的误标定现象,在低资源语言或与英语语言类型不同的语种中尤为突出。进一步实证研究表明,温度缩放和标签平滑等标定方法能够在提高零样本场景下的标定过程中发挥良好作用,并发现少量样本数据能够显著降低标定误差。
Oct, 2022