大规模多语言语言模型的校准研究

EMNLPOct, 2022

大规模多语言语言模型的校准研究

On the Calibration of Massively Multilingual Language Models

Kabir Ahuja, Sunayana Sitaram, Sandipan Dandapat, Monojit Choudhury

TL;DR研究在零样本场景下的大规模多语言语言模型（MMLMs）的标定问题，观察到很明显的误标定现象，在低资源语言或与英语语言类型不同的语种中尤为突出。进一步实证研究表明，温度缩放和标签平滑等标定方法能够在提高零样本场景下的标定过程中发挥良好作用，并发现少量样本数据能够显著降低标定误差。

Abstract

Massively multilingual language models (MMLMs) have recently gained popularity due to their surprising effectiveness in cross-lingual transfer. While there has been much work in evaluating these models for their performance on a variety of tasks and languages, little attention has been

multilingual language models zero-shot calibration temperature scaling label smoothing calibration errors

发现论文，激发创造

少样本重新校准语言模型

通过提出新的少样本特定切片校准框架，使语言模型能够提取出对于任意切片的校准信心估计，可以识别出领域特定的信心阈值，从而改善了准确度并且实验中相较于温度缩放法在 MMLU 上的校准误差提高了 16%。

Mar, 2024

多语言问答模型的校准理解

这篇论文研究了多语言预训练语言模型在问答任务中的校准性质，包括从不同维度研究了其在分布内、分布外和跨语言迁移设置下的校准情况，以及改进校准性的策略和技术。通过实验证明了自动翻译数据增强是提高模型校准性的一种高效技术，并进行了模型大小和多语言模型在不同任务和语言下与单语模型的比较的实验。

Nov, 2023

LLMs 的置信度评分多重校准

通过使用 “多校准” 技术，本文提出为大型语言模型生成可解释和可靠的置信度分数。通过在各种数据交叉组合上同时校准，可以显著提高校准和准确性。

Apr, 2024

多语言蒸馏和零样本感知训练的跨语言文本分类

利用教师 - 学生框架从高性能的单语言模型中转移知识，构建了一个基于 MPLMs 的多语言分支模型（MBLM），并使用零射击感知的训练策略令模型从所有分支的零射击表示中学习，我们的方法仅使用任务的监督数据，提高了 MPLMs 的监督性能和零射击性能。

Feb, 2022

释放多语言编码器潜力：通过概率校准提升零射击性能

预训练的多语言编码器模型结合校准技术取得了显著的性能提升，适用于零样本多语言任务和语言探索，并且只需很少的训练样本即可获得额外的增强。

Oct, 2023

神经机器翻译推理校准

本文对神经机器翻译中置信度校准的问题进行研究，发现在推断时训练数据与推断数据的不同导致了校准不准确的问题。作者提出了一种新的 graduated label smoothing 方法来提高推断校准和翻译性能。

May, 2020

关于大型语言模型和对齐的校准

通过对大型语言模型的可靠性进行置信度校准的系统检查，我们评估了在预训练和对齐训练阶段中不同训练设置（如参数尺度和训练数据）对模型校准的影响，并对生成、真实性和理解等方面进行了全面的评估。

Nov, 2023

视觉语言模型校准的关键因素的实证研究

本研究探究了视觉语言模型（VLMs）在不同架构、数据集和训练策略下的校准性能，发现温度缩放显著且一致地改善了校准性能，即使在分布转变和标签集改变的情况下，借此实验结果，我们强调了我们对 VLMs 的理解在关键实际场景中的潜在应用和重要性，旨在更可靠、有效地使用 VLMs。

Feb, 2024

多任务学习用于多语言模型零 - shot 性能预测

本研究通过建模探索基于 Transformer 的多语言语言模型在零样本跨语言转移上的性能预测，并将其视为多任务学习问题，从而建立准确的预测模型。我们的方法还同时进行了特征选择，识别出对多个任务的零样本表现具有影响的共同特征。

May, 2022

使用大规模多语言预训练语言模型实现临床领域实际零 - shot 神经机器翻译

本文研究了大规模多语言预训练语言模型是否可以应用于全新的语言对和领域的零 - shot 机器翻译，实验证明对于在其原始预训练语料库中没有包含的英 - 西语言对的临床数据的微调非常成功，是 MMPLMs 实现真正的零 - shot NMT 在临床领域的首次研究。

Oct, 2022