通过引入统一的校准框架,以及发展三种度量和两种置信度引导方法,提高大规模语言模型的校准能力,并进行了实验验证,进一步展示了大型模型不一定保证更好的校准,校准性能依赖于度量,自一致性方法在基准数据集上表现优异,通过微调、整合相关源文件、缩放温度、将自一致性与自我评估相结合等技术可以提高校准性,此研究不仅挑战了现有大规模语言模型校准的概念,还提供了改善长文生成可信度的实用方法。
Feb, 2024
大语言模型中的虚假生成和过度自信在预测中引起对其可靠性的担忧,本文通过引入多语言置信度估计 (MlingConf) 对大语言模型进行全面调查,包括多语言问答数据集、置信度估计性能、跨语言置信度估计方法的提出,实验结果表明该跨语言置信度估计技术能显著提高置信度估计。
通过对大型语言模型的可靠性进行置信度校准的系统检查,我们评估了在预训练和对齐训练阶段中不同训练设置(如参数尺度和训练数据)对模型校准的影响,并对生成、真实性和理解等方面进行了全面的评估。
Nov, 2023
大型语言模型 (LLMs),包括 ChatGPT 和 LLaMA,在以自信的口吻生成虚构答案方面容易出错。本文通过构建来自知识库的新评估数据集,评估了 Mistral 和 LLaMA 给出的答案的置信度分数,并展示它们倾向于过于自信。我们还发现它们在一些答案上比在其他答案上更为自信,例如取决于查询中的人的国籍。为了解决这个问题,我们提出了一种重新确定置信度的方法,取消了校准与分组损失。在重新确定置信度的过程中,语言模型表明其响应的准确性与其置信度的对齐有所改善。
评估语言模型预测的可靠性和置信度以及解决其与 AI 安全需求的关系是一项重要研究领域,本文综述了语言模型置信度估计和校准的方法、技术和挑战,并提出了未来研究的方向。
通过从多个随机抽样的模型生成的分布中导出确定度來提高大型语言模型 (LLM) 预测的准确度。在多个开放和闭源模型上进行广泛评估,结果表明基于一致性的校准方法优于现有的事后方法,并提供了选择适用于不同 LLMs 特性的合适一致性度量标准的实用指南。
本研究旨在评估从经过强化学习加人工反馈的预先训练语言模型中提取置信度得分的可行方法,通过合理的提示策略和温度缩放,成功降低超过 50%的校准误差
May, 2023
对齐的语言模型在多选题设置下多显示过于自信的输出答案,我们系统评估了对齐过程对语言模型的逻辑回归置信度校准的影响,并提出了易于实施且高效的校准方法。
Oct, 2023
研究在零样本场景下的大规模多语言语言模型(MMLMs)的标定问题,观察到很明显的误标定现象,在低资源语言或与英语语言类型不同的语种中尤为突出。进一步实证研究表明,温度缩放和标签平滑等标定方法能够在提高零样本场景下的标定过程中发挥良好作用,并发现少量样本数据能够显著降低标定误差。
Oct, 2022
自动校准基于大语言模型的评估器以提高与人类评估的相关性。
Sep, 2023