LLMs的置信度评分多重校准
这篇论文研究了多语言预训练语言模型在问答任务中的校准性质,包括从不同维度研究了其在分布内、分布外和跨语言迁移设置下的校准情况,以及改进校准性的策略和技术。通过实验证明了自动翻译数据增强是提高模型校准性的一种高效技术,并进行了模型大小和多语言模型在不同任务和语言下与单语模型的比较的实验。
Nov, 2023
通过引入统一的校准框架,以及发展三种度量和两种置信度引导方法,提高大规模语言模型的校准能力,并进行了实验验证,进一步展示了大型模型不一定保证更好的校准,校准性能依赖于度量,自一致性方法在基准数据集上表现优异,通过微调、整合相关源文件、缩放温度、将自一致性与自我评估相结合等技术可以提高校准性,此研究不仅挑战了现有大规模语言模型校准的概念,还提供了改善长文生成可信度的实用方法。
Feb, 2024
大语言模型中的虚假生成和过度自信在预测中引起对其可靠性的担忧, 本文通过引入多语言置信度估计(MlingConf)对大语言模型进行全面调查, 包括多语言问答数据集、置信度估计性能、跨语言置信度估计方法的提出, 实验结果表明该跨语言置信度估计技术能显著提高置信度估计。
Feb, 2024
通过从多个随机抽样的模型生成的分布中导出确定度來提高大型语言模型(LLM)预测的准确度。在多个开放和闭源模型上进行广泛评估,结果表明基于一致性的校准方法优于现有的事后方法,并提供了选择适用于不同LLMs特性的合适一致性度量标准的实用指南。
Feb, 2024
通过探索不同的提示策略对LLM的置信度校准的影响以及如何改进,本文提出了Fact-and-Reflection(FaR)提示法,它通过两个步骤改善LLM的校准,同时大幅降低了预期校准误差,并在更自信的场景中还能引发检索增强来解决更难的情况。
Feb, 2024
利用APRICOT方法,通过模型的文本输入和输出,设置置信度目标并训练附加模型,从而有效地进行大语言模型的置信度校准。该方法不仅概念简单,而且不需要访问目标模型的其他信息,不会干扰语言生成,并且在封闭型问答中以检测错误答案方面具有竞争性的校准误差表现。
Mar, 2024
针对大型语言模型(LLM),特别是黑盒模型的应用,评估输出可信度的置信度估计是关键。现有的LLM置信度估计通常因LLM对生成的错误答案过于自信而缺乏校准。现有方法解决过度自信问题的能力受到一个重要限制,即它们仅考虑LLM生成的一个答案的置信度。为了解决这个限制,我们提出了一种新的范式,全面评估多个候选答案的可信度以减轻对错误答案的过度自信。基于这个范式,我们引入了一个两步框架,首先指导LLM反思并提供每个答案的理由,然后汇集这些理由进行全面的置信度估计。这个框架可以与现有的置信度估计方法结合,实现更好的校准。对三个任务的六个数据集的实验证明了所提框架的合理性和有效性。
Mar, 2024
本研究探讨了大型语言模型在四个维度上校准退化的问题,包括模型、校准指标、任务和自信度提取方法。结果表明,虽然对齐与校准的关系并不总是权衡,但在严格的分析条件下,对齐过程始终会损害校准。因此,研究强调了测量模型自信度和校准错误时需谨慎,并呼吁未来研究开发能同时提升指令跟随和校准的算法。
Aug, 2024
本文解决了大型语言模型(LLMs)在提供准确自信度估计时的可靠性问题。研究提出了一种新颖的方法,通过结合LLM的自一致性与标记数据,训练一个辅助模型来预测其回答的正确性,最终实验表明该方法在多个基准数据集上明显优于现有自信度校准方法,并显著提升了模型在域外数据上的泛化能力。
Nov, 2024