Feb, 2024

大型语言模型的多语言置信度评估全面研究

TL;DR大语言模型中的虚假生成和过度自信在预测中引起对其可靠性的担忧, 本文通过引入多语言置信度估计(MlingConf)对大语言模型进行全面调查, 包括多语言问答数据集、置信度估计性能、跨语言置信度估计方法的提出, 实验结果表明该跨语言置信度估计技术能显著提高置信度估计。