ACLMay, 2024

大型语言模型中的置信度和概率一致性调查

TL;DR通过使用各种数据集和提示技术,本研究探索了大型语言模型(LLMs)内部信心与其对外表达的一致性,其中 OpenAI 的 GPT-4 表现出最强的信心 - 概率对齐性,并有助于评估 LLMs 的风险和提高对模型可信度的认识。