May, 2024

大型语言模型中的置信度和概率一致性调查

TL;DR通过使用各种数据集和提示技术,本研究探索了大型语言模型(LLMs)内部信心与其对外表达的一致性,其中OpenAI的GPT-4表现出最强的信心-概率对齐性,并有助于评估LLMs的风险和提高对模型可信度的认识。