Jun, 2024

思维周期:通过稳定解释衡量 LLM 的信心

TL;DR通过使用解释蕴涵作为分类器可能性,我们提出了一种框架来测量语言模型不确定性,以改善置信度指标 (AURC 和 AUROC)。