Jun, 2024

思维周期: 通过稳定解释衡量LLM的信心

TL;DR通过使用解释蕴涵作为分类器可能性,我们提出了一种框架来测量语言模型不确定性,以改善置信度指标(AURC和AUROC)。