Aug, 2024
大型语言模型在其概率或口头信心中的诚实性比较
Are Large Language Models More Honest in Their Probabilistic or
Verbalized Confidence?
TL;DR本研究解决了大型语言模型(LLMs)在知识边界感知方面的不足,重点分析了模型在生成的概率与口头信心之间的差异和联系。通过比较,发现概率感知通常比口头感知更准确,但需要领域内的验证集以调整信心阈值,且二者在处理不常见问题时表现更佳。这一发现有助于提升模型在回答超出其知识范围问题时的可靠性。