Apr, 2024

基于不确定性的 LLMs 弃权改善安全性并减少幻觉

TL;DR大语言模型 (LLMs) 缺乏可靠性是其实际部署的一个主要障碍。本研究探讨了在问答领域中,通过不确定性度量的不确定度来弃权的可行性和有效性,并使用具有和不具有人类反馈的强化学习(RLHF)的模型和这些不确定度度量,证明通过适当的不确定度度量进行弃权可以提高 LLMs 的可靠性。