Apr, 2024

何时可以信赖 LLMs:将自信与回答质量对齐

TL;DR我们提出了一种名为 CONQORD 的方法,利用强化学习和定制的双组分奖励函数,通过对齐可信度和响应质量来提高大型语言模型的可靠性和对齐表现,从而指导何时信任 LLMs 并在检索过程中使用外部知识。