Apr, 2024

何时可以信赖LLMs:将自信与回答质量对齐

TL;DR我们提出了一种名为CONQORD的方法,利用强化学习和定制的双组分奖励函数,通过对齐可信度和响应质量来提高大型语言模型的可靠性和对齐表现,从而指导何时信任LLMs并在检索过程中使用外部知识。