Fact-and-Reflection (FaR) 提高大型语言模型的置信度校准
本文探讨了大型语言模型在知识获取任务中通过设计启示策略,特别是意见为基础的提示和反事实演示,有效提高了上下文的真实性,并在三个数据集上进行实验,结果表明在上下文中的忠实度有了显著提高。
Mar, 2023
针对大型语言模型(LLM),特别是黑盒模型的应用,评估输出可信度的置信度估计是关键。现有的 LLM 置信度估计通常因 LLM 对生成的错误答案过于自信而缺乏校准。现有方法解决过度自信问题的能力受到一个重要限制,即它们仅考虑 LLM 生成的一个答案的置信度。为了解决这个限制,我们提出了一种新的范式,全面评估多个候选答案的可信度以减轻对错误答案的过度自信。基于这个范式,我们引入了一个两步框架,首先指导 LLM 反思并提供每个答案的理由,然后汇集这些理由进行全面的置信度估计。这个框架可以与现有的置信度估计方法结合,实现更好的校准。对三个任务的六个数据集的实验证明了所提框架的合理性和有效性。
Mar, 2024
本研究旨在评估从经过强化学习加人工反馈的预先训练语言模型中提取置信度得分的可行方法,通过合理的提示策略和温度缩放,成功降低超过 50%的校准误差
May, 2023
通过将语言模型置信度分解为问题的不确定性和答案的忠诚度,我们提出了一种即插即用的方法来估计语言模型的置信度,并在 4 个 MCQA 数据集上对 6 个 RLHF-LM 进行实验,展现了良好的校准性能。此外,我们提出了两个新的评估指标 IPR 和 CE,对模型的校准性进行了详细讨论,希望这项工作可以成为一个强有力的基线,并对模型的置信度校准提供一些见解。
Apr, 2024
在本文中,我们首先提出一种基于激活的校准方法 ActCab,它在语言模型的最后一层激活上训练一个线性层,能更好地捕捉知识的表征。在 ActCab 的基础上,我们进一步提出了一种以置信度为指导的解码策略 CoDec,以从语言模型中得到置信度高的真实答案。通过在五个热门问答基准上进行评估,ActCab 在校准性能方面优于所有竞争基准,例如平均期望校准误差减少了最高 39%。进一步对 CoDec 进行的实验证明,在挑战性问答数据集(如 TruthfulQA)上提升了几个语言模型的真实性,突显了置信度信号在增强真实性方面的价值。
Jun, 2024
通过利用语言模型(LM)的函数调用能力和 RAG 事实回忆评估框架,FaaF 方法大幅提高了 LM 识别文本中不支持的事实的能力,相较于指令为基础的方法,同时提高了效率和降低成本。
Mar, 2024
大型语言模型经常在对开放式主题的事实查询提示进行回答时产生内容错误。为了评估模型在开放领域中的长篇事实可靠性,我们首先使用 GPT-4 生成了一个包含 38000 个问题的长篇事实测试集,然后提出利用 LLM 代理作为长篇事实性的自动化评估器的方法(称为 SAFE),通过将长篇回复分解为一组单个事实,并使用多步推理过程(发送搜索查询到 Google 搜索并确定搜索结果是否支持事实)来评估每个事实的准确性。此外,我们提出将 F1 分数扩展为评估长篇事实性的聚合度量标准,通过将回复中的支持事实的百分比(准确率)与相对于用户首选回复长度的超参数表示的提供事实的百分比(召回率)进行平衡。实证上,我们证明 LLM 代理在超出人类标注者的 16k 个个别事实集上实现了超人类的评级性能 - SAFE 在这些事实中与众包人类标注者的意见达成 72% 的一致,在 100 个不一致案例的随机子集中,SAFE 赢得了 76% 的情况。与此同时,SAFE 比人类标注者便宜多达 20 倍。我们还对长篇事实测试集上的十三个语言模型进行了基准测试,涵盖四个模型系列(Gemini,GPT,Claude 和 PaLM-2),发现较大的语言模型通常可以实现更好的长篇事实性。LongFact,SAFE 和所有实验代码均可在此 https URL 中获取。
Mar, 2024
通过利用外部知识库的一致性或大模型的置信度,以及直接优化算法,我们在不需要人工标注的情况下,对语言模型进行微调,明显提高了生成候选项的正确性,并比对准确性进行了目标定向的 RLHF 和解码策略有显著改善。
Nov, 2023
该论文介绍了一种新方法,即通过多个语言模型实例的反复辩论和推理过程,以达成一个共同的最终答案,从而改善语言响应的表现,特别是在数学和策略推理方面,改善了已有模型中一些常见问题,如虚假答案和幻觉现象,并有望显著提高大型语言模型的性能和开拓语言生成和理解领域。
May, 2023