何时可以信赖 LLMs:将自信与回答质量对齐
通过使用各种数据集和提示技术,本研究探索了大型语言模型(LLMs)内部信心与其对外表达的一致性,其中 OpenAI 的 GPT-4 表现出最强的信心 - 概率对齐性,并有助于评估 LLMs 的风险和提高对模型可信度的认识。
May, 2024
本研究提出了基于行为一致性概念的 TrustScore 框架,用于评估大型语言模型(LLMs)的响应与其内在知识的一致性,同时能够与事实核实方法无缝集成,实现与人类判断强相关性的结果。
Feb, 2024
大型语言模型 (LLMs),包括 ChatGPT 和 LLaMA,在以自信的口吻生成虚构答案方面容易出错。本文通过构建来自知识库的新评估数据集,评估了 Mistral 和 LLaMA 给出的答案的置信度分数,并展示它们倾向于过于自信。我们还发现它们在一些答案上比在其他答案上更为自信,例如取决于查询中的人的国籍。为了解决这个问题,我们提出了一种重新确定置信度的方法,取消了校准与分组损失。在重新确定置信度的过程中,语言模型表明其响应的准确性与其置信度的对齐有所改善。
Feb, 2024
为了确保大型语言模型的回复是有用且无毒的,通常我们会在人类偏好数据上对奖励模型进行微调。然后,我们选择具有高奖励的策略回复(最佳 n 采样),或者进一步优化策略以生成具有高奖励的回复(从人类反馈中进行强化学习)。然而,这个过程容易受到奖励过度优化或黑客攻击的影响,即所选择的回复之所以具有高奖励是因为奖励模型中存在错误,而不是真正的偏好。通过训练贝叶斯奖励模型,可以缓解这些问题,该模型可以在离训练数据分布较远的位置发出更高的不确定性信号。因此,我们使用 Laplace-LoRA(Yang 等,2024 年)训练了贝叶斯奖励模型,并发现由此产生的不确定性估计可以成功缓解最佳 n 采样中的奖励过度优化。
Feb, 2024
这项研究系统地调查了大型语言模型在缺乏先验知识以生成有意义回答的情况下常出现的产生杜撰和幻觉的问题,旨在探讨如何教导这些模型主动和可靠地表达不确定性。研究发现,在处理无法回答问题的同时,通过针对训练数据中缺失信息设计的对抗性问答基准测试,经过指令微调和来自人类反馈的强化学习后的大型语言模型表现明显优于未经处理的模型。此外,通过提取不确定度表达的方法得到的结果并不始终与大型语言模型直接回答问题的自信程度一致。因此,我们呼吁进一步研究如何教导大型语言模型主动和可靠地表达不确定性。
Nov, 2023
为了确保大型语言模型在实际应用中与人类意图保持一致,本研究介绍了对 LLM 值得信赖性进行评估时需要考虑的关键维度,包括对 LLM 的可靠性、安全性、公平性、抵抗滥用性、可解释性和推理性、遵守社会规范以及鲁棒性进行调查研究。通过对几个广泛使用的 LLM 进行测试,研究结果表明,总体上,更加符合人类意图的模型在整体可信度方面表现更好,但是模型对不同可信度类别的影响程度有所不同,这凸显了在 LLM 对齐方面进行更加细致的分析、测试和不断改进的重要性。本研究旨在为该领域的从业人员提供有价值的见解和指导,理解和解决这些问题对于在各种应用中实现可靠和符合伦理的 LLM 部署至关重要。
Aug, 2023
本研究探讨了不需要模型微调或专有信息的自信度引出方法,通过基于词汇、一致性和混合等三种类别的方法的基准评估和评估,揭示了语言模型的自信度过高以及一些方法的优点。
Jun, 2023
大型语言模型为了赢得人类的信任,需要具备良好的校准能力,准确评估和传达其预测的正确概率。本研究通过实验研究了人类用户对于语言模型可信度的感知和个性化解释对此感知的影响,发现默认解释会导致用户过高估计模型的信心和准确性,而更准确反映模型内部可信度的解释能够对用户感知产生显著影响,增强用户对语言模型输出的信任和准确性评估。透明传达语言模型可信度在高风险应用中尤为重要,特别是需要理解人工智能生成信息可靠性的场景。
Jan, 2024