TrustScore: 无需参考的 LLM 响应可信度评估
介绍了 TrustLLM,这是一个关于 LLM(大型语言模型)信任度的综合研究,包括不同维度的信任度原则、建立的基准、评估和分析主流 LLM 的信任度,以及对开放挑战和未来方向的讨论。
Jan, 2024
评估技术在提高大规模语言模型(LLM)的可信度和理解性方面起到了至关重要的作用,通过算法方法和评估指标来评估 LLM 的性能,发现其弱点,并引导其发展以实现更可信赖的应用。
Jun, 2024
本文提出了一种名为 MONITOR 的新度量方法,用于直接衡量大型语言模型的事实可靠性,通过计算有效输出与同一模型使用不同类型提示和上下文进行探索所产生的对应输出之间的概率分布距离来评估模型的一致性。实验证明 MONITOR 对于评估大型语言模型的事实可靠性具有良好的效果,并且计算开销较低。此外,作者还发布了包含 210,158 个提示的 FKTC 测试集,以促进相关研究的开展。
Oct, 2023
为了确保大型语言模型在实际应用中与人类意图保持一致,本研究介绍了对 LLM 值得信赖性进行评估时需要考虑的关键维度,包括对 LLM 的可靠性、安全性、公平性、抵抗滥用性、可解释性和推理性、遵守社会规范以及鲁棒性进行调查研究。通过对几个广泛使用的 LLM 进行测试,研究结果表明,总体上,更加符合人类意图的模型在整体可信度方面表现更好,但是模型对不同可信度类别的影响程度有所不同,这凸显了在 LLM 对齐方面进行更加细致的分析、测试和不断改进的重要性。本研究旨在为该领域的从业人员提供有价值的见解和指导,理解和解决这些问题对于在各种应用中实现可靠和符合伦理的 LLM 部署至关重要。
Aug, 2023
大型语言模型在各种基于语言的任务中展示了出色的推理能力。然而,在强化下游任务性能的许多推理方法提出之后,仍然存在两个基本问题:推理是否真正支持预测,以及推理质量的可靠性如何。本文提出了一个名为 \textsc {SCORE} 的框架,用于分析大型语言模型的推理能力。具体而言,我们关注自相矛盾的推理,即推理与预测不一致的情况。我们发现,在涉及上下文信息和常识的推理任务中,大型语言模型经常自相矛盾。模型可能会错过证据或使用捷径,从而表现出自相矛盾的行为。我们还使用了一种名为 Point-of-View (POV) 的方法作为诊断工具,从多个角度生成推理以进行进一步分析。我们发现,尽管大型语言模型在单一视角设置中表现良好,但在多视角设置中无法稳定该行为。即使对于正确的预测,推理也可能杂乱不堪且不完整,大型语言模型很容易被引导偏离良好的推理。\textsc {SCORE} 的结果凸显了可信赖的推理所需的缺乏鲁棒性,以及进一步研究建立超越准确性度量的推理的最佳实践的紧迫性。
Nov, 2023
本研究通过使用 SummEval 数据集进行一系列分析,证实了大型语言模型作为评估器在以下方面存在偏见和不一致性:(1)体现对低困惑度文本的偏好;(2)显示具有偏见的评分分布;(3)经历多属性判断时的锚定效应。此外,我们分享了配置大型语言模型评估器以减轻这些限制的方法,通过 RoSE 数据集的实验证明了与最先进的大型语言模型评估器相比的改进。
May, 2024
从信任的角度来研究大型语言模型(LLMs)生成的文本,我们提出了一种有效的方法 SPOT,通过原创度评分来对任意文本输入进行源分类,该方法对于现代 LLMs 的架构、训练数据、评估数据、任务和压缩表现出了稳健性。
May, 2024
本研究旨在探讨大型语言模型作为可靠的评估器,用于评估文本生成模型生成的摘要的事实一致性,并发现其在事实性评分中的局限性。
Nov, 2023
通过探索大型语言模型的自我纠正能力,研究发现自我纠正能够提升大型语言模型的可信度和真实性,但这种改进程度会根据可信度的具体方面和任务的性质而有所不同,并发现大型语言模型在自我纠正过程中存在自我怀疑的实例,带来了一系列需要解决的新挑战。
Nov, 2023
在评估自然语言生成的过程中,使用大型语言模型 (LLMs) 作为人类评判的替代方法是一种最新的趋势。然而,本研究发现其评估结果存在偏见。为解决这一问题,提出了多维度独立评估系统 (Multi-Elo Rating System),在提高 LLM 评估质量方面取得了显著成效,但对众包评估没有明显改善,需要进一步探索和改进。
Jul, 2023