用 LM-Polygraph 为大型语言模型基准化不确定性量化方法
大语言模型(LLMs)在各种 NLP 任务中展示了非凡的能力。我们的研究首先强调了目前 UQ 方法在处理长文本生成时的局限性,然后介绍了 Luq,一种专门设计用于长文本的基于采样的 UQ 方法。我们的发现表明,Luq 在与模型的准确性分数相关性方面优于现有的基准方法。通过 Luq 作为 UQ 工具,我们调查了几个流行 LLMs 的响应信心谱行为模式及其与事实性响应的相互作用。我们发现 LLMs 在生成罕见事实的长文本上缺乏信心,而事实准确的模型(如 GPT-4)倾向于拒绝其不确定的问题。为了进一步提高 LLM 响应的事实准确性,我们提出了一种称为 Luq-Ensemble 的方法,该方法对来自多个模型的响应进行集成并选择不确定性最小的响应。这种集成方法极大地提高了响应的事实性,超越了最佳独立 LLM 的表现。
Mar, 2024
通过整合不确定性量化的新型基准评估方法,本研究发现:准确性较高的大型语言模型可能显示出较低的确定性,较大规模的语言模型可能与较小规模的模型相比具有更大的不确定性,指令微调倾向于增加语言模型的不确定性。这些结果强调了在语言模型评估中整合不确定性的重要性。
Jan, 2024
最近几年,大型语言模型(LLMs)已经变得越来越普遍,提供了卓越的文本生成能力。然而,一个迫切的挑战是它们倾向于做出自信的错误预测,突显出在 LLMs 中的不确定性量化(UQ)的重要性。尽管以往的研究主要集中在解决 aleatoric 不确定性,但是包括 epistemic 不确定性在内的整个不确定性范围仍然不够被探索。通过采样与扰动相结合的 UQ 方法(SPUQ),我们提出了一个新颖的 UQ 方法,旨在解决 aleatoric 和 epistemic 不确定性。该方法包括为 LLM 输入生成一组扰动,对于每个扰动进行输出采样,并结合一个聚合模块来推广文本生成任务的采样不确定性方法。通过对各种数据集进行广泛的实验,我们调查了不同的扰动和聚合技术。我们的研究结果显示模型不确定性校准得到了显著改进,平均预期校准误差(ECE)减少了 50%。我们的研究结果表明,我们提出的 UQ 方法为增强 LLMs 的可靠性和可信度迈出了有希望的一步。
Mar, 2024
该研究探讨了基于黑盒 LLMs 的自然语言生成的不确定性计量,提出几个置信度 / 不确定度统计度量标准,并发现语义分散的平均值可以作为评估 LLMs 响应质量的可靠指标。
May, 2023
大型语言模型的不确定性估计方法 LM-Polygraph 可为文本生成任务提供可靠的响应,并为研究人员提供一致评估的基准,以帮助终端用户辨别可靠性。
Nov, 2023
针对大型语言模型(LLMs)的可解释性低,现有的评估系统主要考察问题解决能力而忽视了响应的不确定性,为此提出了 UBENCH,一个全面评估 LLM 可靠性的基准,包括了 3,978 个多项选择题,实验结果表明 UBENCH 取得了最先进的性能,同时与需要多次采样的基准方法相比,其单次采样方法显著节省了计算资源。此外,基于 UBENCH,我们评估了 15 个热门的 LLM 的可靠性,发现 GLM4 和 GPT-4 表现突出。我们还探讨了 Chain-of-Thought 提示、角色扮演提示、选项顺序和温度对 LLM 可靠性的影响,并分析了对不同 LLM 的不同效果。
Jun, 2024
文章通过对 5 个基准数据集的系统评估,研究不同的不确定性量化方法在回归任务中的性能表现,发现没有一种方法完全优于其他方法,也没有一种特别可靠的错误排名。作者建议在已有的技术中进行选择。
May, 2020
在这项研究中,我们尝试量化大型语言模型(LLM)解释的不确定性。为此,我们提出了两个新的度量标准 ——“口头化不确定性” 和 “探测不确定性”,用于量化生成解释的不确定性。我们的实证分析揭示了口头化不确定性不是可靠的解释置信度的估计,而探测不确定性的估计与解释的忠实度相关,较低的不确定性对应于较高的忠实度。这项研究为量化 LLM 解释的不确定性带来了洞察,有助于更广泛地探讨基础模型的可靠性。
Nov, 2023
通过在科学任务中综合评估检索增强的语言模型中的不确定性量化,本研究旨在填补检索增强语言模型不确定性量化方面的研究空白,发现检索语料库中包含的科学知识无法解决模型对预测结果过度自信的问题。
Nov, 2023