ACLMar, 2024

SPUQ:面向大型语言模型的扰动式不确定性量化

TL;DR最近几年,大型语言模型(LLMs)已经变得越来越普遍,提供了卓越的文本生成能力。然而,一个迫切的挑战是它们倾向于做出自信的错误预测,突显出在 LLMs 中的不确定性量化(UQ)的重要性。尽管以往的研究主要集中在解决 aleatoric 不确定性,但是包括 epistemic 不确定性在内的整个不确定性范围仍然不够被探索。通过采样与扰动相结合的 UQ 方法(SPUQ),我们提出了一个新颖的 UQ 方法,旨在解决 aleatoric 和 epistemic 不确定性。该方法包括为 LLM 输入生成一组扰动,对于每个扰动进行输出采样,并结合一个聚合模块来推广文本生成任务的采样不确定性方法。通过对各种数据集进行广泛的实验,我们调查了不同的扰动和聚合技术。我们的研究结果显示模型不确定性校准得到了显著改进,平均预期校准误差(ECE)减少了 50%。我们的研究结果表明,我们提出的 UQ 方法为增强 LLMs 的可靠性和可信度迈出了有希望的一步。