语义密度:大型语言模型中语义空间的不确定性量化
该研究探讨了基于黑盒 LLMs 的自然语言生成的不确定性计量,提出几个置信度 / 不确定度统计度量标准,并发现语义分散的平均值可以作为评估 LLMs 响应质量的可靠指标。
May, 2023
该论文提出了一种评估大型语言模型不确定性的新方法,通过构建由蕴含概率组成的方向图,并创新地进行随机行走拉普拉斯过程以捕捉方向不稳定性,然后通过拉普拉斯过程得到的特征值来聚合不确定性。此外,该论文识别了原始回应集中的模糊问题,并提出了一种补充方法以缓解此问题,我们进行了大量实证实验并证明了我们提出的解决方案的优越性。
Jul, 2024
在大型语言模型中,不确定性量化对于关系到安全性和可靠性的应用至关重要。我们提出了 Kernel Language Entropy(KLE),这是一种用于估计白盒和黑盒语言模型中不确定性的新方法,它能够捕捉到模型输出的语义不确定性,并通过 von Neumann 熵来量化不确定性。实验证明,KLE 在多个自然语言生成数据集和语言模型架构上提供了更好的不确定性量化性能。
May, 2024
我们在大型语言模型中探索不确定性量化,旨在确定查询结果的不确定性何时较大。我们同时考虑认识论不确定性和偶然性不确定性,从中推论出一种信息论度量,可可靠地检测只有认识论不确定性较大的情况,从模型的输出中可以仅通过一些特殊的迭代提示来计算。这种量化可以检测出幻觉,在单答案和多答案响应中均适用。与许多标准的不确定性量化策略(例如,将响应的对数似然度阈值化)不同,无法检测到多答案情况下的幻觉。我们进行了一系列实验证明了我们的公式的优势。此外,我们的研究还揭示了大型语言模型给定输出的概率如何通过迭代提示来放大,这可能具有独立的研究价值。
Jun, 2024
该研究提出了一种新颖的几何方法来评估大语言模型(LLM)的不确定性,利用凸包分析来度量模型输出的离散度和可变性,该方法通过将回答转化为高维嵌入,并使用主成分分析(PCA)将其投影到二维空间。实验结果表明,LLMs 模型的不确定性取决于提示的复杂性、模型和温度设置。
Jun, 2024
该论文提供了一种基于量化回归的方法来量化生成模型中语义信息潜空间在语义限制条件下的不确定性,从而为诸如图像超分辨率和图像完成等逆问题提供了可靠的,基于实例的,具有语义信息含义的不确定性可视化。
Jul, 2022
通过使用标记的数据集,本文研究了针对大型语言模型(LLMs)的不确定性估计和校准问题,提出了一个监督学习方法来估计 LLMs 响应的不确定性,并展示了利用隐藏激活对不同任务进行增强不确定性估计的好处和在超出分布范围的情况下的鲁棒性,同时区分了不确定性估计任务和不确定性校准任务,并表明更好的不确定性估计模式会导致更好的校准性能。
Apr, 2024
通过整合不确定性量化的新型基准评估方法,本研究发现:准确性较高的大型语言模型可能显示出较低的确定性,较大规模的语言模型可能与较小规模的模型相比具有更大的不确定性,指令微调倾向于增加语言模型的不确定性。这些结果强调了在语言模型评估中整合不确定性的重要性。
Jan, 2024
开发了一种名为 “Rank-Calibration” 的新颖实用框架,用于评估语言模型的不确定性和置信度,通过量化与生成质量的关系偏差的方式,消除了二进制阈值化的需求,并在实证验证中展示了方法的广泛适用性和细粒度可解释性。
Apr, 2024