Aug, 2023

多样性衡量:语言模型查询失败的领域无关代理

TL;DR大型语言模型中的错误预测常依赖于特定领域的信息。本文介绍了基于对给定提示的响应的多样性量化误差的度量方式,独立于底层应用。我们描述了如何使用熵、基尼不纯度和质心距离这三种度量方法。我们在多个数据集和温度设置上进行了一系列实验,证明了这些度量与失败概率强相关。此外,我们还提供了实证结果,展示了如何将这些度量应用于少样本提示、思维链推理和错误检测。