Mar, 2024

大型语言模型中的长篇事实准确性

TL;DR大型语言模型经常在对开放式主题的事实查询提示进行回答时产生内容错误。为了评估模型在开放领域中的长篇事实可靠性,我们首先使用 GPT-4 生成了一个包含 38000 个问题的长篇事实测试集,然后提出利用 LLM 代理作为长篇事实性的自动化评估器的方法(称为 SAFE),通过将长篇回复分解为一组单个事实,并使用多步推理过程(发送搜索查询到 Google 搜索并确定搜索结果是否支持事实)来评估每个事实的准确性。此外,我们提出将 F1 分数扩展为评估长篇事实性的聚合度量标准,通过将回复中的支持事实的百分比(准确率)与相对于用户首选回复长度的超参数表示的提供事实的百分比(召回率)进行平衡。实证上,我们证明 LLM 代理在超出人类标注者的 16k 个个别事实集上实现了超人类的评级性能 - SAFE 在这些事实中与众包人类标注者的意见达成 72% 的一致,在 100 个不一致案例的随机子集中,SAFE 赢得了 76% 的情况。与此同时,SAFE 比人类标注者便宜多达 20 倍。我们还对长篇事实测试集上的十三个语言模型进行了基准测试,涵盖四个模型系列(Gemini,GPT,Claude 和 PaLM-2),发现较大的语言模型通常可以实现更好的长篇事实性。LongFact,SAFE 和所有实验代码均可在此 https URL 中获取。