Dec, 2023

BaRDa:一份将事实准确性和推理能力分开的信念与推理数据集

TL;DR这篇论文描述了一个名为 BaRDa 的数据集,通过利用和扩展人工注释的 “蕴涵树” 来区分现代语言模型的 “事实准确性” 和 “推理能力”,其中包括真实和虚假事实的混合使用,尤其包括反事实例子,以避免信念偏见(也称为 “内容效应”); 在四个 GPT 系列模型上测试后发现,模型的事实准确性得分分别为 74.1/80.6/82.6/87.1,推理准确性得分分别为 63.1/78.0/71.8/79.2,这表明模型在事实准确性和蕴涵推理方面有了明显进步,而该数据集提供了一个更清晰地区分和量化这两个概念的新基准。