Dec, 2021

CRASS: 用于测试大型语言模型反事实推理的新型数据集和基准

TL;DR介绍了使用 “CRASS” 数据集和基于问题的反事实推理条件作为一种新颖且强大的评估大型语言模型的工具的基准,其中包括与验证过的人类基准的得分支持。通过对六种最先进的模型进行测试,结果表明它对这些模型提出了有效挑战,并为它们的改进开辟了相当大的空间。