Mar, 2024

Syn-QA2: 用合成的 QA 数据集评估长尾问题中的错误假设

TL;DR通过评估一系列大型语言模型,我们的研究发现:(1) 问题回答中的错误假设具有挑战性,与以往研究结果相一致;(2) 与生成型问题回答相比,二值检测任务本身更具挑战性,可能是由于问题的语言结构;(3) 长尾问题的检测任务比自然存在的问题更具挑战性,突显了我们的合成数据集和生成方法的实用性。