Aug, 2024

辩论问答:评估可辩知识上的问答能力

TL;DR本研究解决了传统问答基准在评估可辩问题的能力时存在的不足,提出了DebateQA数据集,包含2941个可辩问题及多种人类标注的部分答案,反映各种观点。通过设计“观点多样性”和“争议意识”两个指标,我们评估了12个流行大型语言模型的表现,发现尽管这些模型能识别出可辩问题,但提供全面及多样化观点的能力差异显著。