EMNLPOct, 2023

QUDEVAL: 问题讨论话语解析的评估

TL;DR在本文中,我们介绍了第一个自动评估 QUD 解析的框架,将 QUD 的理论约束转化为具体的协议。我们提出了 QUDeval,一个细粒度评估的 QUD 问题数据集,其中包含来自经过微调的系统和 LLMs 生成的 2,190 个 QUD 问题。使用 QUDeval,我们发现满足 QUD 的所有约束对于现代 LLMs 仍然具有挑战性,并且现有的评估指标很难近似解析器的质量。令人鼓舞的是,由人工撰写的 QUD 问题在我们的人类评估者中得到了很高的评分,这表明在语言建模方面取得进一步的进展可以改善 QUD 解析和评估。