ACLMay, 2024

CHARP: 基于知识驱动的对话系统的会话历史意识探测

TL;DR在此研究中,我们深入研究了一个受关注的知识驱动对话基准基础上诚实性,FaithDial,我们发现 FaithDial 数据包含相当多的注释错误,可能导致模型完全忽略对话历史。因此,我们引入了 CHARP,一个用于改进对话模型中幻觉评估的诊断测试集。CHARP 不仅测量幻觉,还测量模型在对话任务上的遵守程度。我们的广泛分析显示,模型主要在 CHARP 上表现不佳,原因是它们无法有效地关注和推理对话历史。此外,FaithDial 的评估方法未能捕捉到这些缺点,忽略了对话历史。我们的发现表明,在知识驱动对话的数据集创建和幻觉评估方面仍有很大的改进空间,而 CHARP 可以作为监督该特定研究领域进展的工具。CHARP 可以通过此 https URL 公开获取。