ACLApr, 2021

对话系统归因的评估: BEGIN 基准测试

TL;DR该研究提出了用于评估基于知识的对话系统质量的 BEGIN 基准,该基准由 12k 条对话数据组成,评估了 8 个评估指标,结果发现这些指标过度依赖并不可靠,在长文本下表现更差,说明需要更加精细和强健的评估指标。