蓝度的层次，成功的风味：MultiWOZ案例研究

Jun, 2021

Shades of BLEU, Flavours of Success: The Case of MultiWOZ

Tomáš Nekvinda, Ondřej Dušek

TL;DR这篇文章讨论了在使用 Bule 和 Inform & Success 评价指标时，常用于对话系统任务中的 MultiWOZ 数据集进行预处理和报告数据时的不一致性问题，并提供了标准评价脚本和基本建议。

Abstract

The multiwoz dataset (Budzianowski et al.,2018) is frequently used for benchmarking context-to-response abilities of task-oriented dialogue syste