BriefGPT.xyz
Jun, 2021
蓝度的层次,成功的风味:MultiWOZ案例研究
Shades of BLEU, Flavours of Success: The Case of MultiWOZ
HTML
PDF
Tomáš Nekvinda, Ondřej Dušek
TL;DR
这篇文章讨论了在使用 Bule 和 Inform & Success 评价指标时,常用于对话系统任务中的 MultiWOZ 数据集进行预处理和报告数据时的不一致性问题,并提供了标准评价脚本和基本建议。
Abstract
The
multiwoz
dataset (Budzianowski et al.,2018) is frequently used for
benchmarking
context-to-response abilities of task-oriented
dialogue syste
→