Dec, 2020

RADDLE:一个稳健的面向任务型对话系统的评估基准与分析平台

TL;DR为了最大限度地提高面向任务的对话系统的实用性,该论文引入了 RADDLE 基准,该基准是一个语料库和工具的集合,用于评估模型在不同领域的性能。通过包括训练数据有限的任务,RADDLE 旨在鼓励具有强大泛化能力的模型。通过现有模型的评估,发现它们在鲁棒性评估方面不尽如人意,这提示了未来的改进机会。