May, 2023

如何选择聊天机器人:用于对话指标评估的大规模多系统多参考数据集

TL;DR发布 MMSMR 数据集以促进关于对话度量和评估的未来研究。在单个参考评估集基础上创建了 8 个参考对话数据集,训练了 1750 个系统,并在 Novel 数据集和 DailyDialog 数据集上评估了各个系统的性能指标和模型超参数。