Dec, 2023

评估面向任务的对话系统:度量、构建和操作方式的系统性综述

TL;DR对任务导向型对话系统的评估方法进行广泛的综述,着重关注对话系统在实际应用中(例如客户服务)的应用;对以前工作中使用的构造和指标进行了概述;讨论了对话系统评估的挑战,并制定了未来研究议程;通过对四个数据库(ACL、ACM、IEEE 和 Web of Science)的系统综述,总共有 122 项研究进行了仔细分析,发现没有明确报告操作化情况,并希望未来的研究能对使用的构造进行更加批判性的操作化和规范化;最后给出了评估方面的建议和未解决问题的建议。