SIGIRApr, 2024

重新思考对话系统的评估:用户反馈对众包工作者和 LLM 的影响

TL;DR该研究关注用户反馈在评估面向任务型对话系统时的作用,研究发现用户反馈会影响系统评估结果,对于众包工作者而言,用户反馈对有用性和趣味性的评估更具影响力,而对大型语言模型来说,则更看重趣味性和相关性的评估,用户反馈也有助于提高众包工作者在模糊或复杂用户需求下的一致性,这些发现强调了用户反馈在优化系统评估方面的重要性,并提出了将自动化反馈整合到未来研究中的潜力。