Apr, 2025

TD-EVAL:通过结合轮次级精确度与对话级比较重新审视任务导向对话评估

TL;DR本研究针对任务导向对话系统的评估方法不足的问题,提出了TD-EVAL框架,结合了细粒度的轮次级分析和整体对话级比较。研究表明,TD-EVAL能够有效识别传统评估方法难以捕捉的对话错误,并且在与人类评判的一致性上优于传统和基于大型语言模型的评估方法,为未来的对话系统评估提供了新范式。