Sep, 2024

ClarQ-LLM:一个用于评估模型在任务导向对话中请求和澄清信息的基准

TL;DR本研究针对任务导向对话中缺乏澄清问题的评估标准进行了探讨,提出了ClarQ-LLM评估框架。该框架包含了多种任务类型和对话场景,显著提升了对话代理在信息收集任务中的表现评估,研究结果显示,现有代理在此新基准下的成功率仍有待提高,对未来研究具有重要影响。