ClarQ-LLM：一个用于评估模型在任务导向对话中请求和澄清信息的基准

Sep, 2024

ClarQ-LLM：一个用于评估模型在任务导向对话中请求和澄清信息的基准

ClarQ-LLM: A Benchmark for Models Clarifying and Requesting Information in Task-Oriented Dialog

Yujian Gan, Changling Li, Jinxia Xie, Luou Wen, Matthew Purver...

TL;DR本研究针对任务导向对话中缺乏澄清问题的评估标准进行了探讨，提出了ClarQ-LLM评估框架。该框架包含了多种任务类型和对话场景，显著提升了对话代理在信息收集任务中的表现评估，研究结果显示，现有代理在此新基准下的成功率仍有待提高，对未来研究具有重要影响。

Abstract

We introduce ClarQ-LLM, an Evaluation framework consisting of bilingual English-Chinese conversation tasks, Conversational agents and evaluation metrics, designed to serve as a strong →

发现论文，激发创造

LLM对于面向任务的对话系统是否足够？

本研究旨在研究大型语言模型在多轮任务和与外部数据库交互方面的能力，发现在显式信仰状态跟踪方面，它们表现不如专门的任务特定模型，但是如果给出正确的插槽值，它们表现出将对话引导到成功结局的能力，并且在有真实信仰状态分布或域内示例的情况下，这种能力得到了改进。

Apr, 2023

针对积极对话的大型语言模型的提示和评估：澄清、目标导向和非协作

本篇论文中，我们提出了一种称之为Proactive Chain-of-Thought推导方案，它能够增强LLMs的目标规划能力，以解决其在主动对话方面的不足，具体涉及三个方面：澄清、目标引导和非协作对话。我们还探讨了相应的实证结果，以促进未来在基于LLM的主动对话系统方面的研究。

May, 2023

面向任务导向对话的信息寻求澄清问题研究

本文提出了一种名为MAS2S的多注意Seq2Seq网络，用于针对任务导向的信息检索中用户的信息需求和个人信息进行提问，扩展了现有数据集并在其上进行了实验，结果表明MAS2S在澄清问题生成和回答预测方面优于基线。

May, 2023

CLAMBER: 在大型语言模型中识别和澄清模糊信息需求的基准

通过引入CLAMBER，本研究构建了一个评估大型语言模型（LLMs）的基准，发现当前LLMs在识别和澄清用户不确定查询方面的实用性有限，同时提出进一步研究如何提高LLMs的质量，解决冲突并增加可信度的指导。

May, 2024

面向任务的查询基准 (ToQB)

利用现有的任务导向对话数据集和大型语言模型（LLM）服务，我们提出了一种高效生成任务导向查询基准（ToQB）的新方法，并演示了如何自定义LLM提示，并表征生成的任务导向查询。

Jun, 2024

利用LLMs进行对话质量测量

该论文探讨了使用大型语言模型（LLMs）进行自动对话质量评估的方法，并在公共和专有数据集上尝试了各种配置。结果表明，更大的模型产生了更准确的对话标签；算法选择背景上下文示例优于随机选择；在输出最终标签之前，使用“思维链”（CoT）推理和标签提取过程进行合理化，可以提高性能；精细调整的LLMs优于开箱即用的模型。研究结果表明，合适地调整和具有足够推理能力的LLMs可以用于自动对话评估。

Jun, 2024

关于开放领域对话评估的LLMs基准测试

大型语言模型已在自然语言处理各个任务中显示出卓越的能力。然而，在自动开放领域对话评估方面，现有的评估基准往往依赖于过时的数据集，评估流畅度和相关性等方面，无法充分捕捉现代聊天机器人模型的能力和限制。本论文对当前的评估基准进行了批判性研究，强调使用旧的响应生成器和质量方面未能准确反映现代聊天机器人的能力。对近期LLM生成的数据集(SODA)进行的小型注释实验揭示了GPT-4等LLM评估者在检测当前LLM聊天机器人生成的对话中的实际问题方面存在困难。

Jul, 2024

面向任务导向会话系统中基于LLM的API参数填充框架

应用大型语言模型（LLMs）进行API参数填充任务的研究表明，LLMs需要额外的基准过程以成功执行参数填充；提出的训练和提示框架显著改善了LLMs的参数填充性能，为构建自动化参数填充框架开辟了新的途径。

Jun, 2024

ClarQ-LLM：任务导向对话中模型澄清和请求信息的基准

本研究提出了ClarQ-LLM，这是一个评估框架，旨在填补当前任务导向对话中对模型澄清能力的评估空白。该框架包含31种不同任务类型的对话场景，允许信息寻求者与信息提供者进行互动，显著提高了对模型在对话中询问澄清问题能力的测试。最重要的发现是，现有的寻求者代理在测试中表现不佳，仅实现60.05%的成功率，表明ClarQ-LLM为未来研究提供了巨大的挑战。

Sep, 2024

超越提示：大型语言模型的动态对话基准测试

本研究提出了一种动态基准测试系统，用于评估对话智能体的性能，重点关注长期记忆、持续学习和信息整合能力。研究发现，尽管大型语言模型在单任务交互中表现良好，但在多个任务交替进行时却面临挑战，这揭示了当前基准测试未能捕捉到的自然互动中的更多挑战。

Sep, 2024