面向任务导向会话系统中基于LLM的API参数填充框架

Jun, 2024

面向任务导向会话系统中基于LLM的API参数填充框架

LLM-based Frameworks for API Argument Filling in Task-Oriented Conversational Systems

Jisoo Mok, Mohammad Kachuee, Shuyang Dai, Shayan Ray, Tara Taghavi...

TL;DR应用大型语言模型（LLMs）进行API参数填充任务的研究表明，LLMs需要额外的基准过程以成功执行参数填充；提出的训练和提示框架显著改善了LLMs的参数填充性能，为构建自动化参数填充框架开辟了新的途径。

Abstract

task-orientated conversational agents interact with users and assist them via leveraging external APIs. A typical task-oriented conversational system can be broken down into three phases: external api selection,

发现论文，激发创造

利用大型语言模型实现移动界面的交互式对话功能

本文旨在通过预训练大型语言模型及相应的提示技术，实现轻量级、可通用的基于自然语言的手机交互，解决开发人员需要针对每项具体任务创建独立数据集和模型的成本和劳动力问题。研究表明，针对移动UI设计的四项重要建模任务中，我们的方法在不需要专用数据集和训练的情况下，取得了令人满意的竞争成绩。

Sep, 2022

LLM对于面向任务的对话系统是否足够？

本研究旨在研究大型语言模型在多轮任务和与外部数据库交互方面的能力，发现在显式信仰状态跟踪方面，它们表现不如专门的任务特定模型，但是如果给出正确的插槽值，它们表现出将对话引导到成功结局的能力，并且在有真实信仰状态分布或域内示例的情况下，这种能力得到了改进。

Apr, 2023

针对积极对话的大型语言模型的提示和评估：澄清、目标导向和非协作

本篇论文中，我们提出了一种称之为Proactive Chain-of-Thought推导方案，它能够增强LLMs的目标规划能力，以解决其在主动对话方面的不足，具体涉及三个方面：澄清、目标引导和非协作对话。我们还探讨了相应的实证结果，以促进未来在基于LLM的主动对话系统方面的研究。

May, 2023

对话中的推理：通过大型语言模型的模拟解决主观任务

通过对话模拟,我们提出了RiC (Reasoning in Conversation)方法,用于解决主观任务,并提供了实验证明RiC可以显著改善大型语言模型在此类任务中的表现。

Feb, 2024

正式辩证推理是否可以提升LLMs的性能？

介绍了一种计算论证语义引擎（MQArgEng）和初步研究，评估引入计算论证语义对大型语言模型性能的影响。实验结果表明MQArgEng在大部分考察的主题类别中提供了适度的性能提升，呈现出潜力并值得进一步研究。

May, 2024

利用大型语言模型进行对话代理的规划

基于大型语言模型的基于规划的对话代理框架（PCA）能通过离线制定核心和必要的SOP，实现在线规划最佳行动路径以实现对话的可控性和前瞻性。实验证明，经过细调的LLMs在PCA-D上可以显著提高性能并具备广泛的泛化能力，而PCA-M则在对话的可控性、前瞻性、任务成功率和整体逻辑连贯性方面优于其他基准，并适用于工业对话场景。

Jul, 2024

基于LLM的开放领域综合任务和知识助手与可编程策略

KITA是一种可编程框架，用于创建处理复杂用户交互的面向任务的对话代理，通过其声明式范式可提供可靠的有根据的响应和可控的代理策略。

Jul, 2024

ClarQ-LLM：任务导向对话中模型澄清和请求信息的基准

本研究提出了ClarQ-LLM，这是一个评估框架，旨在填补当前任务导向对话中对模型澄清能力的评估空白。该框架包含31种不同任务类型的对话场景，允许信息寻求者与信息提供者进行互动，显著提高了对模型在对话中询问澄清问题能力的测试。最重要的发现是，现有的寻求者代理在测试中表现不佳，仅实现60.05%的成功率，表明ClarQ-LLM为未来研究提供了巨大的挑战。

Sep, 2024

ClarQ-LLM：一个用于评估模型在任务导向对话中请求和澄清信息的基准

本研究针对任务导向对话中缺乏澄清问题的评估标准进行了探讨，提出了ClarQ-LLM评估框架。该框架包含了多种任务类型和对话场景，显著提升了对话代理在信息收集任务中的表现评估，研究结果显示，现有代理在此新基准下的成功率仍有待提高，对未来研究具有重要影响。

Sep, 2024

超越提示：大型语言模型的动态对话基准测试

本研究提出了一种动态基准测试系统，用于评估对话智能体的性能，重点关注长期记忆、持续学习和信息整合能力。研究发现，尽管大型语言模型在单任务交互中表现良好，但在多个任务交替进行时却面临挑战，这揭示了当前基准测试未能捕捉到的自然互动中的更多挑战。

Sep, 2024