本文旨在通过预训练大型语言模型及相应的提示技术,实现轻量级、可通用的基于自然语言的手机交互,解决开发人员需要针对每项具体任务创建独立数据集和模型的成本和劳动力问题。研究表明,针对移动UI设计的四项重要建模任务中,我们的方法在不需要专用数据集和训练的情况下,取得了令人满意的竞争成绩。
Sep, 2022
本研究旨在研究大型语言模型在多轮任务和与外部数据库交互方面的能力,发现在显式信仰状态跟踪方面,它们表现不如专门的任务特定模型,但是如果给出正确的插槽值,它们表现出将对话引导到成功结局的能力,并且在有真实信仰状态分布或域内示例的情况下,这种能力得到了改进。
Apr, 2023
本篇论文中,我们提出了一种称之为Proactive Chain-of-Thought推导方案,它能够增强LLMs的目标规划能力,以解决其在主动对话方面的不足,具体涉及三个方面:澄清、目标引导和非协作对话。我们还探讨了相应的实证结果,以促进未来在基于LLM的主动对话系统方面的研究。
May, 2023
通过对话模拟,我们提出了RiC (Reasoning in Conversation)方法,用于解决主观任务,并提供了实验证明RiC可以显著改善大型语言模型在此类任务中的表现。
Feb, 2024
介绍了一种计算论证语义引擎(MQArgEng)和初步研究,评估引入计算论证语义对大型语言模型性能的影响。实验结果表明MQArgEng在大部分考察的主题类别中提供了适度的性能提升,呈现出潜力并值得进一步研究。
May, 2024
基于大型语言模型的基于规划的对话代理框架(PCA)能通过离线制定核心和必要的SOP,实现在线规划最佳行动路径以实现对话的可控性和前瞻性。实验证明,经过细调的LLMs在PCA-D上可以显著提高性能并具备广泛的泛化能力,而PCA-M则在对话的可控性、前瞻性、任务成功率和整体逻辑连贯性方面优于其他基准,并适用于工业对话场景。
Jul, 2024
KITA是一种可编程框架,用于创建处理复杂用户交互的面向任务的对话代理,通过其声明式范式可提供可靠的有根据的响应和可控的代理策略。
本研究提出了ClarQ-LLM,这是一个评估框架,旨在填补当前任务导向对话中对模型澄清能力的评估空白。该框架包含31种不同任务类型的对话场景,允许信息寻求者与信息提供者进行互动,显著提高了对模型在对话中询问澄清问题能力的测试。最重要的发现是,现有的寻求者代理在测试中表现不佳,仅实现60.05%的成功率,表明ClarQ-LLM为未来研究提供了巨大的挑战。
Sep, 2024
本研究针对任务导向对话中缺乏澄清问题的评估标准进行了探讨,提出了ClarQ-LLM评估框架。该框架包含了多种任务类型和对话场景,显著提升了对话代理在信息收集任务中的表现评估,研究结果显示,现有代理在此新基准下的成功率仍有待提高,对未来研究具有重要影响。
本研究提出了一种动态基准测试系统,用于评估对话智能体的性能,重点关注长期记忆、持续学习和信息整合能力。研究发现,尽管大型语言模型在单任务交互中表现良好,但在多个任务交替进行时却面临挑战,这揭示了当前基准测试未能捕捉到的自然互动中的更多挑战。