该论文探讨了使用大型语言模型(LLMs)进行自动对话质量评估的方法,并在公共和专有数据集上尝试了各种配置。结果表明,更大的模型产生了更准确的对话标签;算法选择背景上下文示例优于随机选择;在输出最终标签之前,使用 “思维链”(CoT)推理和标签提取过程进行合理化,可以提高性能;精细调整的 LLMs 优于开箱即用的模型。研究结果表明,合适地调整和具有足够推理能力的 LLMs 可以用于自动对话评估。
Jun, 2024
本研究综述了基于大型语言模型 (LLMs) 的多轮对话系统的研究进展,包括适应 LLMs 到下游任务的方法,最近在多轮对话系统中的 LLM-based 开放领域对话 (ODD) 和任务导向对话 (TOD) 系统的进展,并且讨论了 LLMs 的发展和对多轮对话系统需求增加所引起的一些未来重点和最近的研究问题。
Feb, 2024
评估大语言模型在教育中的功效,特别是在口语学习领域,引入新的多选题数据集评估模型在理解和应用口语知识方面的表现,研究不同提示技术对模型性能的影响,发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解,但在解决现实世界问题的推理方面存在限制,并初步探讨了对话交流的发现。
Aug, 2023
使用大型语言模型(LLMs)的上下文学习能力与业务逻辑的确定执行相结合,描述了一种构建面向任务的对话系统的系统。与主要用于行业的基于意图的 NLU 方法相比较,我们的实验表明,使用我们的系统开发聊天机器人所需的工作量明显较少,这些聊天机器人可以成功地进行复杂对话,并且我们的系统对于大规模任务导向的对话系统具有可扩展的有益特性。我们提供了我们的实现用于使用和进一步研究。
通过创建示例池来代表每种语言模型较可靠回答的上下文类型,并利用经过微调的句子嵌入使上下文相似性接近对话状态相似性,本研究提出了一种新颖的 SLM/LLM 路由框架,旨在提高计算效率并增强任务性能,在对话状态跟踪任务中,相较于仅依赖 LLMs,所提出的路由框架显著提高性能,同时减少计算成本超过 50%。
Nov, 2023
使用 LLM(Large Pre-Trained Language Models)评估了在口语任务导向对话中的性能,结果表明 LLMs 默认情况下对口头噪音不够鲁棒,但在正确的口头 TOD 数据集上进行微调 / 训练可以获得更强的性能。
Jan, 2024
通过使用大型语言模型进行自我对话的方法可以改进对话质量并生成用于训练的自我对话数据集。
这篇论文研究 LLMs 在理解语境方面的能力,通过实验发现目前的 LLMs 模型在完成只需要二进制推断的对话时表现平庸,需要进一步研究如何使得 LLMs 适应更贴合人类意图的对话模式。
Oct, 2022
最近大型语言模型(LLMs)的出现吸引了相当多的注意力。本研究提出利用对话摘要任务评估对话理解性能,并从生成的摘要中推导出事实性问题作为对话理解的更灵活的测量方式。评估结果表明,大多数 LLMs 生成的摘要中有 27% 的事实不一致,即使最强模型 ChatGPT 也有 16% 的错误摘要,而对于更具挑战性的事实问题回答,所有评估的 LLMs 的平均准确率仅为 62.8%。详细分析表明,LLMs 对话理解能力中最令人挑战的问题仍然是对话的主题 / 客体的理解,为了刺激和提高 LLMs 对话理解能力,我们提出了一种通过自动构建多任务数据进行微调的范式,实验结果显示我们的方法在 DIAC-FactQA 上获得了 8.9% 的准确率提升。
通过使用强化学习进行交互式对话的目标导向任务,本研究提出利用大型语言模型生成可能的交互示例,再通过强化学习算法优化这些示例,以实现更优化的交互能力,从而在教学和偏好引导等不同目标导向对话任务中实现了最新的性能。