LLM 任务干扰:关于任务切换对对话历史的影响的初步研究
本研究旨在研究大型语言模型在多轮任务和与外部数据库交互方面的能力,发现在显式信仰状态跟踪方面,它们表现不如专门的任务特定模型,但是如果给出正确的插槽值,它们表现出将对话引导到成功结局的能力,并且在有真实信仰状态分布或域内示例的情况下,这种能力得到了改进。
Apr, 2023
大型语言模型对社会产生了巨大影响,但黑盒子情景下,用户只能在当前交互中明确提及来添加或修改内部知识,而不具备修改模型内部知识的能力。本文提出了一个研究,展示了模型在不同上下文中持续流动的信息之间可能出现干扰,从而忘记先前学到的知识,导致模型性能下降,并提出了一个基于 bAbI 数据集的评估基准。
Sep, 2023
使用大型语言模型(LLMs)的上下文学习能力与业务逻辑的确定执行相结合,描述了一种构建面向任务的对话系统的系统。与主要用于行业的基于意图的 NLU 方法相比较,我们的实验表明,使用我们的系统开发聊天机器人所需的工作量明显较少,这些聊天机器人可以成功地进行复杂对话,并且我们的系统对于大规模任务导向的对话系统具有可扩展的有益特性。我们提供了我们的实现用于使用和进一步研究。
Feb, 2024
大型语言模型(LLM)助手是帮助用户浏览复杂多功能软件的潜在替代方法。我们通过与 16 名参与者的实验和后续访谈对 LLM 生成的软件指导进行了研究。我们比较了基准 LLM 助手与一种针对特定软件背景优化过的 LLM 助手 SoftAIBot,后者还提供了构建适当提示的指南。但令人惊讶的是,虽然 SoftAIBot 优于基准 LLM,但我们的结果显示,无论是否使用提示指南和领域上下文的集成,LLM 的使用和用户感知没有显著差异。大多数用户难以理解提示文本与 LLM 的回应之间的关联,并且通常逐字逐句地遵循 LLM 的建议,即使是错误的。这导致在使用 LLM 的软件任务建议时出现困难,降低了任务完成率。我们的详细分析还表明,用户对 LLM 的回应中的错误毫不知情,这表明他们在软件专业知识的缺乏和评估 LLM 助手的能力之间存在差距。随着设计领域特定 LLM 助手的推动日益增加,我们强调将可解释的、上下文感知的提示融入 LLM 中的重要性,以帮助用户理解基于提示的交互,识别偏见,并最大化 LLM 助手的效用。
Feb, 2024
本文提出了一种基于交替任务导向的社交对话框架,该框架使用强化学习算法训练策略,以维持长时间的会话连贯性和一致性,使系统能够在任务和非任务内容之间实现平滑的过渡。实验表明,将社交对话内容与任务对话相结合的系统比纯任务导向的系统具有更好的任务成功率和更高的用户参与度。
Mar, 2017
通过与行业专业人员进行的被试用户研究,我们发现装备了 LLM 以利用插入扩展交互模式、促进轮流讲话并利用调试工作流的增强型对话式 AI 助手 Robin,降低了对话障碍,实现了有效的故障定位,并提高了 5 倍的错误解决率。
Feb, 2024
本文旨在通过预训练大型语言模型及相应的提示技术,实现轻量级、可通用的基于自然语言的手机交互,解决开发人员需要针对每项具体任务创建独立数据集和模型的成本和劳动力问题。研究表明,针对移动 UI 设计的四项重要建模任务中,我们的方法在不需要专用数据集和训练的情况下,取得了令人满意的竞争成绩。
Sep, 2022
这篇论文研究 LLMs 在理解语境方面的能力,通过实验发现目前的 LLMs 模型在完成只需要二进制推断的对话时表现平庸,需要进一步研究如何使得 LLMs 适应更贴合人类意图的对话模式。
Oct, 2022
通过扫描和分析语言模型的激活状态,我们提出了两种探测方法,发现仅使用线性分类器即可在分布外测试集上准确检测出指令漂移,且其泛化能力出乎意料地适用于未知任务领域,如提示注入、越狱和恶意指令。我们的方法无需对语言模型进行任何修改或生成文本,最大程度地实现了可部署性和成本效益,并避免了对不可靠模型输出的依赖。为了促进基于激活状态的任务检查、解码和可解释性的进一步研究,我们将发布我们的大规模任务跟踪工具包,其中包括超过 50 万个实例的数据集,四种 SoTA 语言模型的表示以及检查工具。
Jun, 2024