基于 LLM 的开放领域综合任务和知识助手与可编程策略
使用大型语言模型(LLMs)的上下文学习能力与业务逻辑的确定执行相结合,描述了一种构建面向任务的对话系统的系统。与主要用于行业的基于意图的 NLU 方法相比较,我们的实验表明,使用我们的系统开发聊天机器人所需的工作量明显较少,这些聊天机器人可以成功地进行复杂对话,并且我们的系统对于大规模任务导向的对话系统具有可扩展的有益特性。我们提供了我们的实现用于使用和进一步研究。
Feb, 2024
大型语言模型(LLM)助手是帮助用户浏览复杂多功能软件的潜在替代方法。我们通过与 16 名参与者的实验和后续访谈对 LLM 生成的软件指导进行了研究。我们比较了基准 LLM 助手与一种针对特定软件背景优化过的 LLM 助手 SoftAIBot,后者还提供了构建适当提示的指南。但令人惊讶的是,虽然 SoftAIBot 优于基准 LLM,但我们的结果显示,无论是否使用提示指南和领域上下文的集成,LLM 的使用和用户感知没有显著差异。大多数用户难以理解提示文本与 LLM 的回应之间的关联,并且通常逐字逐句地遵循 LLM 的建议,即使是错误的。这导致在使用 LLM 的软件任务建议时出现困难,降低了任务完成率。我们的详细分析还表明,用户对 LLM 的回应中的错误毫不知情,这表明他们在软件专业知识的缺乏和评估 LLM 助手的能力之间存在差距。随着设计领域特定 LLM 助手的推动日益增加,我们强调将可解释的、上下文感知的提示融入 LLM 中的重要性,以帮助用户理解基于提示的交互,识别偏见,并最大化 LLM 助手的效用。
Feb, 2024
我们引入了基于大型语言模型的信息获取代理系统 KwaiAgents,探索了其性能,并介绍了 Meta-Agent Tuning (MAT) 框架以确保在不同代理系统中优化的开源模型的表现。
Dec, 2023
本研究对基于大型语言模型的对话 UI 进行了研究,目标是实现上下文感知的工具,该工具可以自动利用开发人员的编程上下文来回答问题。我们为用户提供了一个 IDE 插件,允许用户使用高级请求查询后端(例如 OpenAI 的 GPT-3.5 和 GPT-4),我们进行了 32 名参与者的探索性用户研究,研究确认这种方法比 Web 搜索更有效地帮助理解代码,但效果的差异因参与者的经验水平而异。
Jul, 2023
通过使用大型语言模型(LLMs),本研究提出了一种新颖的基于 LLM 的虚拟助手,能够根据高级用户请求自动执行手机应用程序中的多步操作,该系统采用了一种端到端的解决方案来解析指令,推理目标并执行操作,实验证明该系统可在支付宝上以自然语言指令完成复杂的移动操作任务,展示了大型语言模型在实现自动助手完成实际任务方面的潜力。
Dec, 2023
为应对可扩展且智能的问答挑战,我们引入了一种创新解决方案,利用开源的大型语言模型(LLMs)来确保数据隐私。我们在一个入门计算机科学课程的 Piazza 数据集上进行了实验,并对一个小的子集进行了人工评估和自动 LLM 评估。我们初步发现通过多种建模技术能够将答案的质量提升 33%,而 RAG 是一个有影响力的改进。这项工作为开发适用于在线问答平台的智能 QA 助手 ChaTA 打下了基础。
Nov, 2023
使用大规模语言模型(LLM)代理人用户界面(LAUI)能够主动学习用户需求,提出新的交互方案,帮助用户发现新的工作流程,Flute X GPT 是一个具体的例子,利用 LLM 代理人、提示管理器和一个管笛教学的多模式软硬件系统来促进学习吹笛的复杂实时用户体验。
May, 2024
认知助手通过自然语言处理和大型语言模型的应用,在知识密集型任务中表现出更好的用户体验、工作负担、可用性和性能,建议进一步研究切换自然语言处理技术的潜力。
Feb, 2024
为了解决多样化的视觉任务,我们提出了一种名为 Plan, Execute, Inspect, and Learn(PEIL)的交织代码和语言推理方法的多模态 AI 助手 AssistGPT,该助手集成了大语言模型与各种工具,实现了最先进的性能。
Jun, 2023
本研究旨在通过知识图谱改进大型语言模型 (LLM) 的推理能力,以回答复杂问题。我们提出了一种自主的基于 LLM 的智能体框架 KG-Agent,它允许一个小型 LLM 主动作出决策,直到完成对知识图谱的推理过程。在 KG-Agent 中,我们整合了 LLM、多功能工具箱、基于知识图谱的执行器和知识存储器,并开发了一个迭代机制,自主选择工具,然后更新用于对知识图谱进行推理的记忆。为了保证有效性,我们利用程序语言对知识图谱上的多跳推理过程进行了规范,并合成了基于代码的指令数据集,以对基础 LLM 进行微调。大量实验证明,仅使用 10K 个样本对 LLaMA-7B 进行微调就能在领域内外的数据集上超过使用更大的 LLM 或更多数据的现有方法。我们的代码和数据将公开发布。
Feb, 2024