面向任务的查询基准 (ToQB)
提出了一个针对家庭服务实体代理的任务规划性能自动量化基准系统,对大型语言模型和提示进行了广泛实验,并探索了基线任务规划器的多个改进,预计该基准工具将加快语言导向的任务规划器的发展。
Feb, 2024
最近,大型语言模型的不断进展引发了任务自动化的火花,其将用户指令描述的复杂任务分解为子任务,并调用外部工具执行它们,在自主代理中起着核心作用。然而,缺乏一个系统的和标准化的基准来促进 LLM 在任务自动化中的发展。为此,我们引入了 TaskBench 来评估 LLM 在任务自动化中的能力。具体而言,任务自动化可以分为三个关键阶段:任务分解,工具调用和参数预测以实现用户意图。这种复杂性使得数据收集和评估与常见的自然语言处理任务相比更具挑战性。为了生成高质量的评估数据集,我们引入了工具图的概念来表示用户意图中的分解任务,并采用反指导方法来模拟用户指令和注释。此外,我们提出了 TaskEval 来从任务分解、工具调用和参数预测等不同方面评估 LLM 的能力。实验结果表明,TaskBench 能够有效地反映 LLM 在任务自动化中的能力。借助自动化数据构建和人工验证的综合,TaskBench 相对于人工评估具有高一致性,可以作为 LLM-based 自主代理的全面而可靠的基准。
Nov, 2023
本文对大型语言模型(LLMs)在 Text-to-SQL 任务中的应用进行了研究,提出了一种新的集成解决方案 DAIL-SQL,并通过实验证明了其在 Spider 排行榜上取得了 86.6% 的执行准确率。研究重点在于提示工程中的令牌效率和任务特定的监督微调。通过探索开源 LLMs 在 Text-to-SQL 中的潜力,以及任务特定的监督微调的优势和劣势,希望能够对 LLMs 在 Text-to-SQL 领域提供更深入的了解,并激发进一步的研究和广泛应用。
Aug, 2023
通过构建新数据集和提出五个评估任务,全面评估不同方法在文本到 SQL 过程中的性能,揭示了大型语言模型之间的性能差异,并提出了针对每个任务的最佳上下文学习解决方案,为改进基于大型语言模型的文本到 SQL 系统的开发提供了有价值的见解。
Mar, 2024
我们介绍了 TeleQnA,这是首个用于评估大型语言模型(LLMs)在电信领域知识的基准数据集。该数据集包含 10,000 个问题和答案,来源于多个标准和研究文章。该论文阐述了创建该数据集的自动问题生成框架,并说明了在不同阶段集成人工输入以保证问题质量。通过使用提供的数据集,对 GPT-3.5 和 GPT-4 等 LLMs 的能力进行了评估。结果表明,这些模型在处理复杂的标准相关问题方面存在困难,但在解答一般的电信相关问题时表现出了出色的能力。此外,我们的结果展示了将电信知识背景纳入模型显著提高了其性能,从而揭示了电信基础模型的需求。最后,将数据集分享给了活跃在电信领域的专业人士,并将他们的表现与 LLMs 进行了基准测试。研究结果表明,在电信知识方面,LLMs 可以与活跃专业人士的表现相媲美,这归功于它们处理大量信息的能力,突显了 LLMs 在该领域的潜力。该数据集已在 GitHub 上公开获取。
Oct, 2023
大语言模型在解决任务时常常缺乏与用户或第三方进行追问的能力,导致其难以生成能够促进任务成功的问题。通过定义及框架,本研究提出了自然语言任务导向的追问方法,并通过自监督学习生成了追问数据集,实验证明当前的零样本模型在提问中相较于人工标注者存在提取有用信息的困难,为训练和评估更好的追问模型提供了机遇。
Oct, 2023
本文提出了如何在没有知识库查询注释的情况下,使用强化学习和管道方法来训练任务导向型对话系统,并解决了相关问题,并通过分析强化学习算法的相关性和差异,突出了训练任务导向型对话系统的挑战。
Apr, 2020
使用大型语言模型(LLMs)的上下文学习能力与业务逻辑的确定执行相结合,描述了一种构建面向任务的对话系统的系统。与主要用于行业的基于意图的 NLU 方法相比较,我们的实验表明,使用我们的系统开发聊天机器人所需的工作量明显较少,这些聊天机器人可以成功地进行复杂对话,并且我们的系统对于大规模任务导向的对话系统具有可扩展的有益特性。我们提供了我们的实现用于使用和进一步研究。
Feb, 2024
为了推动自动化任务导向对话系统的评估,本研究提出了一种基于预训练语言模型的新型用户模拟器,并通过上下文学习来生成具有鲁棒性和语言多样性的输出,以模拟人类对话行为。通过与现有对话系统交互,并收集人机交互数据集,验证了该用户模拟器在单一意图对话目标方面的表现与人类相似。
Sep, 2023