ProcessTBench:用于流程挖掘的LLM计划生成数据集
最近,大型语言模型的不断进展引发了任务自动化的火花,其将用户指令描述的复杂任务分解为子任务,并调用外部工具执行它们,在自主代理中起着核心作用。然而,缺乏一个系统的和标准化的基准来促进LLM在任务自动化中的发展。为此,我们引入了TaskBench来评估LLM在任务自动化中的能力。具体而言,任务自动化可以分为三个关键阶段:任务分解,工具调用和参数预测以实现用户意图。这种复杂性使得数据收集和评估与常见的自然语言处理任务相比更具挑战性。为了生成高质量的评估数据集,我们引入了工具图的概念来表示用户意图中的分解任务,并采用反指导方法来模拟用户指令和注释。此外,我们提出了TaskEval来从任务分解、工具调用和参数预测等不同方面评估LLM的能力。实验结果表明,TaskBench能够有效地反映LLM在任务自动化中的能力。借助自动化数据构建和人工验证的综合,TaskBench相对于人工评估具有高一致性,可以作为LLM-based自主代理的全面而可靠的基准。
Nov, 2023
最近,利用大型语言模型(LLMs)进行工具学习已经成为增强LLMs能力以解决高度复杂问题的一种有前景的范式。尽管这一领域受到越来越多关注和快速发展,但现有文献仍然零散且缺乏系统组织,对于新手来说存在进入障碍。本文通过对现有关于LLMs工具学习的文献进行综述,旨在探讨为什么工具学习有益以及如何实现工具学习,从而全面了解LLMs工具学习。首先,我们通过从六个具体方面回顾工具整合的益处以及工具学习范式的内在益处来探讨“为什么”。在“如何”方面,我们根据工具学习工作流程的四个关键阶段(任务规划、工具选择、工具调用和响应生成)系统综述了现有文献。此外,我们还详细总结了现有的基准和评估方法,并根据其与不同阶段的相关性进行分类。最后,我们讨论了当前的挑战,并概述了潜在的未来方向,旨在鼓励研究人员和工业开发者进一步探索这一新兴而有前景的领域。
May, 2024
基于大规模语言模型的代码生成领域的综述,介绍了对LLMs在代码生成领域的最新进展、数据处理、性能评估、实际应用,对学术与实践之间的差距进行了分析,提出了关键挑战和机遇,并提供了一个资源网站以记录和传播该领域的最新进展。
Jun, 2024
通过Tool-Planner框架,基于API函数将工具分组成一个工具包,允许大型语言模型在不同工具包之间实现计划,解决了冗余错误校正和多工具之间正确计划的挑战,实验表明该方法在不同数据集上具有很高的通过率和胜率,并优化了GPT-4和Claude 3等模型中工具学习的计划方案,展示了我们方法的潜力。
Jun, 2024
通过对大型语言模型(LLMs)进行理解和监督微调,本研究详细探讨了LLMs在过程挖掘任务中的实用性和应用价值,包括语义异常检测和下一活动预测等领域,并提供了大量基准数据集进行评估实验。结果表明,在给定少量示例和上下文环境的情况下,LLMs在处理复杂过程挖掘任务时表现不佳,但经过微调后,在性能上明显优于较小的编码器模型。
Jul, 2024
提出了PM-LLM-Benchmark作为第一个全面的过程挖掘领域知识和不同实现策略的PM综合基准。我们观察到大多数所考虑的大语言模型可以以令人满意的水平执行一些过程挖掘任务,但面向边缘设备的小型模型仍然不足。我们得出结论,虽然提出的基准对于找到适合过程挖掘任务的大语言模型很有用,但需要进一步研究以克服评估偏差,并对竞争性大语言模型进行更全面的排名。
Jul, 2024
本研究解决了在商业流程管理领域中,基于规则和传统机器学习方法的信息提取不足的问题,探讨了大型语言模型(LLM)在文本过程描述中的应用潜力。通过一种创新的提示策略,我们展示了LLM在提取活动、参与者及其关系方面表现优于现有的机器学习方法,F1分数在三个不同数据集上实现了最高8%的提升,表明该方法具有广泛的适用性及显著的影响力。
Jul, 2024
本研究针对当前大型语言模型(LLMs)在复杂场景中的推理能力不足的问题,提出一种基于人工智能代理工作流(AgWf)的方法,以提升过程挖掘的有效性。通过将复杂任务分解为简单工作流并结合确定性工具与LLMs的领域知识,该研究展示了AgWf的多种实施方式与过程挖掘相关的案例,具有重要的应用潜力。
Aug, 2024
本研究的核心问题是现有数据集缺乏足够的复杂性,无法有效评估大型语言模型(LLMs)在复杂工具使用场景下的表现。我们提出的ProcessTBench数据集,扩展自TaskBench,专门设计用于在过程挖掘框架中评估LLMs,显著提升了模型在多语言、同义句查询和并行动作管理方面的评测能力。此数据集的发布将推动LLMs在真实应用中的发展与研究。
Sep, 2024