PM-LLM-Benchmark: 评估大型语言模型在过程挖掘任务上的表现

Jul, 2024

PM-LLM-Benchmark: 评估大型语言模型在过程挖掘任务上的表现

PM-LLM-Benchmark: Evaluating Large Language Models on Process Mining Tasks

Alessandro Berti, Humam Kourani, Wil M. P. van der Aalst

TL;DR提出了PM-LLM-Benchmark作为第一个全面的过程挖掘领域知识和不同实现策略的PM综合基准。我们观察到大多数所考虑的大语言模型可以以令人满意的水平执行一些过程挖掘任务，但面向边缘设备的小型模型仍然不足。我们得出结论，虽然提出的基准对于找到适合过程挖掘任务的大语言模型很有用，但需要进一步研究以克服评估偏差，并对竞争性大语言模型进行更全面的排名。

Abstract

large language models (LLMs) have the potential to semi-automate some process mining (PM) analyses. While commercial models are already adequate for many analytics tasks, the competitive level of open-source LLMs

发现论文，激发创造

闲聊还是深层讨论：为过程挖掘设计提示工程

该研究主要探讨了大型语言模型在过程挖掘中的应用，以增强对话代理的能力，并改进了现有解决方案的许多问题，提高了可访问性和代理性能。通过实验验证了该框架在公共问题和数据集上的效果，为进一步探索大型语言模型在过程挖掘中的作用奠定了基础，并提出了改进大型语言模型记忆、实时用户测试和研究多样化数据集的建议。

Jul, 2023

tinyBenchmarks: 用较少的样例评估LLM

通过研究LLM在各种关键基准测试中的表现，我们探索了减少LLM性能评估所需评估次数的策略，并发布了评估工具和微型基准测试，证明这些工具和测试足以可靠高效地复现原始评估结果。

Feb, 2024

代码生成评估的基准和指标：一项关键性回顾

对大型语言模型在编程任务中的评估工作进行了关键综述，着重讨论了现有工具的评估中使用的基准和度量标准，并提出了进一步研究的方向。

Jun, 2024

评估LLMs解决语义感知过程挖掘任务的能力

通过对大型语言模型（LLMs）进行理解和监督微调，本研究详细探讨了LLMs在过程挖掘任务中的实用性和应用价值，包括语义异常检测和下一活动预测等领域，并提供了大量基准数据集进行评估实验。结果表明，在给定少量示例和上下文环境的情况下，LLMs在处理复杂过程挖掘任务时表现不佳，但经过微调后，在性能上明显优于较小的编码器模型。

Jul, 2024

超越基准测试：大型语言模型评估和评估的新范式

我们提出了一种新的大语言模型（LLMs）测评范式——Benchmarking-Evaluation-Assessment，将LLMs的评估位置从“考试室”转移到“医院”，通过对LLMs进行“体检”，利用特定任务解决作为评估内容，深入分析LLMs存在的问题，并为优化提供建议。

Jul, 2024

一种通用提示策略，用于利用大型语言模型从自然语言文本中提取过程模型信息

本研究解决了在商业流程管理领域中，基于规则和传统机器学习方法的信息提取不足的问题，探讨了大型语言模型（LLM）在文本过程描述中的应用潜力。通过一种创新的提示策略，我们展示了LLM在提取活动、参与者及其关系方面表现优于现有的机器学习方法，F1分数在三个不同数据集上实现了最高8%的提升，表明该方法具有广泛的适用性及显著的影响力。

Jul, 2024

在基于人工智能代理时代重新思考过程挖掘

本研究针对当前大型语言模型（LLMs）在复杂场景中的推理能力不足的问题，提出一种基于人工智能代理工作流（AgWf）的方法，以提升过程挖掘的有效性。通过将复杂任务分解为简单工作流并结合确定性工具与LLMs的领域知识，该研究展示了AgWf的多种实施方式与过程挖掘相关的案例，具有重要的应用潜力。

Aug, 2024

利用大型语言模型弥合领域知识与过程发现之间的差距

本研究针对自动化过程发现方法中忽视领域知识的问题，提出了一种新的方法，通过大型语言模型直接将领域知识整合进过程发现。研究结果表明，这种方法能够有效地构建与领域知识和实际过程执行一致的过程模型，显著提升过程发现方法的有效性和实用性。

Aug, 2024

ProcessTBench：针对过程挖掘的LLM计划生成数据集

本研究的核心问题是现有数据集缺乏足够的复杂性，无法有效评估大型语言模型（LLMs）在复杂工具使用场景下的表现。我们提出的ProcessTBench数据集，扩展自TaskBench，专门设计用于在过程挖掘框架中评估LLMs，显著提升了模型在多语言、同义句查询和并行动作管理方面的评测能力。此数据集的发布将推动LLMs在真实应用中的发展与研究。

Sep, 2024

ProcessTBench：用于流程挖掘的LLM计划生成数据集

本文解决了现有数据集中缺乏复杂场景的问题，尤其是在处理改述查询、多语言支持和并行执行的情况下。研究提出了ProcessTBench合成数据集，旨在评估大型语言模型在流程挖掘框架中的能力，为研究LLM在不同条件下执行同一过程的典型行为和挑战提供了重要工具。

Sep, 2024