Jul, 2024

PM-LLM-Benchmark: 评估大型语言模型在过程挖掘任务上的表现

TL;DR提出了PM-LLM-Benchmark作为第一个全面的过程挖掘领域知识和不同实现策略的PM综合基准。我们观察到大多数所考虑的大语言模型可以以令人满意的水平执行一些过程挖掘任务,但面向边缘设备的小型模型仍然不足。我们得出结论,虽然提出的基准对于找到适合过程挖掘任务的大语言模型很有用,但需要进一步研究以克服评估偏差,并对竞争性大语言模型进行更全面的排名。