关于排行榜操作工作流程和问题(LBOps)的研究:基础模型排行榜的初探研究
本文提出了一种评估模型排行榜的方法,并通过可视化分析工具给出了可分析模型优缺点并指导模型选择,该方法可减少41%的模型部署开发和测试工作量。
Jun, 2021
本文主张排行榜竞赛应该除了在给定的测试数据集上进行模型表现的评估外,也应该在实际应用场景下评估模型的表现,并提出了解决当前排行榜系统存在的问题的新模式,以期引起向更实际应用场景为中心的排行榜竞赛的范式转变。
Mar, 2023
描述了Orkg-Leaderboard软件的设计和应用,该软件能够从大量的人工智能实证研究论文中自动提取以任务-数据集-指标三元组定义的排行榜,并且能够支持学术出版的主要流程,以LaTeX文件或PDF文件的形式发布,同时结合Open Research Knowledge Graph平台实现与语义Web基础设施的有机整合,使得系统输出的信息能够被机器进行操作和理解。该应用还能追踪AI发展的进程和状态,提供实时动态的信息服务。
May, 2023
利用基准排名构建的大型语言模型(LLM)排行榜经常被用来指导实践者选择模型,但我们展示了这是一个(潜在的昂贵)错误。在现有的排行榜中,LLM的相对性能对(通常微小的)细节非常敏感。我们通过对多个选择题基准进行实验,比如改变选项的顺序或答案选择方法,我们发现这些微小扰动会导致排名变化高达8个位置。我们通过对三类基准扰动进行系统性实验并确定其来源来解释这个现象。我们的分析得出了一些最佳实践建议,包括使用混合评分方法进行答案选择。我们的研究强调了依赖简单基准评估的风险,并规划了更健壮的评估方案的路径。
Feb, 2024
通过 EvoEval 基准套件的引入,评估 LLM 在编码方面的能力,我们的研究展示了 51 个 LLM 的性能显著下降(平均下降 39.4%),从而显示了现有基准的潜在过拟合,并展示了指令跟随模型在重述或微小更改时的脆弱性以及学习问题组成和分解的重要性。
Mar, 2024
通过使用RealHumanEval、静态基准以及优先度度量,研究了大型语言模型(LLMs)在代码编写中的效能表现以及对程序员生产力的影响。发现优化的基准性能可以提高程序员的生产力,但基准性能与人类表现之间的差距并不成比例,同时程序员的偏好与实际表现并无关联,这促使我们需要更好、以人为中心的评估指标。同时,我们公开了RealHumanEval工具和研究数据以促进代码模型的改进。
Apr, 2024
该研究通过评估 Mistral 7B、Llama-2、GPT-4-Turbo 和 GPT-4.o 这四个 LLM 模型对实证AI研究文章中的领先者信息的提取效果,探讨了三种上下文输入类型(DocTAET、DocREC 和 DocFULL)对模型的影响,综合评估了这些模型在从研究论文中生成(任务、数据集、指标、得分)四元组方面的性能,揭示了每个模型和上下文类型的优势和局限性,为未来的AI研究自动化工作提供了有价值的指导。
Jun, 2024
为了解决现有机器学习基准缺乏用于评估企业流程管理(BPM)任务的深度和多样性的问题,研究人员提出了WONDERBREAD,这是评估多模态基础模型在超出自动化的BPM任务上的第一个基准。他们的研究发现,目前最先进的基础模型可以自动生成文档,但在验证工作流完成度方面存在困难。通过这项研究,他们希望鼓励开发更多“以人为中心”的企业应用人工智能工具,并进一步探索多模态基础模型在更广泛的BPM任务中的应用。
Jun, 2024
本研究解决了以往关于开放Ko-LLM排行榜研究的局限性,采用为期十一个月的纵向研究方法。通过分析1769种模型,我们识别了改善LLM性能面临的挑战,探讨了模型规模与任务表现之间的关系,并揭示了排行榜排名随时间变化的模式。
Sep, 2024
本研究解决了手动构建和维护科学排行榜的困难,提出了一个经过人工整理的科学排行榜数据集SciLead,以克服当前数据集的不完整性和不准确性。基于该数据集,开发了一种全面的基于大语言模型的排行榜构建框架,揭示了其在抽取结果值方面的挑战,具有重要的实际应用潜力。
Sep, 2024