leaderboards | BriefGPT - AI 论文速递

关键词leaderboards

搜索结果 - 5

PruningBench: 结构剪枝全面基准
结构修剪已成为生成更高效模型的一种有前景的方法。然而，由于缺乏标准化的基准和度量标准，该领域的进展尚不完全理解。为了填补这一空白，我们提出了第一个全面的基准测试，称为 PruningBench，用于结构修剪。PruningBench 具有以
PDF16 days ago
当基准成为目标：揭示大型语言模型排行榜的敏感性
利用基准排名构建的大型语言模型（LLM）排行榜经常被用来指导实践者选择模型，但我们展示了这是一个（潜在的昂贵）错误。在现有的排行榜中，LLM 的相对性能对（通常微小的）细节非常敏感。我们通过对多个选择题基准进行实验，比如改变选项的顺序或答案
PDF5 months ago
LEGOBench：科学模型排行榜生成基准
该论文介绍了 LEGOBench，这是一个用于评估生成排行榜系统的基准。通过从 arXiv 的 22 年预印本提交数据和 PapersWithCode 门户的 11,000 多个机器学习排行榜中进行策划，我们评估了四种传统的基于图形的排名变
PDF6 months ago
ACLExplainaBoard: 一个针对 NLP 的可解释排行榜
本文提出了一种新的 NLP 评估概念和实现，即 ExplainaBoard，它不仅继承标准排行榜的功能，还允许研究人员诊断单个系统的优势和劣势，解释多个系统之间的关系，并仔细检查预测结果。此外，这篇论文还将评估工具制作成了 API，使用户可
PDF3 years ago
MS MARCO 文档排名榜中的显著性改进案例研究
本文讨论了现代应用机器学习研究中用来排序的排行榜，分析了当前榜首成为 “state of the art” 的机制，他们不 use 常用的 signifance testing，并提出了一种明确区分排名结果的评估框架。此外，文章分析了 MS
PDF3 years ago