BriefGPT.xyz
大模型
Ask
alpha
关键词
leaderboards
搜索结果 - 5
PruningBench: 结构剪枝全面基准
结构修剪已成为生成更高效模型的一种有前景的方法。然而,由于缺乏标准化的基准和度量标准,该领域的进展尚不完全理解。为了填补这一空白,我们提出了第一个全面的基准测试,称为 PruningBench,用于结构修剪。PruningBench 具有以
→
PDF
16 days ago
当基准成为目标:揭示大型语言模型排行榜的敏感性
利用基准排名构建的大型语言模型(LLM)排行榜经常被用来指导实践者选择模型,但我们展示了这是一个(潜在的昂贵)错误。在现有的排行榜中,LLM 的相对性能对(通常微小的)细节非常敏感。我们通过对多个选择题基准进行实验,比如改变选项的顺序或答案
→
PDF
5 months ago
LEGOBench:科学模型排行榜生成基准
该论文介绍了 LEGOBench,这是一个用于评估生成排行榜系统的基准。通过从 arXiv 的 22 年预印本提交数据和 PapersWithCode 门户的 11,000 多个机器学习排行榜中进行策划,我们评估了四种传统的基于图形的排名变
→
PDF
6 months ago
ACL
ExplainaBoard: 一个针对 NLP 的可解释排行榜
本文提出了一种新的 NLP 评估概念和实现,即 ExplainaBoard,它不仅继承标准排行榜的功能,还允许研究人员诊断单个系统的优势和劣势,解释多个系统之间的关系,并仔细检查预测结果。此外,这篇论文还将评估工具制作成了 API,使用户可
→
PDF
3 years ago
MS MARCO 文档排名榜中的显著性改进案例研究
本文讨论了现代应用机器学习研究中用来排序的排行榜,分析了当前榜首成为 “state of the art” 的机制,他们不 use 常用的 signifance testing,并提出了一种明确区分排名结果的评估框架。此外,文章分析了 MS
→
PDF
3 years ago
Prev
Next