Self-Improving-Leaderboard（SIL）：呼唤以实际为中心的自然语言处理排行榜

Mar, 2023

Self-Improving-Leaderboard（SIL）：呼唤以实际为中心的自然语言处理排行榜

Self-Improving-Leaderboard(SIL): A Call for Real-World Centric Natural Language Processing Leaderboards

Chanjun Park, Hyeonseok Moon, Seolhwa Lee, Jaehyung Seo, Sugyeong Eo...

TL;DR本文主张排行榜竞赛应该除了在给定的测试数据集上进行模型表现的评估外，也应该在实际应用场景下评估模型的表现，并提出了解决当前排行榜系统存在的问题的新模式，以期引起向更实际应用场景为中心的排行榜竞赛的范式转变。

Abstract

leaderboard systems allow researchers to objectively evaluate Natural Language Processing (NLP) models and are typically used to identify models that exhibit superior performance on a given task in a predetermined setting. However, we argue that evaluation on a given test dataset is ju

leaderboard systems natural language processing real-world performance competition paradigm shift

发现论文，激发创造

用户观点决定效用：自然语言处理排行榜评析

本论文通过微观经济理论的视角，研究了 Leaderboard 与实际 NLP 应用之间的分歧，指出 Leaderboard 并不能很好地代表整个 NLP 社区，更透明的 Leaderboard 应该公开与实际应用相关的统计数据，如模型大小、能效和推理延迟，来更好地估计模型对从业者的实用效用。

Sep, 2020

科学排行榜构建中的任务、数据集、评估指标和数值得分的识别

本文提出了一种基于 TDMS-IE 框架的自动提取 NLP 论文中任务、数据集、评价指标和得分来自动构建排行榜的方法，实验表明该模型表现优于几个对比算法，是自动构建排行榜的第一步。

Jun, 2019

生成和评估语言的双重排行榜

提出了一种新的比较模型，即 Bidimensional Leaderboards，这种模型同时跟踪语言生成模型的进展和评价指标，通过人类评价，对评价指标进行排名和选择，以模型和评价指标为竞争方，最后得出一个集成评价指标。

Dec, 2021

模型排名的强韧性：为平等评估量身定制的排行榜方法

本文提出了一种评估模型排行榜的方法，并通过可视化分析工具给出了可分析模型优缺点并指导模型选择，该方法可减少 41% 的模型部署开发和测试工作量。

Jun, 2021

基于 LLM 的排行榜生成中的有效上下文选择：一项实证研究

通过选择适当的上下文，提高大规模语言模型在生成人工智能研究排行榜方面的效率，并解决了介绍的方法在适应新发展方面超过传统自然语言推理方法的问题。实验证明了有效的上下文选择在提高语言模型精确性和减少错觉方面的重要性，并为可靠高效生成人工智能排行榜提供了新途径。

Jun, 2024

自然语言处理竞赛中系统性能分析

合作竞争的科学和技术领域变得越来越受欢迎。本文描述了一种评估方法来对比竞赛结果和竞争。这种方法具有普适性，但是以八个自然语言竞赛为案例进行了说明，涉及分类和回归问题。所提出的方法具有多种优势，包括与修正机制的即插即用比较和置信区间的包含。此外，我们引入了一些指标，使组织者能够评估竞赛的难度。我们的分析显示了我们方法在有效评估竞赛结果方面的潜在有用性。

Mar, 2024

超越排行榜：揭示自然语言推理数据和模型弱点方法综述

本文是对近年来有关自然语言推理数据集的研究及其相关算法模型的综述，对模型和数据集中存在的问题进行分类整理，并提出一些可能的研究方向，为未来的研究提供指导建议。

May, 2020

当基准成为目标：揭示大型语言模型排行榜的敏感性

利用基准排名构建的大型语言模型（LLM）排行榜经常被用来指导实践者选择模型，但我们展示了这是一个（潜在的昂贵）错误。在现有的排行榜中，LLM 的相对性能对（通常微小的）细节非常敏感。我们通过对多个选择题基准进行实验，比如改变选项的顺序或答案选择方法，我们发现这些微小扰动会导致排名变化高达 8 个位置。我们通过对三类基准扰动进行系统性实验并确定其来源来解释这个现象。我们的分析得出了一些最佳实践建议，包括使用混合评分方法进行答案选择。我们的研究强调了依赖简单基准评估的风险，并规划了更健壮的评估方案的路径。

Feb, 2024

ExplainaBoard: 一个针对 NLP 的可解释排行榜

本文提出了一种新的 NLP 评估概念和实现，即 ExplainaBoard，它不仅继承标准排行榜的功能，还允许研究人员诊断单个系统的优势和劣势，解释多个系统之间的关系，并仔细检查预测结果。此外，这篇论文还将评估工具制作成了 API，使用户可以离线方便地评估其模型。

Apr, 2021

语言模型委员会：以共识的方式对高度主观任务进行基准测试基础模型

通过民主过程提出了一种新的基准框架 —— 语言模型委员会（LMC），用于在高度主观的任务中对大型语言模型进行排名，通过平等参与来制定测试集，通过集体评估响应来产生更可分离、强健且较少偏差的排名。

Jun, 2024