MS MARCO 文档排名榜中的显著性改进案例研究

Feb, 2021

MS MARCO 文档排名榜中的显著性改进案例研究

Significant Improvements over the State of the Art? A Case Study of the MS MARCO Document Ranking Leaderboard

Jimmy Lin, Daniel Campos, Nick Craswell, Bhaskar Mitra, Emine Yilmaz

TL;DR本文讨论了现代应用机器学习研究中用来排序的排行榜，分析了当前榜首成为 “state of the art” 的机制，他们不 use 常用的 signifance testing，并提出了一种明确区分排名结果的评估框架。此外，文章分析了 MS MARCO 文档排名排行榜中 SOTA runs 的实证结果，发现与当前官方评估标准（MRR@100）相比，这种评估框架可以更准确地比较运行结果的质量。

Abstract

leaderboards are a ubiquitous part of modern research in applied machine learning. By design, they sort entries into some linear order, where the top-scoring entry is recognized as the "state of the art" (SOTA).

leaderboards state of the art information retrieval neural models evaluation framework

发现论文，激发创造

大数据环境下排名模型基准测试

通过比较 MS MARCO 和 TREC 深度学习赛道与 1990 年代的 TREC 专家检索的情况，本文探讨了评估努力的设计如何鼓励或阻碍某些结果，提出避免这些困难的最佳实践，概述了该领域的研究进展，并描述了我们对于 “健壮有用性” 的期望结束状态。

May, 2021

稀疏标签的浅层池化

研究发现，使用神经系统排序后的检索结果往往比标准答案更受欢迎，表现出更好的排名表现。同样对于算法排名比较，建议使用最佳答案或最受欢迎的答案进行评价和持续改进。

Aug, 2021

文本转 SQL 系统的 N-Best 假设重新排序

该研究使用预训练语言模型和约束解码技术，通过重新排序和重新解析的方式来改进 Text-to-SQL 任务的查询准确性，最终在任务中达到了最高准确率，并提出了查询计划生成方案的启发式模式。

Oct, 2022

通过综合评估和排行榜了解长文档排名模型的性能

本研究综合评估了 13 个模型在排名长文档方面的功能，包括两种专用 Transformer 模型，同时分析了训练和比较这些模型的几个困难。结果表明，虽然 Robust04 和 MS MARCO 文件经常被用于长文件模型的基准测试，但我们认为它们并不特别有用。特别是在考虑到 relevant passages 的分布时，Simple FirstP Baseline 很有效。

Jul, 2022

Self-Improving-Leaderboard（SIL）：呼唤以实际为中心的自然语言处理排行榜

本文主张排行榜竞赛应该除了在给定的测试数据集上进行模型表现的评估外，也应该在实际应用场景下评估模型的表现，并提出了解决当前排行榜系统存在的问题的新模式，以期引起向更实际应用场景为中心的排行榜竞赛的范式转变。

Mar, 2023

当基准成为目标：揭示大型语言模型排行榜的敏感性

利用基准排名构建的大型语言模型（LLM）排行榜经常被用来指导实践者选择模型，但我们展示了这是一个（潜在的昂贵）错误。在现有的排行榜中，LLM 的相对性能对（通常微小的）细节非常敏感。我们通过对多个选择题基准进行实验，比如改变选项的顺序或答案选择方法，我们发现这些微小扰动会导致排名变化高达 8 个位置。我们通过对三类基准扰动进行系统性实验并确定其来源来解释这个现象。我们的分析得出了一些最佳实践建议，包括使用混合评分方法进行答案选择。我们的研究强调了依赖简单基准评估的风险，并规划了更健壮的评估方案的路径。

Feb, 2024

科学排行榜构建中的任务、数据集、评估指标和数值得分的识别

本文提出了一种基于 TDMS-IE 框架的自动提取 NLP 论文中任务、数据集、评价指标和得分来自动构建排行榜的方法，实验表明该模型表现优于几个对比算法，是自动构建排行榜的第一步。

Jun, 2019

比较单个性能得分并不能得出关于机器学习方法的结论

本文研究了模型性能评估方法的可靠性问题，并探讨了仅基于分割数据集评估模型性能的评估方法存在的缺陷。作者提出了基于分数分布的评估方法来代替传统评估方法。

Mar, 2018

模型排名的强韧性：为平等评估量身定制的排行榜方法

本文提出了一种评估模型排行榜的方法，并通过可视化分析工具给出了可分析模型优缺点并指导模型选择，该方法可减少 41% 的模型部署开发和测试工作量。

Jun, 2021

一种基于严重程度原则的针对随机优化算法性能分析的新型排名方案

提出了一种新的排名方案，利用基于鲁棒的自助法假设检验程序对多个单目标优化问题的算法进行排名，并考虑了算法的性能改进的大小和实际相关性，与传统假设检验相比，提出的排名方案具有可比性和许多额外的好处。

May, 2024