Ranger: 基于效应大小的多任务评估工具

ACLMay, 2023

Ranger: 基于效应大小的多任务评估工具

Ranger: A Toolkit for Effect-Size Based Multi-Task Evaluation

Mete Sertkan, Sophia Althammer, Sebastian Hofstätter

TL;DR本文介绍了 Ranger 工具箱，通过元分析来解决 NLP 和 IR 应用中聚合不可比度指标的问题，从而为多个任务的统计评价提供了一个任务不可知的工具箱。

Abstract

In this paper, we introduce ranger - a toolkit to facilitate the easy use of effect-size-based meta-analysis for multi-task evaluation in

ranger meta-analysis multi-task evaluation nlp ir

发现论文，激发创造

NLPStatTest：比较 NLP 系统性能的工具包

本文提出了一种基于效应大小估计的三阶段比较 NLP 系统性能的方法，并提供了一个工具包 NLPStatTest，该工具包可以自动化处理上传的 NLP 系统评估分数，进行合适的显著性检验和效应大小估计，并进行功效分析来估计 II 型错误。这个工具包提供了一个便捷和系统的方法来比较 NLP 系统性能，超越了统计显著性检验。

Nov, 2020

综合评估工具箱：陪审团

评估在深度学习中扮演关键角色，本文介绍了一种名为 jury 的工具包，旨在为不同任务和度量提供统一的评估框架，标准化和改进系统的指标评估，以帮助研究人员克服评估中的各种挑战。

Oct, 2023

TweetEval: 微博分类的统一基准和比较评估

本文提出了一个新的评估框架（TweetEval），由七个异构 Twitter-specific 分类任务组成，并提供了一组强基准作为起点，并比较了不同的语言建模预训练策略，初步实验表明使用现有的通用语言模型预训练，然后在 Twitter 集上继续训练是很有效的。

Oct, 2020

Goodhart 定律在 NLP 的解释基准中适用

对于基于显著性的解释方法的研究，存在关于其目的、有效性和相互抵触性的疑虑。本文针对自然语言处理进行了关于评估指标的批判性研究，对两套指标进行了评估，并展示了目前的指标能否准确引导可解释性研究的能力存在疑问，强调有必要对这些指标所要捕捉的内容进行更广泛的重新评估。

Aug, 2023

用于神经 NLP 的精细可解释性评估基准

本文提出了一种新的基准来评估神经网络模型和显著性方法的解释能力，其中包含英文和中文标注数据以及用于评估解释能力的标记。实验结果揭示了三种模型和三种显著性方法的解释能力的优劣，希望这个基准可以促进建立值得信赖的系统的研究。

May, 2022

ERASER: 用于评估合理化 NLP 模型的基准

该论文提出了 ERASER 基准测试以推进 NLP 中可解释模型的研究，包括多个数据集和任务，并提出了几个指标以衡量模型提供的 rationales 与人类 rationales 的一致性以及提供的 rationales 对相应预测的影响程度。

Nov, 2019

适用于命名实体识别的可解释性多数据集评估

本文提出了一种可解释的评估方法，用于对自然语言处理任务中的命名实体识别进行分析，以帮助读者更好地理解不同模型及其相对优劣之处。通过将我们的分析工具提供给其他研究人员，我们希望能推动这一领域的进步。

Nov, 2020

最佳系统是什么？自然语言处理基准测试的新视角

该研究提出一种新的基于社会选择理论的系统排名方法，用于评估机器学习中使用 benchmark 的效果。该方法在评估自然语言处理中的预训练模型时更为可靠且稳健，有别于简单的平均聚合，可为实际应用提供最佳的系统选择。

Feb, 2022

重新评估评估

本文介绍了一种叫作 Nash 平均的评估方法，能够自动适应评估数据中的冗余信息，从而避免了采用简单任务或弱智能体造成的结果偏差，实现了最大程度的评估包容性。

Jun, 2018

投票与排序：基于社会选择理论的基准评估修订

该论文提出了 Vote'n'Rank 框架用于在多任务基准测试中排名系统，并通过该方法在不同领域中比较多个系统的表现，从而得出结论和新的 insights。

Oct, 2022