本文提出了一种基于效应大小估计的三阶段比较 NLP 系统性能的方法,并提供了一个工具包 NLPStatTest,该工具包可以自动化处理上传的 NLP 系统评估分数,进行合适的显著性检验和效应大小估计,并进行功效分析来估计 II 型错误。这个工具包提供了一个便捷和系统的方法来比较 NLP 系统性能,超越了统计显著性检验。
Nov, 2020
评估在深度学习中扮演关键角色,本文介绍了一种名为 jury 的工具包,旨在为不同任务和度量提供统一的评估框架,标准化和改进系统的指标评估,以帮助研究人员克服评估中的各种挑战。
Oct, 2023
本文提出了一个新的评估框架(TweetEval),由七个异构 Twitter-specific 分类任务组成,并提供了一组强基准作为起点,并比较了不同的语言建模预训练策略,初步实验表明使用现有的通用语言模型预训练,然后在 Twitter 集上继续训练是很有效的。
Oct, 2020
对于基于显著性的解释方法的研究,存在关于其目的、有效性和相互抵触性的疑虑。本文针对自然语言处理进行了关于评估指标的批判性研究,对两套指标进行了评估,并展示了目前的指标能否准确引导可解释性研究的能力存在疑问,强调有必要对这些指标所要捕捉的内容进行更广泛的重新评估。
Aug, 2023
本文提出了一种新的基准来评估神经网络模型和显著性方法的解释能力,其中包含英文和中文标注数据以及用于评估解释能力的标记。实验结果揭示了三种模型和三种显著性方法的解释能力的优劣,希望这个基准可以促进建立值得信赖的系统的研究。
May, 2022
该论文提出了 ERASER 基准测试以推进 NLP 中可解释模型的研究,包括多个数据集和任务,并提出了几个指标以衡量模型提供的 rationales 与人类 rationales 的一致性以及提供的 rationales 对相应预测的影响程度。
Nov, 2019
本文提出了一种可解释的评估方法,用于对自然语言处理任务中的命名实体识别进行分析,以帮助读者更好地理解不同模型及其相对优劣之处。通过将我们的分析工具提供给其他研究人员,我们希望能推动这一领域的进步。
该研究提出一种新的基于社会选择理论的系统排名方法,用于评估机器学习中使用 benchmark 的效果。该方法在评估自然语言处理中的预训练模型时更为可靠且稳健,有别于简单的平均聚合,可为实际应用提供最佳的系统选择。
Feb, 2022
本文介绍了一种叫作 Nash 平均的评估方法,能够自动适应评估数据中的冗余信息,从而避免了采用简单任务或弱智能体造成的结果偏差,实现了最大程度的评估包容性。
Jun, 2018
该论文提出了 Vote'n'Rank 框架用于在多任务基准测试中排名系统,并通过该方法在不同领域中比较多个系统的表现,从而得出结论和新的 insights。
Oct, 2022