自然语言处理结果再现性的定量化评估

ACLApr, 2022

自然语言处理结果再现性的定量化评估

Quantified Reproducibility Assessment of NLP Results

Anya Belz, Maja Popović, Simon Mille

TL;DR本文描述并测试了一种基于计量学概念和定义的量化再现性评估（QRA）方法。 QRA 可以根据不同再现之间的分数和差异，为给定系统和评估措施估计再现性程度，并且我们在 18 个系统和评估措施组合上测试了 QRA，表明 QRA 方法产生的再现度分数不仅可以比较同一原始研究的多次再现，还可以比较不同原始研究的多次再现，并可用于发现再现之间的差异并得出改进再现性的结论。

Abstract

This paper describes and tests a method for carrying out quantified reproducibility assessment (QRA) that is based on concepts and definitions from metrology. QRA produces a single score estimating the degree of reproducibility of a given system and →

quantified reproducibility assessment metrology evaluation nlp tasks reproductions

发现论文，激发创造

自然语言处理可重现性研究的系统综述

研究了自然语言处理领域内可重复性的困境，探索了不同声音和共通点。

Mar, 2021

自然语言处理的可复现性分析：用多个数据集测试意义

该论文提出了一种重复性分析框架，用于对 NLP 任务算法的多个比较进行统计学分析，相对于 NLP 文献中目前未经统计证明的传统做法具有显著的理论优势，并通过多个应用案例展示了其实证价值。

Sep, 2017

NLP 中无法评估先前人类评估的再现性：信息缺失，作者不响应，实验缺陷

该研究为了检查人类对 NLP 的评估是否可重复进行了集体研究，结果发现大多数近期的研究不可重复、不可复制，需要重新设计并报告人类对 NLP 的评估方式。

May, 2023

高通量实验的可重复性测量

该研究提出了一种新的方法来度量高通量实验中的结果再现性，其中使用可重复性鉴定推断，通过一个量化的非标量的可重复性曲线基于一个混合模型，计算可重复性得分（IDR），并证明了其在 ChIP-seq 实验中的有效性。

Oct, 2011

机器学习研究的推断可再现性

本研究探讨了机器学习模型评估的可靠性，提出了使用线性混合效应模型的方法，以分析性能评估分数，并使用广义似然比检验进行统计推断。同时，本文还探讨了数据属性与算法噪声因素之间的相互作用，以及噪声源对整体方差的贡献和可靠性系数的计算方法。

Feb, 2023

RoMQA: 鲁棒性、多证据、多答案问答基准

RoMQA 是第一个鲁棒、多证据、多答案问答基准测试，它基于 Wikidata 知识图谱的相关限制生成问题集群，并通过测量每个问题集群中的最坏性能来评估 QA 模型对各种限制的鲁棒性。与先前的 QA 数据集相比，RoMQA 具有更多需要对更多证据文本进行推理的人类编写问题，并且平均有更多正确答案。此外，人类注释员评价 RoMQA 问题更自然或更有可能被人们问到。

Oct, 2022

仅靠运气不行：在不确定领域增强品质多样化解决方案的行为可重复性

本文提出了一种 Archive Reproducibility Improvement Algorithm（ARIA）的方法，基于自然进化策略，用于改善质量 - 多样性（Quality-Diversity）算法在噪声环境下的可重现性，并对其在优化问题和模拟机器人环境中进行了测试，得出其可以提高给定存档的质量和描述符空间覆盖率至少 50% 的结论。

Apr, 2023

材料科学中的自复现经验教训

我们的研究对两篇杰出的物质科学文献领域的先驱作品进行了重现性分析：金和安迪的 “氧化物材料机器学习和编码合成参数” 和西托扬的 “无监督词嵌入从物质科学文献中捕捉潜在知识”。我们的研究发现这两篇论文的工作流程严谨，代码可复现，获得了明确的模型评估指导；然而，还存在改进的空间，如尽可能提供训练数据的访问权限，提供更多关于模型架构和训练过程的透明度，以及规定软件依赖版本。

Jul, 2023

可重现的主观评估

本文提出了 ReSEval，这是一种开源框架，可从 Python 直接快速部署 crowdsourced 主观评估，以方便研究人员运行主观评估以及通过共享配置文件和音频、图像、文本或视频文件来重现彼此的主观评估。

Mar, 2022

将复制和复现与 NLP 中的泛化能力联系起来：针对目标依赖性情感分析的三个复现研究

本研究旨在解决自然语言处理中重复性和普适性问题，并以目标相关情感分析为例，证明最近该领域的工作缺乏足够的代码共享和方法描述，缺乏对数据的可比性和泛化性。研究人员运用三种互补方法进行了第一次再现研究，并在六个不同的英文数据集上进行了第一次大规模评估，推荐未来考虑多种数据集、发布代码，以便最大程度上减少使可重复性和普遍性困难的障碍。

Jun, 2018