自然语言处理结果再现性的定量化评估
该论文提出了一种重复性分析框架,用于对 NLP 任务算法的多个比较进行统计学分析,相对于 NLP 文献中目前未经统计证明的传统做法具有显著的理论优势,并通过多个应用案例展示了其实证价值。
Sep, 2017
该研究为了检查人类对 NLP 的评估是否可重复进行了集体研究,结果发现大多数近期的研究不可重复、不可复制,需要重新设计并报告人类对 NLP 的评估方式。
May, 2023
该研究提出了一种新的方法来度量高通量实验中的结果再现性,其中使用可重复性鉴定推断,通过一个量化的非标量的可重复性曲线基于一个混合模型,计算可重复性得分(IDR),并证明了其在 ChIP-seq 实验中的有效性。
Oct, 2011
本研究探讨了机器学习模型评估的可靠性,提出了使用线性混合效应模型的方法,以分析性能评估分数,并使用广义似然比检验进行统计推断。同时,本文还探讨了数据属性与算法噪声因素之间的相互作用,以及噪声源对整体方差的贡献和可靠性系数的计算方法。
Feb, 2023
RoMQA 是第一个鲁棒、多证据、多答案问答基准测试,它基于 Wikidata 知识图谱的相关限制生成问题集群,并通过测量每个问题集群中的最坏性能来评估 QA 模型对各种限制的鲁棒性。与先前的 QA 数据集相比,RoMQA 具有更多需要对更多证据文本进行推理的人类编写问题,并且平均有更多正确答案。此外,人类注释员评价 RoMQA 问题更自然或更有可能被人们问到。
Oct, 2022
本文提出了一种 Archive Reproducibility Improvement Algorithm(ARIA)的方法,基于自然进化策略,用于改善质量 - 多样性(Quality-Diversity)算法在噪声环境下的可重现性,并对其在优化问题和模拟机器人环境中进行了测试,得出其可以提高给定存档的质量和描述符空间覆盖率至少 50% 的结论。
Apr, 2023
我们的研究对两篇杰出的物质科学文献领域的先驱作品进行了重现性分析:金和安迪的 “氧化物材料机器学习和编码合成参数” 和西托扬的 “无监督词嵌入从物质科学文献中捕捉潜在知识”。我们的研究发现这两篇论文的工作流程严谨,代码可复现,获得了明确的模型评估指导;然而,还存在改进的空间,如尽可能提供训练数据的访问权限,提供更多关于模型架构和训练过程的透明度,以及规定软件依赖版本。
Jul, 2023
本文提出了 ReSEval,这是一种开源框架,可从 Python 直接快速部署 crowdsourced 主观评估,以方便研究人员运行主观评估以及通过共享配置文件和音频、图像、文本或视频文件来重现彼此的主观评估。
Mar, 2022
本研究旨在解决自然语言处理中重复性和普适性问题,并以目标相关情感分析为例,证明最近该领域的工作缺乏足够的代码共享和方法描述,缺乏对数据的可比性和泛化性。研究人员运用三种互补方法进行了第一次再现研究,并在六个不同的英文数据集上进行了第一次大规模评估,推荐未来考虑多种数据集、发布代码,以便最大程度上减少使可重复性和普遍性困难的障碍。
Jun, 2018