高通量实验的可重复性测量
提出了一种称为 xRR 框架的方法,通过在复制实验中将 IRR 与基准测量进行基准测试,其中包括基于 Cohen 的 kappa 的新型交叉复制可靠性(xRR)测量,我们将其用于衡量众包数据集的质量。对 4 百万人类对面部表情的判断进行了分析。
Jun, 2021
本文描述并测试了一种基于计量学概念和定义的量化再现性评估(QRA)方法。 QRA 可以根据不同再现之间的分数和差异,为给定系统和评估措施估计再现性程度,并且我们在 18 个系统和评估措施组合上测试了 QRA,表明 QRA 方法产生的再现度分数不仅可以比较同一原始研究的多次再现,还可以比较不同原始研究的多次再现,并可用于发现再现之间的差异并得出改进再现性的结论。
Apr, 2022
通过我们复制一个用于预测热带气旋生成的运行产品的经验,我们提出一个二维框架,以提供有关复制他人研究的指导。这个框架基于数据集、指标和模型等三个关键方面,通过在模型适配和推断之间进行评估,我们可以更好地支持我们研究的主张。此外,我们还使用这个框架来定位大气科学中基准数据集的实用性。我们的二维框架为研究人员,尤其是早期职业研究人员,提供了一个工具,可以在他们自己的研究中融入先前的工作,并在此背景下支持他们的主张。
Jan, 2024
机器学习存在严重的 ' 可重复性危机 ',本文通过对 ReScience C 的 142 个复制研究和 204 个代码库进行元分析,发现缺少实验细节如超参数可能是可重复性差的潜在原因。文章实验表明,不同的超参数选择策略会产生偏差,并得出一个统一框架的集成物能够帮助支持可重复性。
May, 2023
本文介绍了一种基于 Docker 的可重复性基础设施,旨在帮助神经信息检索领域更好地解决编码模型、网络架构、硬件加速等多种因素对性能和效果的权衡,并提出了两个基于性能的评价场景。
Jul, 2019
本研究通过手动尝试实现 1984 年至 2017 年发表的 255 篇文章,记录每篇文章的特征,并对结果进行统计分析,首次尝试寻找可量化的答案,证明代码发布不足以决定文章实现的可复制性。
Sep, 2019
该研究为了检查人类对 NLP 的评估是否可重复进行了集体研究,结果发现大多数近期的研究不可重复、不可复制,需要重新设计并报告人类对 NLP 的评估方式。
May, 2023
本文介绍了使用自动化系统 DEXTER 从生物医学摘要中提取基因疾病关联(GDAs)的工作,旨在为未来的关系提取研究提供基准,以启用研究人员测试和比较其结果。
Jul, 2022