高通量实验的可重复性测量

Oct, 2011

Measuring reproducibility of high-throughput experiments

Qunhua Li, James B. Brown, Haiyan Huang, Peter J. Bickel

TL;DR该研究提出了一种新的方法来度量高通量实验中的结果再现性，其中使用可重复性鉴定推断，通过一个量化的非标量的可重复性曲线基于一个混合模型，计算可重复性得分（IDR），并证明了其在 ChIP-seq 实验中的有效性。

Abstract

reproducibility is essential to reliable scientific discovery in high-throughput experiments. In this work we propose a unified approach to measure the →

reproducibility high-throughput experiments quantitative reproducibility score idr chip-seq

发现论文，激发创造

交叉复制可靠性 -- 解释评定者间可靠性的经验方法

提出了一种称为 xRR 框架的方法，通过在复制实验中将 IRR 与基准测量进行基准测试，其中包括基于 Cohen 的 kappa 的新型交叉复制可靠性（xRR）测量，我们将其用于衡量众包数据集的质量。对 4 百万人类对面部表情的判断进行了分析。

Jun, 2021

高维统计中的可复制性

研究了可复制性的计算和统计等价性以及高维统计任务中的样本复杂度，并提出了解决分布有有界协方差和 N-Coin 问题中的开放问题的有效算法。

Jun, 2024

自然语言处理结果再现性的定量化评估

本文描述并测试了一种基于计量学概念和定义的量化再现性评估（QRA）方法。 QRA 可以根据不同再现之间的分数和差异，为给定系统和评估措施估计再现性程度，并且我们在 18 个系统和评估措施组合上测试了 QRA，表明 QRA 方法产生的再现度分数不仅可以比较同一原始研究的多次再现，还可以比较不同原始研究的多次再现，并可用于发现再现之间的差异并得出改进再现性的结论。

Apr, 2022

可复现性、可重复性及停止时机的经验教训

通过我们复制一个用于预测热带气旋生成的运行产品的经验，我们提出一个二维框架，以提供有关复制他人研究的指导。这个框架基于数据集、指标和模型等三个关键方面，通过在模型适配和推断之间进行评估，我们可以更好地支持我们研究的主张。此外，我们还使用这个框架来定位大气科学中基准数据集的实用性。我们的二维框架为研究人员，尤其是早期职业研究人员，提供了一个工具，可以在他们自己的研究中融入先前的工作，并在此背景下支持他们的主张。

Jan, 2024

可复现性需要一致的实物

机器学习存在严重的 ' 可重复性危机 '，本文通过对 ReScience C 的 142 个复制研究和 204 个代码库进行元分析，发现缺少实验细节如超参数可能是可重复性差的潜在原因。文章实验表明，不同的超参数选择策略会产生偏差，并得出一个统一框架的集成物能够帮助支持可重复性。

May, 2023

测量运行时间！扩展 IR 可重复性基础设施以包括性能方面

本文介绍了一种基于 Docker 的可重复性基础设施，旨在帮助神经信息检索领域更好地解决编码模型、网络架构、硬件加速等多种因素对性能和效果的权衡，并提出了两个基于性能的评价场景。

Jul, 2019

量化机器学习研究的独立再现性的一步

本研究通过手动尝试实现 1984 年至 2017 年发表的 255 篇文章，记录每篇文章的特征，并对结果进行统计分析，首次尝试寻找可量化的答案，证明代码发布不足以决定文章实现的可复制性。

Sep, 2019

NLP 中无法评估先前人类评估的再现性：信息缺失，作者不响应，实验缺陷

该研究为了检查人类对 NLP 的评估是否可重复进行了集体研究，结果发现大多数近期的研究不可重复、不可复制，需要重新设计并报告人类对 NLP 的评估方式。

May, 2023

缓存和可复现性：使数据科学实验更快、更公平

本文建议将缓存作为数据科学项目中研究软件开发过程的组成部分，以促进实验的重现性和可持续发展，从而实现对数据相关性越来越公平。

Nov, 2022

基因疾病关联关系抽取基线构建：一项可复现性研究

本文介绍了使用自动化系统 DEXTER 从生物医学摘要中提取基因疾病关联（GDAs）的工作，旨在为未来的关系提取研究提供基准，以启用研究人员测试和比较其结果。

Jul, 2022