开源可复制性的警笛之歌

ICLRApr, 2022

A Siren Song of Open Source Reproducibility

Edward Raff, Andrew L. Farris

TL;DR会议为了解决可重复性问题而采取的强制代码提交的做法是片面的，并没有得到有效的证明，因此我们认为会议应该采取更多措施来推进可重复的机器学习研究。

Abstract

As reproducibility becomes a greater concern, conferences have largely converged to a strategy of asking reviewers to indicate whether code was attached to a submission. This is part of a larger trend of taking action based on assumed ideals, without studying if those actions will yiel

reproducibility code submission machine learning conference research

发现论文，激发创造

提高机器学习研究的可重复性 (来自 NeurIPS 2019 可重复性计划的报告)

本文介绍了 2019 年 NeurIPS 会议针对机器学习研究推出的可重复性计划，包括代码提交政策、全社区可重复性挑战和将机器学习可重复性清单作为论文提交过程的一部分，阐述了每个组件的部署以及我们从这个计划中学到了什么。

Mar, 2020

对 Interspeech 会议的可重复性研究：一种纵向和比较的视角

本文调查了语音与语言处理领域七个相关会议的 27,717 篇论文，发现相比其他会议，Interspeech 会议开源代码的可用性出现了高达 40% 的下降，文中提供了提高可复现性的建议和可能的方向。

Jun, 2023

机器学习驱动研究的可重现性

面对研究的可重复性危机，机器学习和人工智能研究也面临同样的问题。虽然研究社区已经提出了不同的解决方案如使用机器学习平台，但机器学习驱动的研究的可重复性水平并没有显著提高。本文通过综述相关文献，讨论机器学习驱动研究中的可重复性问题和障碍，并探索工具、实践和干预等潜在驱动因素，提供对于支持机器学习可重复性的不同解决方案可行性的决策支持。

Jul, 2023

量化机器学习研究的独立再现性的一步

本研究通过手动尝试实现 1984 年至 2017 年发表的 255 篇文章，记录每篇文章的特征，并对结果进行统计分析，首次尝试寻找可量化的答案，证明代码发布不足以决定文章实现的可复制性。

Sep, 2019

可再生性不等于正确性：在自然语言处理中测试代码的重要性

研究表明，代码正确性与结果可重复性应并重，通过一个案例研究，发现并修正了 Conformer 模型中的三个错误，证明了存在缺陷不影响结果的可重复性，同时也呼吁采用编码最佳实践以促进正确性和提高开发软件的质量。

Mar, 2023

可复现性需要一致的实物

机器学习存在严重的 ' 可重复性危机 '，本文通过对 ReScience C 的 142 个复制研究和 204 个代码库进行元分析，发现缺少实验细节如超参数可能是可重复性差的潜在原因。文章实验表明，不同的超参数选择策略会产生偏差，并得出一个统一框架的集成物能够帮助支持可重复性。

May, 2023

自然语言处理中的可重复性：清单告诉我们了什么？

本文通过分析 NLP 可重复性核对清单，发现清单的发布提升了 NLP 论文关于效率、验证性能、汇总统计和超参数等关键信息的披露率，且论文被接受的概率与符合要求的回复量呈正相关，同时提出了未来会议的一系列改进建议。

Jun, 2023

可持续的计算科学：ReScience 倡议

ReScience 是一本基于 GitHub 上的同行评审期刊，旨在促进计算研究的显式复制，支持新的开源实现，以确保原始研究可以从其描述中复制。

Jul, 2017

引用是否能反映一篇论文的可重复性？机器学习论文案例研究

使用下游引文语境作为可再现性的信号进行情感分析，以解释机器学习复现挑战中复现尝试的积极或消极结果。

May, 2024

机器学习中的不可重复性来源：综述

机器学习中模型比较中存在的不可重现性问题及其来源进行分析，发现研究文献中存在多个已知的不可重现性问题，导致很多研究结果无法得到验证，提出了三个值得深入探究的方向。

Apr, 2022