开源可复制性的警笛之歌
本文介绍了 2019 年 NeurIPS 会议针对机器学习研究推出的可重复性计划,包括代码提交政策、全社区可重复性挑战和将机器学习可重复性清单作为论文提交过程的一部分,阐述了每个组件的部署以及我们从这个计划中学到了什么。
Mar, 2020
本文调查了语音与语言处理领域七个相关会议的 27,717 篇论文,发现相比其他会议,Interspeech 会议开源代码的可用性出现了高达 40% 的下降,文中提供了提高可复现性的建议和可能的方向。
Jun, 2023
面对研究的可重复性危机,机器学习和人工智能研究也面临同样的问题。虽然研究社区已经提出了不同的解决方案如使用机器学习平台,但机器学习驱动的研究的可重复性水平并没有显著提高。本文通过综述相关文献,讨论机器学习驱动研究中的可重复性问题和障碍,并探索工具、实践和干预等潜在驱动因素,提供对于支持机器学习可重复性的不同解决方案可行性的决策支持。
Jul, 2023
本研究通过手动尝试实现 1984 年至 2017 年发表的 255 篇文章,记录每篇文章的特征,并对结果进行统计分析,首次尝试寻找可量化的答案,证明代码发布不足以决定文章实现的可复制性。
Sep, 2019
研究表明,代码正确性与结果可重复性应并重,通过一个案例研究,发现并修正了 Conformer 模型中的三个错误,证明了存在缺陷不影响结果的可重复性,同时也呼吁采用编码最佳实践以促进正确性和提高开发软件的质量。
Mar, 2023
机器学习存在严重的 ' 可重复性危机 ',本文通过对 ReScience C 的 142 个复制研究和 204 个代码库进行元分析,发现缺少实验细节如超参数可能是可重复性差的潜在原因。文章实验表明,不同的超参数选择策略会产生偏差,并得出一个统一框架的集成物能够帮助支持可重复性。
May, 2023
本文通过分析 NLP 可重复性核对清单,发现清单的发布提升了 NLP 论文关于效率、验证性能、汇总统计和超参数等关键信息的披露率,且论文被接受的概率与符合要求的回复量呈正相关,同时提出了未来会议的一系列改进建议。
Jun, 2023
ReScience 是一本基于 GitHub 上的同行评审期刊,旨在促进计算研究的显式复制,支持新的开源实现,以确保原始研究可以从其描述中复制。
Jul, 2017
机器学习中模型比较中存在的不可重现性问题及其来源进行分析,发现研究文献中存在多个已知的不可重现性问题,导致很多研究结果无法得到验证,提出了三个值得深入探究的方向。
Apr, 2022