自然语言处理中的可重复性：清单告诉我们了什么？

ACLJun, 2023

自然语言处理中的可重复性：清单告诉我们了什么？

Reproducibility in NLP: What Have We Learned from the Checklist?

PDF

Ian Magnusson, Noah A. Smith, Jesse Dodge

TL;DR本文通过分析 NLP 可重复性核对清单，发现清单的发布提升了 NLP 论文关于效率、验证性能、汇总统计和超参数等关键信息的披露率，且论文被接受的概率与符合要求的回复量呈正相关，同时提出了未来会议的一系列改进建议。

Abstract

Scientific progress in nlp rests on the reproducibility of researchers' claims. The *CL conferences created the nlp →

nlp reproducibility checklist code dataset

发现论文，激发创造

自然语言处理可重现性研究的系统综述

研究了自然语言处理领域内可重复性的困境，探索了不同声音和共通点。

Mar, 2021

提高机器学习研究的可重复性 (来自 NeurIPS 2019 可重复性计划的报告)

本文介绍了 2019 年 NeurIPS 会议针对机器学习研究推出的可重复性计划，包括代码提交政策、全社区可重复性挑战和将机器学习可重复性清单作为论文提交过程的一部分，阐述了每个组件的部署以及我们从这个计划中学到了什么。

Mar, 2020

NLP 中无法评估先前人类评估的再现性：信息缺失，作者不响应，实验缺陷

该研究为了检查人类对 NLP 的评估是否可重复进行了集体研究，结果发现大多数近期的研究不可重复、不可复制，需要重新设计并报告人类对 NLP 的评估方式。

May, 2023

可再生性不等于正确性：在自然语言处理中测试代码的重要性

研究表明，代码正确性与结果可重复性应并重，通过一个案例研究，发现并修正了 Conformer 模型中的三个错误，证明了存在缺陷不影响结果的可重复性，同时也呼吁采用编码最佳实践以促进正确性和提高开发软件的质量。

Mar, 2023

面向所有人的 NLP 可重复性：理解初学者的经历

本文为了解当下自然语言处理领域新手对当前研究重复性工作的需求，对 93 名 introductory NLP 课程学生开展了研究。结果表明，编程技能和对研究论文的理解与其完成任务的时间无明显相关性，而研究作者开源工作的可访问性、文档完整性、良好编程规范和易于获取数据文件等均对成功至关重要。此外，作者建议自然语言处理研究者关注这些简单但关键的方面并充分利用初学者的反馈来提供更好的支持和改进。

May, 2023

对 Interspeech 会议的可重复性研究：一种纵向和比较的视角

本文调查了语音与语言处理领域七个相关会议的 27,717 篇论文，发现相比其他会议，Interspeech 会议开源代码的可用性出现了高达 40% 的下降，文中提供了提高可复现性的建议和可能的方向。

Jun, 2023

开源可复制性的警笛之歌

会议为了解决可重复性问题而采取的强制代码提交的做法是片面的，并没有得到有效的证明，因此我们认为会议应该采取更多措施来推进可重复的机器学习研究。

Apr, 2022

自然语言处理初学者的再现性经验之外：超越研究界的再现性

通过对 93 名入门 NLP 课程的学生进行实验，研究发现初学者技术水平并不影响他们完成最新 NLP 技术的实验，关键在于研究作者提供易用性的文档和数据集。

May, 2022

材料科学中的自复现经验教训

我们的研究对两篇杰出的物质科学文献领域的先驱作品进行了重现性分析：金和安迪的 “氧化物材料机器学习和编码合成参数” 和西托扬的 “无监督词嵌入从物质科学文献中捕捉潜在知识”。我们的研究发现这两篇论文的工作流程严谨，代码可复现，获得了明确的模型评估指导；然而，还存在改进的空间，如尽可能提供训练数据的访问权限，提供更多关于模型架构和训练过程的透明度，以及规定软件依赖版本。

Jul, 2023

超越准确度：使用 CheckList 进行 NLP 模型的行为测试

本文介绍了一种基于行为测试原则的 NLP 模型测试方法 - CheckList，它包括常规语言能力和测试类型矩阵以及可用于快速生成大量不同测试用例的软件工具。用户研究表明，与没有使用 CheckList 的用户相比，使用 CheckList 的 NLP 从业人员可以创建两倍多的测试并发现近三倍的错误。

May, 2020