可再生性不等于正确性：在自然语言处理中测试代码的重要性

Mar, 2023

可再生性不等于正确性：在自然语言处理中测试代码的重要性

Reproducibility is Nothing without Correctness: The Importance of Testing Code in NLP

Sara Papi, Marco Gaido, Matteo Negri, Andrea Pilzer

TL;DR研究表明，代码正确性与结果可重复性应并重，通过一个案例研究，发现并修正了Conformer模型中的三个错误，证明了存在缺陷不影响结果的可重复性，同时也呼吁采用编码最佳实践以促进正确性和提高开发软件的质量。

Abstract

Despite its pivotal role in research experiments, code correctness is often presumed only on the basis of the perceived quality of the results. This comes with the risk of erroneous outcomes and potentially misleading findings. To address this issue, we posit that the current focus on

发现论文，激发创造

展示你的工作：实验结果的改进报告

通过使用验证数据和计算预算等指标，本文提出了一种新的模型比较方法，从而帮助实现更好地汇报实验结果和确保未来准确对比。

Sep, 2019

自然语言处理可重现性研究的系统综述

研究了自然语言处理领域内可重复性的困境，探索了不同声音和共通点。

Mar, 2021

开源可复制性的警笛之歌

会议为了解决可重复性问题而采取的强制代码提交的做法是片面的，并没有得到有效的证明，因此我们认为会议应该采取更多措施来推进可重复的机器学习研究。

Apr, 2022

自然语言处理结果再现性的定量化评估

本文描述并测试了一种基于计量学概念和定义的量化再现性评估（QRA）方法。 QRA可以根据不同再现之间的分数和差异，为给定系统和评估措施估计再现性程度，并且我们在18个系统和评估措施组合上测试了QRA，表明QRA方法产生的再现度分数不仅可以比较同一原始研究的多次再现，还可以比较不同原始研究的多次再现，并可用于发现再现之间的差异并得出改进再现性的结论。

Apr, 2022

NLP中无法评估先前人类评估的再现性：信息缺失，作者不响应，实验缺陷

该研究为了检查人类对NLP的评估是否可重复进行了集体研究，结果发现大多数近期的研究不可重复、不可复制，需要重新设计并报告人类对NLP的评估方式。

May, 2023

面向所有人的NLP可重复性:理解初学者的经历

本文为了解当下自然语言处理领域新手对当前研究重复性工作的需求，对93名introductory NLP课程学生开展了研究。结果表明，编程技能和对研究论文的理解与其完成任务的时间无明显相关性，而研究作者开源工作的可访问性、文档完整性、良好编程规范和易于获取数据文件等均对成功至关重要。此外，作者建议自然语言处理研究者关注这些简单但关键的方面并充分利用初学者的反馈来提供更好的支持和改进。

May, 2023

自然语言处理中的可重复性：清单告诉我们了什么？

本文通过分析NLP可重复性核对清单，发现清单的发布提升了NLP论文关于效率、验证性能、汇总统计和超参数等关键信息的披露率，且论文被接受的概率与符合要求的回复量呈正相关，同时提出了未来会议的一系列改进建议。

Jun, 2023

对Interspeech会议的可重复性研究：一种纵向和比较的视角

本文调查了语音与语言处理领域七个相关会议的27,717篇论文，发现相比其他会议，Interspeech会议开源代码的可用性出现了高达40%的下降，文中提供了提高可复现性的建议和可能的方向。

Jun, 2023

数据污染与评估不端行为在闭源语言模型中的重复现象

使用OpenAI的GPT-3.5进行了首次系统分析，揭示其在数据污染方面的问题，发现模型在发布后一年内泄露了大约470万个样本来自263个基准，并记录了被评审论文中出现的不公平或缺失的基准比较和可复现性问题。

Feb, 2024

CodeS: 自然语言转代码仓库的多层草图

利用大型语言模型自动生成软件开发者库(Code Repository)的简单而有效的框架 CodeS 在自然语言到代码库转换任务上显示出了其有效性和实用性。

Mar, 2024