自然语言处理中的可重复性:清单告诉我们了什么?
本文介绍了 2019 年 NeurIPS 会议针对机器学习研究推出的可重复性计划,包括代码提交政策、全社区可重复性挑战和将机器学习可重复性清单作为论文提交过程的一部分,阐述了每个组件的部署以及我们从这个计划中学到了什么。
Mar, 2020
该研究为了检查人类对 NLP 的评估是否可重复进行了集体研究,结果发现大多数近期的研究不可重复、不可复制,需要重新设计并报告人类对 NLP 的评估方式。
May, 2023
研究表明,代码正确性与结果可重复性应并重,通过一个案例研究,发现并修正了 Conformer 模型中的三个错误,证明了存在缺陷不影响结果的可重复性,同时也呼吁采用编码最佳实践以促进正确性和提高开发软件的质量。
Mar, 2023
本文为了解当下自然语言处理领域新手对当前研究重复性工作的需求,对 93 名 introductory NLP 课程学生开展了研究。结果表明,编程技能和对研究论文的理解与其完成任务的时间无明显相关性,而研究作者开源工作的可访问性、文档完整性、良好编程规范和易于获取数据文件等均对成功至关重要。此外,作者建议自然语言处理研究者关注这些简单但关键的方面并充分利用初学者的反馈来提供更好的支持和改进。
May, 2023
本文调查了语音与语言处理领域七个相关会议的 27,717 篇论文,发现相比其他会议,Interspeech 会议开源代码的可用性出现了高达 40% 的下降,文中提供了提高可复现性的建议和可能的方向。
Jun, 2023
通过对 93 名入门 NLP 课程的学生进行实验,研究发现初学者技术水平并不影响他们完成最新 NLP 技术的实验,关键在于研究作者提供易用性的文档和数据集。
May, 2022
我们的研究对两篇杰出的物质科学文献领域的先驱作品进行了重现性分析:金和安迪的 “氧化物材料机器学习和编码合成参数” 和西托扬的 “无监督词嵌入从物质科学文献中捕捉潜在知识”。我们的研究发现这两篇论文的工作流程严谨,代码可复现,获得了明确的模型评估指导;然而,还存在改进的空间,如尽可能提供训练数据的访问权限,提供更多关于模型架构和训练过程的透明度,以及规定软件依赖版本。
Jul, 2023
本文介绍了一种基于行为测试原则的 NLP 模型测试方法 - CheckList,它包括常规语言能力和测试类型矩阵以及可用于快速生成大量不同测试用例的软件工具。 用户研究表明,与没有使用 CheckList 的用户相比,使用 CheckList 的 NLP 从业人员可以创建两倍多的测试并发现近三倍的错误。
May, 2020