自然语言处理研究的预注册讨论
本篇论文讨论了预注册在自然语言处理(NLP)研究中的应用,提出了不同类型研究的预注册问题和支持基于注册报告的慢科学。旨在引发NLP学术界的讨论,并为未来研究综合成一般性的NLP预注册表单。
Mar, 2021
本文旨在通过调查自然语言处理(NLP)研究人员和从业者的意见来理解双重用途问题,并提出适用于NLP社群需求的双重用途定义。该调查揭示了大多数研究人员关注研究的潜在双重用途,但仅采取有限行动。最后, 我们提出了一个可集成到现有会议伦理框架(如ACL伦理检查)中的检查清单,以减轻NLP中的双重用途问题。
Apr, 2023
该研究为了检查人类对NLP的评估是否可重复进行了集体研究,结果发现大多数近期的研究不可重复、不可复制,需要重新设计并报告人类对NLP的评估方式。
May, 2023
本文为了解当下自然语言处理领域新手对当前研究重复性工作的需求,对93名introductory NLP课程学生开展了研究。结果表明,编程技能和对研究论文的理解与其完成任务的时间无明显相关性,而研究作者开源工作的可访问性、文档完整性、良好编程规范和易于获取数据文件等均对成功至关重要。此外,作者建议自然语言处理研究者关注这些简单但关键的方面并充分利用初学者的反馈来提供更好的支持和改进。
May, 2023
本文通过分析NLP可重复性核对清单,发现清单的发布提升了NLP论文关于效率、验证性能、汇总统计和超参数等关键信息的披露率,且论文被接受的概率与符合要求的回复量呈正相关,同时提出了未来会议的一系列改进建议。
Jun, 2023
本文通过一项针对312名NLP群体成员的调查,对当前自然语言处理中在环境影响、公平性等三个方面所引起问题的现状与成因进行了分析,并提出了一些缓解措施。
Jun, 2023
这篇论文通过ReproHum元素,部分复现了Anatanasova等人(2020)的《生成事实检查解释》。在ReproNLP共同任务中,本共享任务旨在研究NLP作为一个领域在时间上变得更加可复现的程度。通过根据任务组织者和原始作者提供的指南,我们对40个输入的3个事实检查解释(包括一个黄金标准和两个模型的输出)进行了相对排名,评估了其覆盖范围。我们的复现和对原始结果的再分析结果支持原论文的发现,原始论文与我们的复现结果之间存在类似的模式。尽管我们观察到与原始结果略有不同的变化,但我们的发现支持原始作者关于其提出的模型的有效性的主要结论。
Apr, 2024