NLP 研究的预注册

MMMar, 2021

Preregistering NLP Research

Emiel van Miltenburg, Chris van der Lee, Emiel Krahmer

TL;DR本篇论文讨论了预注册在自然语言处理 (NLP) 研究中的应用，提出了不同类型研究的预注册问题和支持基于注册报告的慢科学。旨在引发 NLP 学术界的讨论，并为未来研究综合成一般性的 NLP 预注册表单。

Abstract

preregistration refers to the practice of specifying what you are going to do, and what you expect to find in your study, before carrying out the study. This practice is increasingly common in medicine and psychology, but is rarely discussed in →

preregistration nlp researchers registered reports slow science

发现论文，激发创造

自然语言处理研究的预注册讨论

Van Miltenburg 等人 (2021) 建议采用预先注册以防止钓鱼式探索和促进负面结果的发表。我们讨论了其利弊，例如可能会增加发表偏见、p-hacking 等问题。

Feb, 2023

预注册是否提高研究结果的可信度？

本文对预注册的历史透明度对研究结果可信度的作用进行了批判性审视，认为当研究人员提供当前假设和分析方法的清晰理由、研究数据、材料和代码的公开访问以及对替代解释和分析方法的研究结论的鲁棒性进行说明时，预注册的历史透明度并不能促进对研究结果的可信度的判断。

Oct, 2020

规范和自然语言处理：驯服大型语言模型

自然语言处理和人工智能方面的科学创新正在以前所未有的速度发展。当前关于其发展、应用和使用的利益和风险的辩论主要由 AI 安全和 AI 伦理运动主导，而在 NLP 研究中，对风险和危害监管的讨论越来越多，但缺乏系统的方法论和与相关领域的深入联系。为了加强与监管研究的关联，我们提倡开展一个针对风险和 NLP 的多学科研究空间（RegNLP），以系统的方法将科学知识与监管流程相结合。

Oct, 2023

编程自然语言处理调查

本文综述了自然语言处理在编程方面的研究，并从推理模型到最新竞争级模型全面调查了现有的相关工作，具有技术类别的完整性，方便查找和比较未来的工作。

Dec, 2022

自然语言处理研究的探索之旅

通过对 ACL Anthology 中的研究论文进行系统分类和分析，我们提供了自然语言处理领域的研究概况、学科分类，分析了最近的发展，并总结了我们的发现并强调了未来工作的方向。

Jul, 2023

自然语言处理可重现性研究的系统综述

研究了自然语言处理领域内可重复性的困境，探索了不同声音和共通点。

Mar, 2021

针对生物医学自然语言处理的领域特定语言模型预训练

本文通过编制全面的生物医学 NLP 基准测试集，证明了在丰富的未标记文本的领域中，从头开始针对特定领域的预训练语言模型相对于持续预训练通用领域语言模型，能够显著提高生物医学 NLP 任务的效果，并发现一些常用做法不必要。我们为社区发布了我们的最新预训练和任务特定模型，并创建了一个包含我们的 BLURB 基准测试的排行榜。

Jul, 2020

自然语言处理文献中正式伦理审查的使用：历史趋势和当前实践

本文分析了先前的和当前的 NLP 研究中所考虑的伦理方面，通过比较其他学科的研究，比较了 ACL 文集的趋势，发现 NLP 研究中的规范伦理审查正在迅速上升。

Jun, 2021

自然语言处理研究的主要障碍：让我们谈谈时间分配！

本文着重探讨自然语言处理领域在过去几年中发展所遇到的问题，其中包括时间分配不足带来的障碍，提出了相关解决方法，并希望启动有关常见做法是否有益于 NLP 研究的讨论。

Nov, 2022

自然语言处理的预训练模型：一项调查

本文主要介绍了预训练模型在自然语言处理领域的应用。首先简要介绍了语言表示学习及其研究进展，然后系统地从四个角度分类现有的预训练模型，接下来介绍如何将预训练模型的知识应用于下游任务，并提出了一些未来研究的潜在方向。该综述旨在成为一个操作性指南，帮助理解、使用和开发各种自然语言处理任务的预训练模型。

Mar, 2020