NLP 研究的预注册
Van Miltenburg 等人 (2021) 建议采用预先注册以防止钓鱼式探索和促进负面结果的发表。我们讨论了其利弊,例如可能会增加发表偏见、p-hacking 等问题。
Feb, 2023
本文对预注册的历史透明度对研究结果可信度的作用进行了批判性审视,认为当研究人员提供当前假设和分析方法的清晰理由、研究数据、材料和代码的公开访问以及对替代解释和分析方法的研究结论的鲁棒性进行说明时,预注册的历史透明度并不能促进对研究结果的可信度的判断。
Oct, 2020
自然语言处理和人工智能方面的科学创新正在以前所未有的速度发展。当前关于其发展、应用和使用的利益和风险的辩论主要由 AI 安全和 AI 伦理运动主导,而在 NLP 研究中,对风险和危害监管的讨论越来越多,但缺乏系统的方法论和与相关领域的深入联系。为了加强与监管研究的关联,我们提倡开展一个针对风险和 NLP 的多学科研究空间(RegNLP),以系统的方法将科学知识与监管流程相结合。
Oct, 2023
通过对 ACL Anthology 中的研究论文进行系统分类和分析,我们提供了自然语言处理领域的研究概况、学科分类,分析了最近的发展,并总结了我们的发现并强调了未来工作的方向。
Jul, 2023
本文通过编制全面的生物医学 NLP 基准测试集,证明了在丰富的未标记文本的领域中,从头开始针对特定领域的预训练语言模型相对于持续预训练通用领域语言模型,能够显著提高生物医学 NLP 任务的效果,并发现一些常用做法不必要。我们为社区发布了我们的最新预训练和任务特定模型,并创建了一个包含我们的 BLURB 基准测试的排行榜。
Jul, 2020
本文分析了先前的和当前的 NLP 研究中所考虑的伦理方面,通过比较其他学科的研究,比较了 ACL 文集的趋势,发现 NLP 研究中的规范伦理审查正在迅速上升。
Jun, 2021
本文着重探讨自然语言处理领域在过去几年中发展所遇到的问题,其中包括时间分配不足带来的障碍,提出了相关解决方法,并希望启动有关常见做法是否有益于 NLP 研究的讨论。
Nov, 2022
本文主要介绍了预训练模型在自然语言处理领域的应用。首先简要介绍了语言表示学习及其研究进展,然后系统地从四个角度分类现有的预训练模型,接下来介绍如何将预训练模型的知识应用于下游任务,并提出了一些未来研究的潜在方向。该综述旨在成为一个操作性指南,帮助理解、使用和开发各种自然语言处理任务的预训练模型。
Mar, 2020