Feb, 2024

引证遗忘症:自然语言处理与其他学术领域正经历引证时代的衰退

TL;DR研究调查了在 20 个学科领域长达 43 年(1980-2023 年)内引用老旧文献的倾向。我们将 NLP 引用老旧文献的趋势与其他 20 个领域的情况进行比较,分析 NLP 是否与这些领域在引用时间上存在相似的模式或是否可以观察到差异。我们的分析基于大约 2.4 亿篇论文的数据集,揭示了一个更广泛的科学趋势:许多领域在引用老旧文献方面明显减少(例如心理学、计算机科学)。我们将这种减少称为 “引文衰退时期”,类似于经济学家对减少经济活动的定义。这一趋势在 NLP 和机器学习研究中最为明显(引文年龄下降 12.8% 和 5.5%)。我们的结果表明,引用更近期的文献并不是直接由出版率的增长所驱动(跨领域下降 3.4%,人文学科下降 5.2%,形式科学下降 5.5%)- 即使考虑到论文数量的增加。我们的研究结果引发了关于科学界对过去文献的参考情况的质疑,特别是对于 NLP,并且关于忽视老旧但相关研究的潜在后果。我们的数据和演示结果已经公开提供。