一种用于科学领域行为分析的引文分类方法

Sep, 2016

一种用于科学领域行为分析的引文分类方法

Citation Classification for Behavioral Analysis of a Scientific Field

David Jurgens, Srijan Kumar, Raine Hoover, Dan McFarland, Dan Jurafsky

TL;DR该研究通过分析近 2,000 份自然语言处理领域内的引用来研究作者引用的方式和读者跟随引用的方式，发现作者的引用方式受到话语结构和出版场所的影响，聚焦于前后文而非方法。还证明了如何引用相关工作能够预测一篇论文的引用次数，并且引用角色的变化表明 NLP 领域正在经历一次重大的共识增加。

Abstract

citations are an important indicator of the state of a scientific field, reflecting how authors frame their work, and influencing uptake by future scholars. However, our understanding of citation behavior has bee

citations scientific field behavioral study natural language processing consensus

发现论文，激发创造

引证遗忘症：自然语言处理与其他学术领域正经历引证时代的衰退

研究调查了在 20 个学科领域长达 43 年（1980-2023 年）内引用老旧文献的倾向。我们将 NLP 引用老旧文献的趋势与其他 20 个领域的情况进行比较，分析 NLP 是否与这些领域在引用时间上存在相似的模式或是否可以观察到差异。我们的分析基于大约 2.4 亿篇论文的数据集，揭示了一个更广泛的科学趋势：许多领域在引用老旧文献方面明显减少（例如心理学、计算机科学）。我们将这种减少称为 “引文衰退时期”，类似于经济学家对减少经济活动的定义。这一趋势在 NLP 和机器学习研究中最为明显（引文年龄下降 12.8% 和 5.5%）。我们的结果表明，引用更近期的文献并不是直接由出版率的增长所驱动（跨领域下降 3.4%，人文学科下降 5.2%，形式科学下降 5.5%）- 即使考虑到论文数量的增加。我们的研究结果引发了关于科学界对过去文献的参考情况的质疑，特别是对于 NLP，并且关于忽视老旧但相关研究的潜在后果。我们的数据和演示结果已经公开提供。

Feb, 2024

忘却之知：探讨 NLP 领域里的引用失忆症

通过分析大约 71.5K 篇论文，系统而实证地研究了引文的广泛时空模式，重点关注了 NLP 领域，发现引用文献的年代多集中在最近 5 年，而且引用多样性呈下降趋势，最近十年高引用论文的引文多样性也较低。

May, 2023

自然语言处理中是否存在引用年龄偏见？

在这项研究中，通过分析在 2013 至 2022 年期间提交到流行的预印本服务器 Arxiv 的大约 300,000 篇涉及 15 个不同科学领域的论文的参考文献，我们发现所有人工智能子领域（尤其是 cs.AI，cs.CL，cs.CV，cs.LG）都存在相似的引证年龄健忘现象，参考文献的年龄平均减半（从 2013 年的 12 岁以上减少到 2022 年的 7 岁以下），这种趋势并非是 NLP 社区的引证年龄偏见，而是这些研究领域的动态造成的。

Jan, 2024

高影响引用

本研究通过研究论文引用的出版物之间的引证，开发了 “引证投影图” 概念，并探究了引用模式在不同科学领域中的变化以及这种模式如何反映了论文的科学影响力。研究发现，低影响论文具有特有的引用模式，而中等影响论文具有狭窄、学科专注的引用模式。跨学科引用模式既有高风险又有高收益，越来越多的引用网络呈现出跨学科的趋势。

Apr, 2010

我们所引证的人：“自然语言处理” 与其他学术领域之间的影响桥梁

量化分析了 NLP 和其他 23 个学科领域（相互）之间的影响程度，结果显示 NLP 的学科交叉合作程度下降，自 1980 年的 0.58 降至 2022 年的 0.31（历史最低），同时 NLP 的学术引用越来越内向，主要引用计算机科学领域的论文，而对语言学、数学和心理学等领域的引用较少，这些研究结果凸显了 NLP 需要紧急反思与其他学科领域的合作交流。

Oct, 2023

识别影响出版趋势与行为的因果关系：计算语言学界的案例研究

本文利用混合方法分析了互联网上关于计算语言学的出版趋势、行为对研究聚焦点 —— 方法、材料和任务 —— 的采用、持久和退役的因果影响，发现了快速新方法 —— 双向 LSTMs 的引入影响了 LSTMs 的退役，深度学习，嵌入，生成和语言模型等趋势任务和技术在研究社区中持续受关注，并发现科学家所在地（中国等）和大规模研究项目的资金可能会对超出英语之外的语言进行研究的倾向产生影响。这项工作为计算语言学和更广泛的科学社区提供了有用的见解，提高了关于因果推断的潜力的认识。

Oct, 2021

利用 ChatGPT 进行科学文章引文的情感分析：识别潜在偏见与利益冲突

利用大型语言模型，特别是 ChatGPT，进行对科学文献中引用的情感分析是一项创新的方法，可以提供关于引用作品影响和接受程度的洞见。通过利用先进的自然语言处理技术，ChatGPT 可以辨别引文的微妙积极或消极性，进而为引用作品的接受程度和影响力提供了有价值的洞察。此外，ChatGPT 还能够检测引文中潜在的偏见和利益冲突，增强科学文献评价的客观性和可靠性。这项研究展示了人工智能辅助工具在提升引用分析和促进学术研究诚信方面的潜力。

Apr, 2024

新闻分析中的点点滴滴：媒体偏见与框架的跨学科调查

新闻报道中的偏见表现和影响是社会科学的核心主题，近年来在自然语言处理领域受到了越来越多的关注。本研究综述了社会科学的方法，并将其与自然语言处理领域中用于分析媒体偏见的典型任务表述、方法和评估指标进行了对比。我们讨论了开放性问题，并提出了可能的研究方向，以填补理论与预测模型之间及其评估之间的差距。这些包括模型透明度、考虑文档外部信息以及跨文档推理而非单一标签的分配。

Sep, 2023

使用提示识别科学论文中的引用意图

使用 CitePrompt 框架进行引用目的分类，首次将分类转化为少样本和零样本设置，并证明使用预训练语言模型来构建提示 (template) 和提示变换器 (verbalizer) 可以获得比最优方法更好的结果，且只需要更少的外部信息。在 ACL-ARC 数据集上取得了最优结果，证明少样本和零样本学习可以稍微减轻 “标记样本偏少” 的问题。

Apr, 2023

图书馆员参与的自然语言处理范式：检测学术文献中对研究数据的非正式提及

提出了一种基于自然语言处理（NLP）范例的方法，帮助识别研究数据集的非正式提及，该模型通过数据引文和人工注释训练，支持 ICPSR 图书馆员的数据工作。

Mar, 2022