arXiv.org 在计算机科学界的流行度

Oct, 2017

Popularity of arXiv.org within Computer Science

Charles Sutton, Linan Gong

TL;DR本文探讨了计算机科学领域论文的电子出版方面的实践，研究发现使用 arXiv.org 网站来发布电子版论文的人数增长迅速，各学科领域在使用该网站进行论文发布方面存在较大的差异，同时也讨论了该方法对同行评议的影响。

Abstract

It may seem surprising that, out of all areas of science, computer scientists have been slow to post electronic versions of papers on sites like arxiv.org. Instead, computer scientists have tended to place papers on our individual home pages, but this loses the benefits of aggregation,

computer science arxiv prepublication peer review e-prints

发现论文，激发创造

计算机科学 arXiv 上的预印本有多少被实际打印了，以及为什么

计算机科学领域的预印本在 arXiv 上发布后，通过引入基于语义的映射方法（使用了 BERT），我们发现所调研的预印本中的 66％发表时标题未变且 11％具有改变标题和其他修改。进一步的比较研究揭示了在计算机科学领域中，被发表的预印本具有充分的修订、多个作者、详细的摘要和导言、广泛且权威的参考文献以及可用的源代码。

Aug, 2023

论 ArXiv 作为数据集的应用

本文介绍了 arXiv，它收集了来自物理学、数学和计算机科学等科学领域的 150 万篇预先印刷的文章，并提供了一个管道，标准化和简化 arXiv 的公开可用数据。该管道被用来提取和分析一个拥有 670 万边的引文图和一个包含 110 亿字的全文研究文章语料库。作者呈现了一些基线分类结果并推动了更加令人兴奋的生成图模型的应用。

Apr, 2019

科学界如何对新提交的预印本作出反应：文章下载量、Twitter 提及和引用

分析了在线响应预印本的方法，通过研究三种响应形式 ——arXiv.org 上的下载，Twitter 上的提及，学术记录中的早期引用，发现 Twitter 和 arXiv 下载是不同的时间模式，并且它们与引用之间存在关联。

Feb, 2012

估计提前上传 arXiv 对论文被接受的因果效应

研究了在同行评审前发布预印本的影响，使用因果推断的方法分析 ICLR 会议（2018-2022）的数据，发现早期发布预印本可能对论文的接受率有少许影响，但该影响不受作者引用次数和机构排名这些因素的影响。

Jun, 2023

科学文本中的人工智能开发与应用识别

利用 arXiv 的元数据，通过学习这些数据中科学论文的主题标签，我们可以推断出其他大型语料库中与人工智能相关的论文，这种监督式方法可以一直更新，无需依赖于主题专家进行查询开发或标注。

Feb, 2020

早期网站使用统计数据作为后续引文影响的预测因子

本研究分析了短期网络使用情况对中期引证影响的预测作用，以文章引用计数、Web 阅读次数及 e-print 论文库为研究对象。

Mar, 2005

使用 DBLP Discovery 数据集分析计算机科学研究的现状

本论文使用计量学方法分析计算机科学的元数据，并使用交互式 Web 应用程序 CS-Insights 进行数据可视化，发现了计算机科学领域在过去两十年中出现了大量新的作者和出版物，会议论文的受欢迎程度下降，期刊文章的引用次数更高。

Dec, 2022

NLLG 季度 arXiv 报告 09/23：当前最有影响力的人工智能论文是什么？

人工智能（AI）领域中，自然语言处理（NLP）、机器学习（ML）和计算机视觉（CV）是主要的研究方向和研究领域，此篇研究报告通过对 arXiv 上最引用的论文的分析，对数据集特征、关键词的流行程度和全球机构的分布进行了研究，发现 NLP 在研究中占主导地位，并且美国在相关论文中占据主导地位，而欧洲在最引用的论文中表现较差。

Dec, 2023

开放科学的兴起：追踪数据和方法共享实践的演变和感知价值

近年来，资助机构和期刊越来越倡导开放科学实践（如数据和方法共享），以提高科学的透明度、可获取性和可重复性。本研究利用来自 arXiv 的 110 万篇论文的大规模数据集，代表了物理、数学和计算机科学领域，分析了随时间推移数据和方法链接共享实践的采用情况以及对文章接受程度的影响。我们通过训练神经文本分类模型来识别数据和方法链接，根据论文中的上下文提及自动分类 URL 类型。研究发现，随着时间推移，链接方法和数据的共享实践正在扩散，越来越多的论文包含此类 URL。可重复性努力也可能在扩散，因为相同的链接越来越多地在论文中被重复使用（特别是计算机科学领域），并且这些链接随时间越来越集中在更少的网域（如 Github）中。最后，分享数据和方法链接的文章在引用次数方面获得了增加的承认，当链接是有效的时候效果更强。这些发现共同证明了数据和方法共享实践在开放科学中的扩展和受到的重视。

Oct, 2023

学术研究中的 AI 生成文本的定量分析：使用 AI 检测工具研究 Arxiv 提交中的 AI 存在

通过分析在 Arxiv 上发布的学术组织制作的故意伪造内容的方法，本研究创建了使用物理学、数学和计算机科学文章的数据集，并发现 originality.ai 在检测中非常准确，准确率达到了 98%。

Feb, 2024