arXiv.org 在计算机科学界的流行度
计算机科学领域的预印本在 arXiv 上发布后,通过引入基于语义的映射方法(使用了 BERT),我们发现所调研的预印本中的 66%发表时标题未变且 11%具有改变标题和其他修改。进一步的比较研究揭示了在计算机科学领域中,被发表的预印本具有充分的修订、多个作者、详细的摘要和导言、广泛且权威的参考文献以及可用的源代码。
Aug, 2023
本文介绍了 arXiv,它收集了来自物理学、数学和计算机科学等科学领域的 150 万篇预先印刷的文章,并提供了一个管道,标准化和简化 arXiv 的公开可用数据。该管道被用来提取和分析一个拥有 670 万边的引文图和一个包含 110 亿字的全文研究文章语料库。作者呈现了一些基线分类结果并推动了更加令人兴奋的生成图模型的应用。
Apr, 2019
分析了在线响应预印本的方法,通过研究三种响应形式 ——arXiv.org 上的下载,Twitter 上的提及,学术记录中的早期引用,发现 Twitter 和 arXiv 下载是不同的时间模式,并且它们与引用之间存在关联。
Feb, 2012
研究了在同行评审前发布预印本的影响,使用因果推断的方法分析 ICLR 会议(2018-2022)的数据,发现早期发布预印本可能对论文的接受率有少许影响,但该影响不受作者引用次数和机构排名这些因素的影响。
Jun, 2023
利用 arXiv 的元数据,通过学习这些数据中科学论文的主题标签,我们可以推断出其他大型语料库中与人工智能相关的论文,这种监督式方法可以一直更新,无需依赖于主题专家进行查询开发或标注。
Feb, 2020
本论文使用计量学方法分析计算机科学的元数据,并使用交互式 Web 应用程序 CS-Insights 进行数据可视化,发现了计算机科学领域在过去两十年中出现了大量新的作者和出版物,会议论文的受欢迎程度下降,期刊文章的引用次数更高。
Dec, 2022
人工智能(AI)领域中,自然语言处理(NLP)、机器学习(ML)和计算机视觉(CV)是主要的研究方向和研究领域,此篇研究报告通过对 arXiv 上最引用的论文的分析,对数据集特征、关键词的流行程度和全球机构的分布进行了研究,发现 NLP 在研究中占主导地位,并且美国在相关论文中占据主导地位,而欧洲在最引用的论文中表现较差。
Dec, 2023
近年来,资助机构和期刊越来越倡导开放科学实践(如数据和方法共享),以提高科学的透明度、可获取性和可重复性。本研究利用来自 arXiv 的 110 万篇论文的大规模数据集,代表了物理、数学和计算机科学领域,分析了随时间推移数据和方法链接共享实践的采用情况以及对文章接受程度的影响。我们通过训练神经文本分类模型来识别数据和方法链接,根据论文中的上下文提及自动分类 URL 类型。研究发现,随着时间推移,链接方法和数据的共享实践正在扩散,越来越多的论文包含此类 URL。可重复性努力也可能在扩散,因为相同的链接越来越多地在论文中被重复使用(特别是计算机科学领域),并且这些链接随时间越来越集中在更少的网域(如 Github)中。最后,分享数据和方法链接的文章在引用次数方面获得了增加的承认,当链接是有效的时候效果更强。这些发现共同证明了数据和方法共享实践在开放科学中的扩展和受到的重视。
Oct, 2023
通过分析在 Arxiv 上发布的学术组织制作的故意伪造内容的方法,本研究创建了使用物理学、数学和计算机科学文章的数据集,并发现 originality.ai 在检测中非常准确,准确率达到了 98%。
Feb, 2024