ICLRApr, 2019
论 ArXiv 作为数据集的应用
On the Use of ArXiv as a Dataset
Colin B. Clement, Matthew Bierbaum, Kevin P. O'Keeffe, Alexander A. Alemi
TL;DR本文介绍了 arXiv,它收集了来自物理学、数学和计算机科学等科学领域的 150 万篇预先印刷的文章,并提供了一个管道,标准化和简化 arXiv 的公开可用数据。该管道被用来提取和分析一个拥有 670 万边的引文图和一个包含 110 亿字的全文研究文章语料库。作者呈现了一些基线分类结果并推动了更加令人兴奋的生成图模型的应用。