Mar, 2023

unarXive 2022: 包含结构化全文和引用网络的 NLP 预处理 arXiv 出版物

TL;DR提出了一个新版的数据集 unarXive,包含了跨越多学科和 32 年的 1.9 百万篇学术出版物,有更完整的引文网络和更丰富的文档结构表示方法和非文本内容的呈现。提供了用于引文推荐和 IMRaD 分类的训练 / 测试数据集。