Aug, 2019

arXiv.org 上的科学论文分类

TL;DR本论文介绍了一个新的科学语句分类任务,并发布了一个大规模数据集用于监督学习。通过对 arXiv.org 的机器可读表现形式进行数据派生,我们探索了 50 个作者注释的类别,并通过将 1050 万个注释段分组为 13 类进行了任务设计,以证明任务设置与已知最新技术的成功率相一致。通过 BiLSTM 编码解码模型,演示了其 0.91F1 得分的高峰。此外,我们介绍了一种数学公式的词汇串行化,并观察到当上下文感知模型还在符号模态上训练时,可以进一步提高模型的性能。最后,本文讨论了数据和任务设计的限制,并概述了走向科学话语越来越复杂模型的潜在方向,超越了孤立的语句