arXiv.org 上的科学论文分类

Aug, 2019

Scientific Statement Classification over arXiv.org

Deyan Ginev, Bruce R. Miller

TL;DR本论文介绍了一个新的科学语句分类任务，并发布了一个大规模数据集用于监督学习。通过对 arXiv.org 的机器可读表现形式进行数据派生，我们探索了 50 个作者注释的类别，并通过将 1050 万个注释段分组为 13 类进行了任务设计，以证明任务设置与已知最新技术的成功率相一致。通过 BiLSTM 编码解码模型，演示了其 0.91F1 得分的高峰。此外，我们介绍了一种数学公式的词汇串行化，并观察到当上下文感知模型还在符号模态上训练时，可以进一步提高模型的性能。最后，本文讨论了数据和任务设计的限制，并概述了走向科学话语越来越复杂模型的潜在方向，超越了孤立的语句

Abstract

We introduce a new classification task for scientific statements and release a large-scale dataset for supervised learning. Our resource i

scientific statements classification dataset machine-readable representation bilstm encoder-decoder model

发现论文，激发创造

基于自然语言处理的原始研究文章分类之外

本研究提出了一种针对未知类别的科学文献的文本分类的新方法，使用自然语言处理技术。该研究利用预训练的语言模型（特别是 SciBERT）从 ArXiv 数据集的摘要中提取有意义的表示。文本分类使用 K-Means 算法进行，并根据 Silhouette 得分确定最佳聚类数。结果表明，所提出的方法比传统的 arXiv 标签系统更有效地捕捉主题信息，从而改善了文本分类。该方法为科学研究文献快速增长的领域提供了更好的导航和推荐系统的潜力。

Sep, 2023

长篇科学文档的基于话语的无监督摘要

本文提出了一种基于无监督的基于图的排名模型，用于提取科学文献的摘要。我们的方法假定源文档采用两级分层图表示，并利用不对称的位置提示来确定句子的重要性。在 PubMed 和 arXiv 数据集上的结果表明，我们的方法在自动指标和人工评价方面优于强无监督基线。此外，其性能与许多基于监督学习的方法相当。这些结果表明，篇章结构中的模式是确定科学文章重要性的强有力信号。

May, 2020

科技写作支持的语言模型微调

本文提出了一种基于回归模型的科技句子识别方法，研究了科技公式和引文对于科技性评分的影响，构建了一种 AI 和机器学习标准文章版面的映射，提出了一种改进写作风格的软件，并训练了各种大型语言模型。

Jun, 2023

论 ArXiv 作为数据集的应用

本文介绍了 arXiv，它收集了来自物理学、数学和计算机科学等科学领域的 150 万篇预先印刷的文章，并提供了一个管道，标准化和简化 arXiv 的公开可用数据。该管道被用来提取和分析一个拥有 670 万边的引文图和一个包含 110 亿字的全文研究文章语料库。作者呈现了一些基线分类结果并推动了更加令人兴奋的生成图模型的应用。

Apr, 2019

科学文章句级嵌入的分类与聚类：对比学习生成

使用对比学习来微调句子 Transformer 模型，生成科学文章中的句子级嵌入，并将其用于科学文章中的句子分类任务，取得了显著的改进。

Mar, 2024

增强的 BERT 嵌入用于学术出版物分类

本研究报告介绍了基于预训练语言模型的转移学习方法在学术文献分类中的运用。通过丰富数据集、使用不同的预训练语言模型，并调整超参数，研究发现 fine-tuning 预训练模型可以显著提高分类性能，其中 SPECTER2 模型效果最佳。此外，将额外的元数据加入数据集，尤其是来自 S2AG、OpenAlex 和 Crossref 的信息，可以进一步提高分类结果。本研究对于构建可靠的自动化学术出版物分类系统具有重要意义，为研究人员高效定位相关资源提供了潜在解决方案。

May, 2024

科学文本中的人工智能开发与应用识别

利用 arXiv 的元数据，通过学习这些数据中科学论文的主题标签，我们可以推断出其他大型语料库中与人工智能相关的论文，这种监督式方法可以一直更新，无需依赖于主题专家进行查询开发或标注。

Feb, 2020

半监督神经标记的科学信息提取

本文通过将问题建模为序列标注，并利用半监督学习方法和数据选择方案，提出了一个基于神经标注模型的关键短语提取和分类算法，该算法在 2017 年 SemEval 科学信息抽取任务中明显优于现有信息抽取方法。

Aug, 2017

科学论文摘要的监督式提取方法

本文介绍了一种新的数据集，用于总结计算机科学出版物，展示了利用神经句子编码和传统的总结功能来开发模型的方式，并表明即使在传统的科学领域中，对句子的编码以及他们的本地和全局背景进行编码的模型也有很好的性能，并实现了明显优于已经建立的基准方法的结果。

Jun, 2017

SciTweets-- 用于检测科学在线话语的数据集和注释框架

本研究使用一个标注框架和对不同形式科学相关性的定义，对推文中的科学相关信息进行标注，通过训练多标签分类器检测科学相关性，并成功检测出不同范畴的科学知识（声明、参考文献）进行分析。

Jun, 2022