基于自然语言处理的原始研究文章分类之外

Sep, 2023

基于自然语言处理的原始研究文章分类之外

Beyond original Research Articles Categorization via NLP

Rosanna Turrisi

TL;DR本研究提出了一种针对未知类别的科学文献的文本分类的新方法，使用自然语言处理技术。该研究利用预训练的语言模型（特别是 SciBERT）从 ArXiv 数据集的摘要中提取有意义的表示。文本分类使用 K-Means 算法进行，并根据 Silhouette 得分确定最佳聚类数。结果表明，所提出的方法比传统的 arXiv 标签系统更有效地捕捉主题信息，从而改善了文本分类。该方法为科学研究文献快速增长的领域提供了更好的导航和推荐系统的潜力。

Abstract

This work proposes a novel approach to text categorization -- for unknown categories -- in the context of scientific literature, using Natural Language Processing techniques. The study leverages the power of pre-

text categorization unknown categories scientific literature natural language processing pre-trained language models

发现论文，激发创造

arXiv.org 上的科学论文分类

本论文介绍了一个新的科学语句分类任务，并发布了一个大规模数据集用于监督学习。通过对 arXiv.org 的机器可读表现形式进行数据派生，我们探索了 50 个作者注释的类别，并通过将 1050 万个注释段分组为 13 类进行了任务设计，以证明任务设置与已知最新技术的成功率相一致。通过 BiLSTM 编码解码模型，演示了其 0.91F1 得分的高峰。此外，我们介绍了一种数学公式的词汇串行化，并观察到当上下文感知模型还在符号模态上训练时，可以进一步提高模型的性能。最后，本文讨论了数据和任务设计的限制，并概述了走向科学话语越来越复杂模型的潜在方向，超越了孤立的语句

Aug, 2019

利用基于 BERT 的模型推动跨学科研究：通过 SciBERT-CNN 与主题建模的方法

该论文介绍了一种使用 SciBERT 模型和 CNN 的新方法，通过处理摘要、正文、标题和关键词等多个部分，以解决多标签文本分类中的语义关系和类别不平衡问题，并在文献综述效率方面取得显著改进。

Apr, 2024

自动文本分类中的机器学习

介绍了文本分类中主流的基于机器学习技术的方法，并就文档表示、分类器构建和评估等三个问题展开讨论。

Oct, 2001

增强的 BERT 嵌入用于学术出版物分类

本研究报告介绍了基于预训练语言模型的转移学习方法在学术文献分类中的运用。通过丰富数据集、使用不同的预训练语言模型，并调整超参数，研究发现 fine-tuning 预训练模型可以显著提高分类性能，其中 SPECTER2 模型效果最佳。此外，将额外的元数据加入数据集，尤其是来自 S2AG、OpenAlex 和 Crossref 的信息，可以进一步提高分类结果。本研究对于构建可靠的自动化学术出版物分类系统具有重要意义，为研究人员高效定位相关资源提供了潜在解决方案。

May, 2024

科学文本中的人工智能开发与应用识别

利用 arXiv 的元数据，通过学习这些数据中科学论文的主题标签，我们可以推断出其他大型语料库中与人工智能相关的论文，这种监督式方法可以一直更新，无需依赖于主题专家进行查询开发或标注。

Feb, 2020

将科学摘要分成话语类别：一种基于深度学习的稀疏标记数据方法

运用迁移学习，我们在计算机科学领域使用深度神经网络模型训练出三个共性的学术论文段落开头，分别是 BACKGROUND、TECHNIQUE 和 OBSERVATION，用以进行抽象语段级别的分割，并取得了 75% 的准确度。

May, 2020

半监督神经标记的科学信息提取

本文通过将问题建模为序列标注，并利用半监督学习方法和数据选择方案，提出了一个基于神经标注模型的关键短语提取和分类算法，该算法在 2017 年 SemEval 科学信息抽取任务中明显优于现有信息抽取方法。

Aug, 2017

生物医学文献中实验方法的自动文本挖掘

生物医学文献是一个迅速扩展的科学技术领域，本研究提出了 Fine-tuned DistilBERT 方法，这是一种专门针对生物医学文本的预训练生成分类语言模型，通过 40% 减小 BERT 模型尺寸和 60% 的速度提升，证明其在语言理解能力上的有效性。本论文的主要目标是改进模型并评估其性能，以与非 Fine-tuned 模型进行对比。我们使用 DistilBERT 作为支持模型，在包括 32,000 篇摘要和完整文本文章的语料库上进行了预训练，其结果令人印象深刻，超过了使用 RNN 或 LSTM 的传统文献分类方法。我们的目标是将这个高度专业和特定的模型整合到不同的研究行业中。

Apr, 2024

科学文献中新兴概念的高精度提取

本文提出了一种基于无监督方法的科学文献概念提取方法，通过挖掘后续论文中引用某篇文章的数量，提高了从计算机科学论文语料库中提取概念的精确度，Precision@1000 为 99％。

Jun, 2020

利用大型语言模型自动化科学文章的分类和趋势分析：以眼科为例应用

提出了一种基于大型语言模型的自动化文章分类方法，主要关注眼科领域，但可扩展到其他领域，采用自然语言处理技术，包括零 - shot 学习的 LLM 模型，通过比较不同变种的 BART，BERT 以及其变种（如 distilBERT，SciBERT，PubmedBERT，BioBERT），证明了 LLM 在无人干预的情况下，对大量眼科论文进行分类的有效性，通过趋势分析使得研究人员和临床医生能够轻松分类和检索相关论文，在文献综述、信息收集、以及不同学科领域内新兴科学趋势识别方面节省时间和精力，同时，该模型在其他科学领域的可扩展性也拓宽了其在促进研究和趋势分析方面的影响。

Aug, 2023