增强的 BERT 嵌入用于学术出版物分类

May, 2024

增强的 BERT 嵌入用于学术出版物分类

Enriched BERT Embeddings for Scholarly Publication Classification

Benjamin Wolff, Eva Seidlmayer, Konrad U. Förstner

TL;DR本研究报告介绍了基于预训练语言模型的转移学习方法在学术文献分类中的运用。通过丰富数据集、使用不同的预训练语言模型，并调整超参数，研究发现 fine-tuning 预训练模型可以显著提高分类性能，其中 SPECTER2 模型效果最佳。此外，将额外的元数据加入数据集，尤其是来自 S2AG、OpenAlex 和 Crossref 的信息，可以进一步提高分类结果。本研究对于构建可靠的自动化学术出版物分类系统具有重要意义，为研究人员高效定位相关资源提供了潜在解决方案。

Abstract

With the rapid expansion of academic literature and the proliferation of preprints, researchers face growing challenges in manually organizing and labeling large volumes of articles. The NSLP 2024 FoRC Shared Tas

academic literature preprints classifier transfer learning automated systems

发现论文，激发创造

评估基于 BERT 的科学关系分类器在数字图书馆馆藏中用于学术知识图谱构建的效果

通过对三个语料库进行互相匹配，开展了 BERT 模型的实证研究。实验结果显示，与其他变量相比，该领域特定的预训练 BERT 变体最适合于关系检测任务，并且单次预测一个关系的策略通常比同时识别多个关系的策略表现更好，同时研究的结论还可以帮助数字图书馆利益相关者选择最佳的知识图谱辅助技术。

May, 2023

将知识图谱嵌入 BERT 进行文档分类

本文介绍了利用深度学习模型 BERT，结合元数据和知识图谱嵌入编码，实现书籍分类的方法；相较于标准 BERT 方法，在 8 个标签和 343 个标签的分类任务中，分别取得了 87.20 和 64.70 的 F1 得分。

Sep, 2019

基于自然语言处理的原始研究文章分类之外

本研究提出了一种针对未知类别的科学文献的文本分类的新方法，使用自然语言处理技术。该研究利用预训练的语言模型（特别是 SciBERT）从 ArXiv 数据集的摘要中提取有意义的表示。文本分类使用 K-Means 算法进行，并根据 Silhouette 得分确定最佳聚类数。结果表明，所提出的方法比传统的 arXiv 标签系统更有效地捕捉主题信息，从而改善了文本分类。该方法为科学研究文献快速增长的领域提供了更好的导航和推荐系统的潜力。

Sep, 2023

利用基于 Transformer 的集成学习来分类科学论文

本文介绍了一个系统，它包括四个独立子系统，能够将科学文献的摘要分类到给定的七个类别中，通过对这四个子系统的集成，可以得到一个在测试和验证集上 F1 分数为 0.93 的最终系统，优于现有的最先进模型 SciBERT 的 F1 分数。

Feb, 2021

利用基于 BERT 的模型推动跨学科研究：通过 SciBERT-CNN 与主题建模的方法

该论文介绍了一种使用 SciBERT 模型和 CNN 的新方法，通过处理摘要、正文、标题和关键词等多个部分，以解决多标签文本分类中的语义关系和类别不平衡问题，并在文献综述效率方面取得显著改进。

Apr, 2024

学术知识图谱补全的三元分类

本文提出了一种利用预训练的 transformer 语言模型来执行学术知识图谱补全的方法 ——exBERT，并在三个学术知识图谱完成数据集上表现优异，还提供了两个学术数据集作为资源。

Nov, 2021

SPECTER: 基于引文信息的 Transformer 文档级表征学习

提出了一种新的方法 SPECTER 来基于引用图预训练 Transformer 语言模型以生成科学文件的文件级嵌入，在包括文献预测、文档分类和推荐等七种文档级任务上优于多种竞争基线。

Apr, 2020

科学文章句级嵌入的分类与聚类：对比学习生成

使用对比学习来微调句子 Transformer 模型，生成科学文章中的句子级嵌入，并将其用于科学文章中的句子分类任务，取得了显著的改进。

Mar, 2024

SciBERT : 一个针对科技文本的预训练语言模型

SciBERT 是一种无监督预训练的基于 BERT 的语言模型，用于解决获取高质量、大规模标注科学数据的难题，并在多个科学领域的数据集上展示出比传统 BERT 模型更卓越的性能。

Mar, 2019

基于 BERTology 模型的三阶段框架下的软件提及识别（SOMD 2024）

本文通过使用不同的预训练语言模型（BERT，SciBERT 和 XLM-R）提出了三个方法来解决学术出版物中软件提及检测的子任务 I。我们的最佳系统通过一个三阶段框架来解决命名实体识别问题，实验证明我们的方法在官方数据集上取得了竞争性的性能，超过了其他参赛队伍和我们的替代方法，基于 XLM-R 模型的框架达到了 67.80% 的加权 F1 得分，在软件提及识别任务中获得了第三名。

Apr, 2024