基于深度学习的 “Web of Science” 研究领域层次分类

Feb, 2023

基于深度学习的 “Web of Science” 研究领域层次分类

Hierarchical Classification of Research Fields in the "Web of Science" Using Deep Learning

Susie Xi Rao, Peter H. Egger, Ce Zhang

TL;DR通过利用抽象、将学术出版物自动分类为专业领域体系结构的一种基于模块化和分布式批量训练的层次分类系统 <discipline-field-subfield>，从而在知识生产和引用间捕捉相互依存的关系，进而更好地对学术出版物进行索引。

Abstract

The scholarly publication space is growing steadily not just in numbers but also in complexity due to collaboration between individuals from within and across fields of research. This paper presents a hierarchical classification system that automatically categorizes a →

scholarly publication hierarchical classification system interdisciplinarity automated classification pretrained models

发现论文，激发创造

科学文档的层次多标签分类

本文介绍一种新的数据集 SciHTC，包含 186,160 篇论文和 1,233 个学科分类，建立了层次化多标签文本分类的强基线，并提出了一种多任务学习方法来进行主题分类，获得 Macro-F1 得分 34.57％，显示这个数据集提供了显著的研究机会。

Nov, 2022

SciNoBo：一种基于层级多标签分类的科学出版物分类器

本研究提出了一种新的科学文献分类系统 SciNoBo，它采用多层网络结构，基于文献结构和引文引用，将文献分类到预定义的 Field-of-Science（FoS）分类法中，并能够支持多个领域的多学科学术文献分类，并在来自 Microsoft Academic Graph 的数据集上表现出高质量的分类能力。

Apr, 2022

将科学摘要分成话语类别：一种基于深度学习的稀疏标记数据方法

运用迁移学习，我们在计算机科学领域使用深度神经网络模型训练出三个共性的学术论文段落开头，分别是 BACKGROUND、TECHNIQUE 和 OBSERVATION，用以进行抽象语段级别的分割，并取得了 75% 的准确度。

May, 2020

研究计划分类的分层跨学科主题检测模型

研究如何使用 Hierarchical Interdisciplinary Research Proposal Classification Network (HIRPCN) 开发一个自动的跨学科课题路径检测系统，该系统使用分层变压器来提取文本语义信息，并使用 GNN 学习每个领域的特征表示，以提取跨学科知识和实现级别预测。在三个实际数据集上的实验和专家评估中，表明我们提出的模型的有效性。

Sep, 2022

学术期刊的神经嵌入揭示了复杂的领域组织

本研究提出了一种神经嵌入技术，利用引文网络中所含的信息来获得科学期刊的连续向量表示，实现了对期刊之间微妙关系的编码，以及科学的复杂学科和跨学科结构，从而进行学科之间的类比。此外，研究表明这些嵌入向量可以捕获多个学科之间的联系，包括从 “软” 到 “硬” 或从 “社会” 到 “生物” 的学科跨度等。该框架为科学研究提供了新的量化方法，进而促进了知识的创建和组织的研究。

Jan, 2020

基于自然语言处理的原始研究文章分类之外

本研究提出了一种针对未知类别的科学文献的文本分类的新方法，使用自然语言处理技术。该研究利用预训练的语言模型（特别是 SciBERT）从 ArXiv 数据集的摘要中提取有意义的表示。文本分类使用 K-Means 算法进行，并根据 Silhouette 得分确定最佳聚类数。结果表明，所提出的方法比传统的 arXiv 标签系统更有效地捕捉主题信息，从而改善了文本分类。该方法为科学研究文献快速增长的领域提供了更好的导航和推荐系统的潜力。

Sep, 2023

利用几何深度学习对分层文本进行分类：以临床试验语料库为例

使用几何深度学习方法将临床试验文件表示为图形，使用选择性图形汇集方法提高了分类准确性，最终在一个包含 360K 份临床试验文件的公共数据库上实现了 0.85 的 F1 分数。

Oct, 2021

重要学术会议论文的层次主题分类

本文发展了一个用于层次化文本分类的决策支持系统，提出了一种加权层次化相似性函数来计算主题的相关性，并使用熵来估计权重。通过与其他方法比较，该加权层次化相似性函数在主题排名准确性方面有了更好的改进。

Jun, 2024

一个面向 Web 规模的科学知识探索系统

本研究提出一种大规模系统，将科学出版物组织成层次化概念结构，建立了包含超过 20 万个概念和 100 万以上关系的跨领域科学概念本体论。

May, 2018

层次化 MixUp 多标签分类在不平衡的跨学科研究提议中的应用

本文提出了一种名为 H-MixUp 的层次混合多标签分类框架，利用基于转换器的语义信息提取器和基于 GCN 的跨学科知识提取器来解决交叉学科提案的模型分类问题。

Sep, 2022