基于深度学习的 “Web of Science” 研究领域层次分类
本文介绍一种新的数据集 SciHTC,包含 186,160 篇论文和 1,233 个学科分类,建立了层次化多标签文本分类的强基线,并提出了一种多任务学习方法来进行主题分类,获得 Macro-F1 得分 34.57%,显示这个数据集提供了显著的研究机会。
Nov, 2022
本研究提出了一种新的科学文献分类系统 SciNoBo,它采用多层网络结构,基于文献结构和引文引用,将文献分类到预定义的 Field-of-Science(FoS)分类法中,并能够支持多个领域的多学科学术文献分类,并在来自 Microsoft Academic Graph 的数据集上表现出高质量的分类能力。
Apr, 2022
运用迁移学习,我们在计算机科学领域使用深度神经网络模型训练出三个共性的学术论文段落开头,分别是 BACKGROUND、TECHNIQUE 和 OBSERVATION,用以进行抽象语段级别的分割,并取得了 75% 的准确度。
May, 2020
研究如何使用 Hierarchical Interdisciplinary Research Proposal Classification Network (HIRPCN) 开发一个自动的跨学科课题路径检测系统,该系统使用分层变压器来提取文本语义信息,并使用 GNN 学习每个领域的特征表示,以提取跨学科知识和实现级别预测。在三个实际数据集上的实验和专家评估中,表明我们提出的模型的有效性。
Sep, 2022
本研究提出了一种神经嵌入技术,利用引文网络中所含的信息来获得科学期刊的连续向量表示,实现了对期刊之间微妙关系的编码,以及科学的复杂学科和跨学科结构,从而进行学科之间的类比。此外,研究表明这些嵌入向量可以捕获多个学科之间的联系,包括从 “软” 到 “硬” 或从 “社会” 到 “生物” 的学科跨度等。该框架为科学研究提供了新的量化方法,进而促进了知识的创建和组织的研究。
Jan, 2020
本研究提出了一种针对未知类别的科学文献的文本分类的新方法,使用自然语言处理技术。该研究利用预训练的语言模型(特别是 SciBERT)从 ArXiv 数据集的摘要中提取有意义的表示。文本分类使用 K-Means 算法进行,并根据 Silhouette 得分确定最佳聚类数。结果表明,所提出的方法比传统的 arXiv 标签系统更有效地捕捉主题信息,从而改善了文本分类。该方法为科学研究文献快速增长的领域提供了更好的导航和推荐系统的潜力。
Sep, 2023
使用几何深度学习方法将临床试验文件表示为图形,使用选择性图形汇集方法提高了分类准确性,最终在一个包含 360K 份临床试验文件的公共数据库上实现了 0.85 的 F1 分数。
Oct, 2021
本文发展了一个用于层次化文本分类的决策支持系统,提出了一种加权层次化相似性函数来计算主题的相关性,并使用熵来估计权重。通过与其他方法比较,该加权层次化相似性函数在主题排名准确性方面有了更好的改进。
Jun, 2024
本文提出了一种名为 H-MixUp 的层次混合多标签分类框架,利用基于转换器的语义信息提取器和基于 GCN 的跨学科知识提取器来解决交叉学科提案的模型分类问题。
Sep, 2022