使用知识库进行食品安全出版物的专题分类
该研究通过使用大型语言模型,在科学文献中自动提取化学危害物,以实现食品安全领域的信息提取。最佳提示方法将任务分解为较小的步骤,平均准确率达到 93%,证实了大型语言模型在从科学文献中提取相关危害物方面的价值。
May, 2024
本研究提出了一种针对未知类别的科学文献的文本分类的新方法,使用自然语言处理技术。该研究利用预训练的语言模型(特别是 SciBERT)从 ArXiv 数据集的摘要中提取有意义的表示。文本分类使用 K-Means 算法进行,并根据 Silhouette 得分确定最佳聚类数。结果表明,所提出的方法比传统的 arXiv 标签系统更有效地捕捉主题信息,从而改善了文本分类。该方法为科学研究文献快速增长的领域提供了更好的导航和推荐系统的潜力。
Sep, 2023
通过利用抽象、将学术出版物自动分类为专业领域体系结构的一种基于模块化和分布式批量训练的层次分类系统 <discipline-field-subfield>,从而在知识生产和引用间捕捉相互依存的关系,进而更好地对学术出版物进行索引。
Feb, 2023
本研究提出了一种新的科学文献分类系统 SciNoBo,它采用多层网络结构,基于文献结构和引文引用,将文献分类到预定义的 Field-of-Science(FoS)分类法中,并能够支持多个领域的多学科学术文献分类,并在来自 Microsoft Academic Graph 的数据集上表现出高质量的分类能力。
Apr, 2022
本文介绍一种新的数据集 SciHTC,包含 186,160 篇论文和 1,233 个学科分类,建立了层次化多标签文本分类的强基线,并提出了一种多任务学习方法来进行主题分类,获得 Macro-F1 得分 34.57%,显示这个数据集提供了显著的研究机会。
Nov, 2022
本研究基于最先进的深度学习模型(SSN-4 模型),探讨了不同的模型组件对表现和复杂性之间的平衡,同时调整单词嵌入来提高性能,并提出了一个解决第一个模型中混淆的对的第二个模型。结果表明,SSN-4 模型似乎不适用于 RCT 数据集之外。
Jan, 2022
本文发展了一个用于层次化文本分类的决策支持系统,提出了一种加权层次化相似性函数来计算主题的相关性,并使用熵来估计权重。通过与其他方法比较,该加权层次化相似性函数在主题排名准确性方面有了更好的改进。
Jun, 2024
运用迁移学习,我们在计算机科学领域使用深度神经网络模型训练出三个共性的学术论文段落开头,分别是 BACKGROUND、TECHNIQUE 和 OBSERVATION,用以进行抽象语段级别的分割,并取得了 75% 的准确度。
May, 2020