使用知识库进行食品安全出版物的专题分类

Jan, 2022

使用知识库进行食品安全出版物的专题分类

Topical Classification of Food Safety Publications with a Knowledge Base

Piotr Sowinski, Katarzyna Wasielewska-Michniewska, Maria Ganzha, Marcin Paprzycki

TL;DR提出了一种基于知识库的新型科学出版物分类器，可实现伸缩性并易于适应其他领域，分类速度和准确度在食品安全领域表现出令人满意的潜力。

Abstract

The vast body of scientific publications presents an increasing challenge of finding those that are relevant to a given research question, and making informed decisions on their basis. This becomes extremely difficult without the use of →

scientific publications automated tools classification knowledge base food safety

发现论文，激发创造

利用大型语言模型自动从科学文献中提取化学食品安全隐患

该研究通过使用大型语言模型，在科学文献中自动提取化学危害物，以实现食品安全领域的信息提取。最佳提示方法将任务分解为较小的步骤，平均准确率达到 93%，证实了大型语言模型在从科学文献中提取相关危害物方面的价值。

May, 2024

食品成分知识库的半自动化构建

本研究使用自然语言处理方法和预训练的 BioBERT 语言模型来构建一个半自动化的食物成分知识库，以提高生产和研究的效率。

Jan, 2023

基于自然语言处理的原始研究文章分类之外

本研究提出了一种针对未知类别的科学文献的文本分类的新方法，使用自然语言处理技术。该研究利用预训练的语言模型（特别是 SciBERT）从 ArXiv 数据集的摘要中提取有意义的表示。文本分类使用 K-Means 算法进行，并根据 Silhouette 得分确定最佳聚类数。结果表明，所提出的方法比传统的 arXiv 标签系统更有效地捕捉主题信息，从而改善了文本分类。该方法为科学研究文献快速增长的领域提供了更好的导航和推荐系统的潜力。

Sep, 2023

基于深度学习的 “Web of Science” 研究领域层次分类

通过利用抽象、将学术出版物自动分类为专业领域体系结构的一种基于模块化和分布式批量训练的层次分类系统 <discipline-field-subfield>，从而在知识生产和引用间捕捉相互依存的关系，进而更好地对学术出版物进行索引。

Feb, 2023

SciNoBo：一种基于层级多标签分类的科学出版物分类器

本研究提出了一种新的科学文献分类系统 SciNoBo，它采用多层网络结构，基于文献结构和引文引用，将文献分类到预定义的 Field-of-Science（FoS）分类法中，并能够支持多个领域的多学科学术文献分类，并在来自 Microsoft Academic Graph 的数据集上表现出高质量的分类能力。

Apr, 2022

科学文档的层次多标签分类

本文介绍一种新的数据集 SciHTC，包含 186,160 篇论文和 1,233 个学科分类，建立了层次化多标签文本分类的强基线，并提出了一种多任务学习方法来进行主题分类，获得 Macro-F1 得分 34.57％，显示这个数据集提供了显著的研究机会。

Nov, 2022

科技文献中的关键词提取

本文介绍了如何从科学出版物的摘要中提取关键词和关键短语，以便于下游任务，如知识图谱建设、文本挖掘和学科分类。

Jul, 2022

医学摘要的分类分节：一系列序列分类任务

本研究基于最先进的深度学习模型（SSN-4 模型），探讨了不同的模型组件对表现和复杂性之间的平衡，同时调整单词嵌入来提高性能，并提出了一个解决第一个模型中混淆的对的第二个模型。结果表明，SSN-4 模型似乎不适用于 RCT 数据集之外。

Jan, 2022

重要学术会议论文的层次主题分类

本文发展了一个用于层次化文本分类的决策支持系统，提出了一种加权层次化相似性函数来计算主题的相关性，并使用熵来估计权重。通过与其他方法比较，该加权层次化相似性函数在主题排名准确性方面有了更好的改进。

Jun, 2024

将科学摘要分成话语类别：一种基于深度学习的稀疏标记数据方法

运用迁移学习，我们在计算机科学领域使用深度神经网络模型训练出三个共性的学术论文段落开头，分别是 BACKGROUND、TECHNIQUE 和 OBSERVATION，用以进行抽象语段级别的分割，并取得了 75% 的准确度。

May, 2020