从文本中提取数学概念
我们开发了一个原型系统 Parmesan,用于在上下文中搜索和定义数学概念,以帮助不熟悉数学概念的研究人员,该系统依赖于自然语言处理组件,包括概念提取、关系提取、定义提取和实体链接技术,并提供了两个修订后的数学语料库。
Jul, 2023
本文旨在提供可用于研究数学语言的不同背景下的带有注释的文献资料,并使用神经解析模型和人工干预预处理这些资料,以提供词性标签、词形还原和依赖树。我们评估了几种自然语言处理模型,在从文献资料中提取的基准数据上测试它们的性能,并展示它们在数学领域中的适应性和对于探索数学语言的有用性。虽然我们提供了学习助手以在特定环境中访问这些资料内容,进一步的工作仍然需要进行以使模型更好地适应数学,并提供更有效的学习助手以及将自然语言处理方法应用于不同的数学领域。
Jun, 2024
本文提出了一种基于无监督方法的科学文献概念提取方法,通过挖掘后续论文中引用某篇文章的数量,提高了从计算机科学论文语料库中提取概念的精确度,Precision@1000 为 99%。
Jun, 2020
利用无监督学习方法构建知识图谱,将自然语言概念实体与源代码实体相关联,结合词嵌入、降维和聚类技术的文本概念聚类方法,用于帮助科学家理解、组织和比较开放科学生态系统中的软件,并增强对科学文献的整体理解。
Aug, 2019
本研究使用三种预训练的 BERT 模型对数学英语 (使用 LaTeX 编写) 的 “定义提取” 任务进行微调,将其作为一个二元分类问题。通过对原始数据集 “芝加哥” 和 “TAC” 的微调和测试,以及与 Vanetik 和 Litvak 在 2021 年提出的 WFMALL 数据集的对比测试,我们发现高性能的 Sentence-BERT transformer 模型在整体准确度、召回率和精确度等指标上表现最佳,且相较于早期模型,所需的计算资源更少。
Jun, 2024
该研究提出了一种基于 FCA 的新方法,通过对文本语料库中的上下文信息进行建模和分析,以自动获取层次结构的概念分类。在旅游和金融领域应用比手工分类更有效。
Sep, 2011
本文介绍了针对文本数据的关键词提取和文本摘要的处理方法,介绍了一种基于 TextRank 算法的无监督学习方法,在其基础上提高了算法的效率,并针对其忽略了不同部分的语义相似性进行了改进。此外,还开发了一种基于该框架的主题聚类算法,可单独使用或作为生成摘要的一部分来解决文本覆盖问题。
Dec, 2022
本研究提出了一种针对未知类别的科学文献的文本分类的新方法,使用自然语言处理技术。该研究利用预训练的语言模型(特别是 SciBERT)从 ArXiv 数据集的摘要中提取有意义的表示。文本分类使用 K-Means 算法进行,并根据 Silhouette 得分确定最佳聚类数。结果表明,所提出的方法比传统的 arXiv 标签系统更有效地捕捉主题信息,从而改善了文本分类。该方法为科学研究文献快速增长的领域提供了更好的导航和推荐系统的潜力。
Sep, 2023
该研究提出了一种方法,通过对句子和文档的主题进行深入理解,不仅分析数据中的词频,而且可以检测包括非常见词或新词在内的潜在主题,还使用了基于语义空间的异类词和相似性度量等新的评价指标,并通过与人工识别相似性度量的相关系数,在文本挖掘方面展现出优秀的性能结果。
Mar, 2023