从文本中提取数学概念

Aug, 2022

Extracting Mathematical Concepts from Text

Jacob Collard, Valeria de Paiva, Brendan Fong, Eswaran Subrahmanian

TL;DR本文探讨了使用四种不同的术语提取器从数学范畴论的英文文本中提取数学实体的系统，作为构建数学知识图的第一步。研究还提供了两个开放数据集，以支持在数学领域进行研究。

Abstract

We investigate different systems for extracting mathematical entities from English texts in the mathematical field of category theory as a first step for constructing a →

mathematical entities term extractors mathematical knowledge graph category theory open corpora

发现论文，激发创造

Parmesan 教育数学概念提取

我们开发了一个原型系统 Parmesan，用于在上下文中搜索和定义数学概念，以帮助不熟悉数学概念的研究人员，该系统依赖于自然语言处理组件，包括概念提取、关系提取、定义提取和实体链接技术，并提供了两个修订后的数学语料库。

Jul, 2023

数学实体：语料库与基准

本文旨在提供可用于研究数学语言的不同背景下的带有注释的文献资料，并使用神经解析模型和人工干预预处理这些资料，以提供词性标签、词形还原和依赖树。我们评估了几种自然语言处理模型，在从文献资料中提取的基准数据上测试它们的性能，并展示它们在数学领域中的适应性和对于探索数学语言的有用性。虽然我们提供了学习助手以在特定环境中访问这些资料内容，进一步的工作仍然需要进行以使模型更好地适应数学，并提供更有效的学习助手以及将自然语言处理方法应用于不同的数学领域。

Jun, 2024

科学文献中新兴概念的高精度提取

本文提出了一种基于无监督方法的科学文献概念提取方法，通过挖掘后续论文中引用某篇文章的数量，提高了从计算机科学论文语料库中提取概念的精确度，Precision@1000 为 99％。

Jun, 2020

无监督从文本和代码构建知识图谱

利用无监督学习方法构建知识图谱，将自然语言概念实体与源代码实体相关联，结合词嵌入、降维和聚类技术的文本概念聚类方法，用于帮助科学家理解、组织和比较开放科学生态系统中的软件，并增强对科学文献的整体理解。

Aug, 2019

针对网络安全概念的关系抽取框架

本论文介绍了一种利用半监督自然语言处理和引导式算法从文本中提取安全实体与其关系的方法，并在小型语料库上进行测试，结果表明可以较高准确地实现此目的。

Apr, 2015

从数学文本中微调 BERT 模型进行定义提取

本研究使用三种预训练的 BERT 模型对数学英语 (使用 LaTeX 编写) 的 “定义提取” 任务进行微调，将其作为一个二元分类问题。通过对原始数据集 “芝加哥” 和 “TAC” 的微调和测试，以及与 Vanetik 和 Litvak 在 2021 年提出的 WFMALL 数据集的对比测试，我们发现高性能的 Sentence-BERT transformer 模型在整体准确度、召回率和精确度等指标上表现最佳，且相较于早期模型，所需的计算资源更少。

Jun, 2024

利用形式概念分析从文本语料库中学习概念层次结构

该研究提出了一种基于 FCA 的新方法，通过对文本语料库中的上下文信息进行建模和分析，以自动获取层次结构的概念分类。在旅游和金融领域应用比手工分类更有效。

Sep, 2011

基于图的语义提取文本分析

本文介绍了针对文本数据的关键词提取和文本摘要的处理方法，介绍了一种基于 TextRank 算法的无监督学习方法，在其基础上提高了算法的效率，并针对其忽略了不同部分的语义相似性进行了改进。此外，还开发了一种基于该框架的主题聚类算法，可单独使用或作为生成摘要的一部分来解决文本覆盖问题。

Dec, 2022

基于自然语言处理的原始研究文章分类之外

本研究提出了一种针对未知类别的科学文献的文本分类的新方法，使用自然语言处理技术。该研究利用预训练的语言模型（特别是 SciBERT）从 ArXiv 数据集的摘要中提取有意义的表示。文本分类使用 K-Means 算法进行，并根据 Silhouette 得分确定最佳聚类数。结果表明，所提出的方法比传统的 arXiv 标签系统更有效地捕捉主题信息，从而改善了文本分类。该方法为科学研究文献快速增长的领域提供了更好的导航和推荐系统的潜力。

Sep, 2023

稻草堆中的话题：超越一致性的话题提取和评估

该研究提出了一种方法，通过对句子和文档的主题进行深入理解，不仅分析数据中的词频，而且可以检测包括非常见词或新词在内的潜在主题，还使用了基于语义空间的异类词和相似性度量等新的评价指标，并通过与人工识别相似性度量的相关系数，在文本挖掘方面展现出优秀的性能结果。

Mar, 2023