基于图的语义提取文本分析

Dec, 2022

Graph-based Semantical Extractive Text Analysis

Mina Samizadeh

TL;DR本文介绍了针对文本数据的关键词提取和文本摘要的处理方法，介绍了一种基于 TextRank 算法的无监督学习方法，在其基础上提高了算法的效率，并针对其忽略了不同部分的语义相似性进行了改进。此外，还开发了一种基于该框架的主题聚类算法，可单独使用或作为生成摘要的一部分来解决文本覆盖问题。

Abstract

In the past few decades, there has been an explosion in the amount of available data produced from various sources with different topics. The availability of this enormous data necessitates us to adopt effective computational tools to explore the data. This leads to an intense growing interest in the research community to develop computational methods focuse

text data keyword extraction text summarization textrank algorithm semantic similarity

发现论文，激发创造

生成科学范式的摘要

使用文献计量学文本挖掘和摘要技术对科学文献进行自动生成，利用引文生成摘要，通过 C-LexRank 对单篇文章进行摘要提取，同时拓展到一系列科学文献的摘要提取和分析，证明引文是创建摘要的一种独特信息资源。

Feb, 2014

文档摘要：应用于关键词提取和图像检索的论文

自动摘要是降低文本文档长度的过程，以生成概述，保留原始文档的最重要的要点。我们通过推荐图像和生成包含关联和情感的意见摘要，研究了两个问题。我们使用概率模型和词相似性启发式方法生成图像标题和提取关键短语，并借助相关反馈机制重新排序这些关键短语。我们使用 Rank Aggregation 和相关反馈方法来改进图像检索，同时我们还提出一组子模复杂函数用于意见摘要，以平衡压缩需求和情感检测需求，生成和文档情感和摘要情感之间有良好相关性且 ROUGE 得分优秀的摘要。我们还比较了所提出的子模复杂函数的性能。

May, 2024

文本挖掘综述：分类、聚类和提取技术

这篇论文探讨了文本挖掘的任务及技术，其中包括文本预处理、分类和聚类，并简要介绍了文本挖掘在生物医药领域中的应用。

Jul, 2017

倾向性 TextRank：无监督基于图的内容抽取

本文介绍了一种基于 Biased TextRank 算法的内容提取方法，可以实现针对性的文本提取，应用包括文本的聚焦摘要和解释提取，通过在执行 TextRank 时修改随机重新开始概率实现，与现有自然语言处理方法相比，不需要监督，更快速和轻量级

Nov, 2020

一种基于语义问答的文本摘要评估方法

本文提出了一种基于问题解答的方法，通过将文本视为小型知识库进行大量提问，以精确地比较两个文本之间的内容差异，从而解决 NLP 系统评估中的一个重要问题。实验结果表明，该方法在分析大型文本语料库方面具有较高的准确性和可靠性。

Apr, 2017

复杂问答：无监督学习方法和实验

本研究探讨了一种基于多篇文献的主题导向信息压缩技术，采用实证方法和两种无监督机器学习技术，比较它们的效果，同时通过提取不同的词汇特征和局部搜索技术，学习各种特征的权重值，最终实现了基于查询的自动摘要产生。

Jan, 2014

利用主题感知图神经网络增强抽取式文本摘要

本文提出了基于图神经网络（GNN）的抽取式摘要模型，并整合了深度神经主题模型（NTM）来发现潜在主题，从而提供句子选择的文档级特征，实验结果表明，我们的模型在 CNN/DM 和 NYT 数据集上取得了最先进的结果，在由较长文档组成的科学论文数据集上也明显优于现有方法，进一步研究表明，主题信息可以帮助模型从整个文档中预先选择凸显内容，因此能够有效地摘要长文档。

Oct, 2020

依存关系文本图用于关键词和摘要提取，及其在交互式内容检索中的应用

通过聚集深度学习方法提供的依存句法分析器提供的链接形成的依赖图来建立神经网络和基于图的自然语言处理之间的桥梁，并通过提取最大强连通组件中的关键词和摘要来介绍统一的关键词、摘要和关系提取方法，从而构建一个新的对话引擎，利用内在结构信息提取命题之间的关系。

Sep, 2019

科学出版物分类方案中的无监督关键词提取和聚类

本文研究如何使用自动化方法提取科学文献中的关键词和短语，包括集成评分、语义网络和聚类等技术，并在 “可解释的人工智能” 领域的文献数据集上进行了评估。结果表明，集成评分可以提高关键词提取性能，基于 ConceptNet 语义网络的词嵌入具有类似于上下文化词嵌入的性能，但前者计算效率更高。最后，以术语为级别的语义关键词聚类可以将相似的术语组合在一起，适合用于构建分类方案。

Jan, 2021

结合语义和统计方法的 Instagram 社交网络帖子自动摘要

本研究开发了一个爬虫来提取 Instagram 社交网络上受欢迎的文本文章，并结合一组抽取和抽象算法来展示如何使用每个抽象算法，观察 820 个受欢迎的文本文章在社交网络上的准确性（80％）。

Mar, 2023