基于图的语义提取文本分析
使用文献计量学文本挖掘和摘要技术对科学文献进行自动生成,利用引文生成摘要,通过 C-LexRank 对单篇文章进行摘要提取,同时拓展到一系列科学文献的摘要提取和分析,证明引文是创建摘要的一种独特信息资源。
Feb, 2014
自动摘要是降低文本文档长度的过程,以生成概述,保留原始文档的最重要的要点。我们通过推荐图像和生成包含关联和情感的意见摘要,研究了两个问题。我们使用概率模型和词相似性启发式方法生成图像标题和提取关键短语,并借助相关反馈机制重新排序这些关键短语。我们使用 Rank Aggregation 和相关反馈方法来改进图像检索,同时我们还提出一组子模复杂函数用于意见摘要,以平衡压缩需求和情感检测需求,生成和文档情感和摘要情感之间有良好相关性且 ROUGE 得分优秀的摘要。我们还比较了所提出的子模复杂函数的性能。
May, 2024
本文介绍了一种基于 Biased TextRank 算法的内容提取方法,可以实现针对性的文本提取,应用包括文本的聚焦摘要和解释提取,通过在执行 TextRank 时修改随机重新开始概率实现,与现有自然语言处理方法相比,不需要监督,更快速和轻量级
Nov, 2020
本文提出了一种基于问题解答的方法,通过将文本视为小型知识库进行大量提问,以精确地比较两个文本之间的内容差异,从而解决 NLP 系统评估中的一个重要问题。实验结果表明,该方法在分析大型文本语料库方面具有较高的准确性和可靠性。
Apr, 2017
本研究探讨了一种基于多篇文献的主题导向信息压缩技术,采用实证方法和两种无监督机器学习技术,比较它们的效果,同时通过提取不同的词汇特征和局部搜索技术,学习各种特征的权重值,最终实现了基于查询的自动摘要产生。
Jan, 2014
本文提出了基于图神经网络(GNN)的抽取式摘要模型,并整合了深度神经主题模型(NTM)来发现潜在主题,从而提供句子选择的文档级特征,实验结果表明,我们的模型在 CNN/DM 和 NYT 数据集上取得了最先进的结果,在由较长文档组成的科学论文数据集上也明显优于现有方法,进一步研究表明,主题信息可以帮助模型从整个文档中预先选择凸显内容,因此能够有效地摘要长文档。
Oct, 2020
通过聚集深度学习方法提供的依存句法分析器提供的链接形成的依赖图来建立神经网络和基于图的自然语言处理之间的桥梁,并通过提取最大强连通组件中的关键词和摘要来介绍统一的关键词、摘要和关系提取方法,从而构建一个新的对话引擎,利用内在结构信息提取命题之间的关系。
Sep, 2019
本文研究如何使用自动化方法提取科学文献中的关键词和短语,包括集成评分、语义网络和聚类等技术,并在 “可解释的人工智能” 领域的文献数据集上进行了评估。结果表明,集成评分可以提高关键词提取性能,基于 ConceptNet 语义网络的词嵌入具有类似于上下文化词嵌入的性能,但前者计算效率更高。最后,以术语为级别的语义关键词聚类可以将相似的术语组合在一起,适合用于构建分类方案。
Jan, 2021
本研究开发了一个爬虫来提取 Instagram 社交网络上受欢迎的文本文章,并结合一组抽取和抽象算法来展示如何使用每个抽象算法,观察 820 个受欢迎的文本文章在社交网络上的准确性(80%)。
Mar, 2023