大规模文本语料库中的自动短语挖掘

Feb, 2017

大规模文本语料库中的自动短语挖掘

Automated Phrase Mining from Massive Text Corpora

Jingbo Shang, Jialu Liu, Meng Jiang, Xiang Ren, Clare R Voss...

TL;DR该论文提出了一种基于知识库的自动短语挖掘框架 AutoPhrase，利用大规模高质量短语取代昂贵的人工规则以及标注，通过浅层句法分析模型和词性标注进一步提高性能，可适用于任何语言。在不同领域和语言的五个真实数据集上，相比现有的方法，新方法在效果上有显著改善。

Abstract

As one of the fundamental tasks in text analysis, phrase mining aims at extracting quality phrases from a text corpus. phrase mining is important in various tasks including automatic term recognition, document in

发现论文，激发创造

文本语料库中的可扩展主题短语挖掘

本文提出一种基于短语挖掘算法的主题模型，该算法能够在保证计算效率的同时，高效地发现论文标题、摘要、评论和新闻文章等多种数据集中的高质量主题短语。

Jun, 2014

使用序列标注的关键词提取

本文提出了一种序列标注方法，将关键短语提取问题变为一个更自然的建模方式，并表明标注模型相比现有最先进的提取方法具有显著的性能优势。

Aug, 2016

使用句向量进行简单的无监督关键短语抽取

本文提出了一种新颖的无监督方法，即EmbedRank，通过使用句子嵌入从单个文档中提取关键短语，进而在标准数据集上实现了比基于图的现有系统更高的F-score，适用于实时处理大量Web数据，并通过引入基于嵌入的最大边际相关性来明确地增加所选关键短语的覆盖率和多样性，200份投票的用户调查表明，我们的高多样性选择得到人类的接受。

Jan, 2018

关键词抽取综述

介绍了关键词提取的作用和方法，并对现有工作进行了综述和对不同评估方法进行了分析，重点在数字信息管理系统中使用关键词提取的效果和流行的无监督技术进行了实验研究。

May, 2019

UCPhrase: 无监督上下文感知质量短语标注

本文提出了UCPhrase，一种新型的无监督上下文感知高质量短语标记器，它利用基于上下文一致性的词序列自动提取高质量短语，并通过基于变换器的神经网络和标签共同训练轻量级跨度预测模型识别表面名称或频率不同的高质量短语。该方法在语料库级别短语排名、文档级别关键词提取和句子级短语标记等任务方面，表现优于现有技术。

May, 2021

主要短语挖掘

该文介绍了一种基于独特的校准过程的方法，可以无需质量短语列表或人工干预，独立地识别主要短语并从任何文本中提取它们，同时避免重复计数等问题，以消除从文本中提取常见短语时经常出现的复杂性问题。

Jun, 2022

将关键词提取和词汇多样性相结合以表征出版物标题中的思想

本文研究了利用不同短语检测模型检测科学论文的标题从而找出涵盖科研进展的关键词组，目的在于优化文献词汇多样性的度量与自动化剔除非特定短语。研究结果比较了多个短语检测模型的性能，并分析了每个模型生成的关键词组，使用四个常用的词汇多样性指标计算了每个模型关键词组的文献变量中的词汇多样性。

Aug, 2022

PatternRank: 基于预训练语言模型和词性的无监督关键词提取

本文提出了一种基于预训练语言模型和词性标注的无监督关键词提取方法PatternRank，实验结果表明，在单文档关键词提取中，PatternRank表现优于现有最先进的方法，并且作者提供了KeyphraseVectorizers软件包，使得提取出的关键词可以在不同领域中灵活应用。

Oct, 2022

从统计方法到深度学习，自动关键词预测：一项调查

本文通过总结代表性的研究，从主流模型、数据集和评估指标等多方面回顾了关键短语预测这一任务，并重点关注了近年来越来越受到关注的基于深度学习的关键短语预测方法。此外，本文通过多组实验对代表性模型进行了细致的比较，并首次尝试使用相同的常用数据集和评估指标对这些模型进行深入分析，发现了它们的优缺点。最后，本文讨论了未来该课题的可能研究方向。

May, 2023

语言模型作为注释器：无监督的上下文感知质量词组生成

本文提出了LMPhrase，一个建立在大型预训练语言模型（LMs）之上的新型无监督上下文感知的高质量短语挖掘框架，通过应用一种无参数的探测技术，首先利用预训练语言模型BERT进行标记获得银标签的高质量短语，然后将短语标记任务形式化为序列生成问题，通过在预训练语言模型BART上进行直接微调以生成预测结果，并将标记和生成的短语结合作为最终的预测结果，在两个不同领域的短语挖掘任务中，LMPhrase始终优于现有竞争对手。

Dec, 2023