大规模文本语料库中的自动短语挖掘
本文提出了一种新颖的无监督方法,即EmbedRank,通过使用句子嵌入从单个文档中提取关键短语,进而在标准数据集上实现了比基于图的现有系统更高的F-score,适用于实时处理大量Web数据,并通过引入基于嵌入的最大边际相关性来明确地增加所选关键短语的覆盖率和多样性,200份投票的用户调查表明,我们的高多样性选择得到人类的接受。
Jan, 2018
本文提出了UCPhrase,一种新型的无监督上下文感知高质量短语标记器,它利用基于上下文一致性的词序列自动提取高质量短语,并通过基于变换器的神经网络和标签共同训练轻量级跨度预测模型识别表面名称或频率不同的高质量短语。该方法在语料库级别短语排名、文档级别关键词提取和句子级短语标记等任务方面,表现优于现有技术。
May, 2021
该文介绍了一种基于独特的校准过程的方法,可以无需质量短语列表或人工干预,独立地识别主要短语并从任何文本中提取它们,同时避免重复计数等问题,以消除从文本中提取常见短语时经常出现的复杂性问题。
Jun, 2022
本文研究了利用不同短语检测模型检测科学论文的标题从而找出涵盖科研进展的关键词组,目的在于优化文献词汇多样性的度量与自动化剔除非特定短语。研究结果比较了多个短语检测模型的性能,并分析了每个模型生成的关键词组,使用四个常用的词汇多样性指标计算了每个模型关键词组的文献变量中的词汇多样性。
Aug, 2022
本文提出了一种基于预训练语言模型和词性标注的无监督关键词提取方法PatternRank,实验结果表明,在单文档关键词提取中,PatternRank表现优于现有最先进的方法,并且作者提供了KeyphraseVectorizers软件包,使得提取出的关键词可以在不同领域中灵活应用。
Oct, 2022
本文通过总结代表性的研究,从主流模型、数据集和评估指标等多方面回顾了关键短语预测这一任务,并重点关注了近年来越来越受到关注的基于深度学习的关键短语预测方法。此外,本文通过多组实验对代表性模型进行了细致的比较,并首次尝试使用相同的常用数据集和评估指标对这些模型进行深入分析,发现了它们的优缺点。最后,本文讨论了未来该课题的可能研究方向。
May, 2023
本文提出了LMPhrase,一个建立在大型预训练语言模型(LMs)之上的新型无监督上下文感知的高质量短语挖掘框架,通过应用一种无参数的探测技术,首先利用预训练语言模型BERT进行标记获得银标签的高质量短语,然后将短语标记任务形式化为序列生成问题,通过在预训练语言模型BART上进行直接微调以生成预测结果,并将标记和生成的短语结合作为最终的预测结果,在两个不同领域的短语挖掘任务中,LMPhrase始终优于现有竞争对手。
Dec, 2023