文档预处理对关键短语提取性能的影响

COLINGOct, 2016

文档预处理对关键短语提取性能的影响

How Document Pre-processing affects Keyphrase Extraction Performance

Florian Boudin, Hugo Mougard, Damien Cram

TL;DR本文以 SemEval-2010 数据集为基础，重新评估了几个关键词提取模型的性能，并测量它们对越来越复杂的文档预处理水平的鲁棒性。

Abstract

The semeval-2010 benchmark dataset has brought renewed attention to the task of automatic keyphrase extraction. This dataset is made up of scientific articles that were automatically converted from PDF format to

semeval-2010 automatic keyphrase extraction scientific articles preprocessing techniques extraction models

发现论文，激发创造

文本预处理在神经网络架构中的作用：文本分类和情感分析的评估研究

本文研究了文本预处理决策（特别是分词、词形还原、小写和多词组合）对标准神经文本分类器性能的影响，并在文本分类和情感分析这两个方面进行了广泛的评估。我们发现，虽然简单的分词通常足够，但预处理技术之间仍存在显着差异，因此这个通常被忽视的步骤很重要，特别是在比较不同模型时，最终评估提供了有关训练词嵌入的最佳预处理实践的见解。

Jul, 2017

关键词抽取综述

介绍了关键词提取的作用和方法，并对现有工作进行了综述和对不同评估方法进行了分析，重点在数字信息管理系统中使用关键词提取的效果和流行的无监督技术进行了实验研究。

May, 2019

使用众包，轻量级过滤和共指归一化对新闻故事进行主题关键短语的监督提取

本文研究了使用信号词、Freebase 类别等语义特征和预处理步骤来提高自动关键词抽取的准确性，实验结果表明，浅层的语义特征、新闻类别、修辞信号是提高性能的最主要因素，并且将 Freebase 子类别与预处理结合使用，可略微提高性能。

Jun, 2013

PatternRank: 基于预训练语言模型和词性的无监督关键词提取

本文提出了一种基于预训练语言模型和词性标注的无监督关键词提取方法 PatternRank，实验结果表明，在单文档关键词提取中，PatternRank 表现优于现有最先进的方法，并且作者提供了 KeyphraseVectorizers 软件包，使得提取出的关键词可以在不同领域中灵活应用。

Oct, 2022

使用序列标注的关键词提取

本文提出了一种序列标注方法，将关键短语提取问题变为一个更自然的建模方式，并表明标注模型相比现有最先进的提取方法具有显著的性能优势。

Aug, 2016

科技文献中的关键词提取

本文介绍了如何从科学出版物的摘要中提取关键词和关键短语，以便于下游任务，如知识图谱建设、文本挖掘和学科分类。

Jul, 2022

从文本中学习提取关键词

本研究探讨关键短语在自动文本处理中的应用，通过使用决策树及特定算法 GenEx 进行有监督学习的方法，相较于通用算法 C4.5 及商用软件 Word 97 和 Search 97，结果证明专用算法能更好的生成关键短语，同时 GenEx 在元数据生成和内容标记方面也表现优异。

Dec, 2002

基于自蒸馏的科技文献关键词提取的联合学习方法

本文基于自蒸馏的思想，提出了一个简单高效的联合学习方法，以有效利用数以百万计的未注释科学文章，从而改进关键短语提取的性能，并在两个公共基准数据集 (Inspec 和 SemEval-2017) 上实现了新的最先进结果。

Oct, 2020

基于查询的长文档关键词提取

文章讨论了在自然语言处理中，基于 Transformer 的架构会有输入大小的限制问题，但该论文通过将长文档分块并保持全局上下文，以查询定义话题，从而克服了这个问题，开发的系统使用预训练的 BERT 模型并调整它来估计给定文本跨度形成关键短语的概率，实验结果表明，在长文档上，使用查询的较短上下文大小胜过没有查询的较长上下文。

May, 2022

文本分类中算法性能、词汇量和运行时间之间的关系探究

我们提供了一项综合研究，研究了 10 种预处理技术如何影响词汇量大小、模型性能和模型运行时间等因素，发现一些组合技术可以在不降低正确率的情况下缩短运行时间，并且还有一些组合方法可以缩短运行时间同时提高模型准确性。

Apr, 2021