本文研究了文本预处理决策(特别是分词、词形还原、小写和多词组合)对标准神经文本分类器性能的影响,并在文本分类和情感分析这两个方面进行了广泛的评估。我们发现,虽然简单的分词通常足够,但预处理技术之间仍存在显着差异,因此这个通常被忽视的步骤很重要,特别是在比较不同模型时,最终评估提供了有关训练词嵌入的最佳预处理实践的见解。
Jul, 2017
介绍了关键词提取的作用和方法,并对现有工作进行了综述和对不同评估方法进行了分析,重点在数字信息管理系统中使用关键词提取的效果和流行的无监督技术进行了实验研究。
May, 2019
本文研究了使用信号词、Freebase 类别等语义特征和预处理步骤来提高自动关键词抽取的准确性,实验结果表明,浅层的语义特征、新闻类别、修辞信号是提高性能的最主要因素,并且将 Freebase 子类别与预处理结合使用,可略微提高性能。
Jun, 2013
本文提出了一种基于预训练语言模型和词性标注的无监督关键词提取方法 PatternRank,实验结果表明,在单文档关键词提取中,PatternRank 表现优于现有最先进的方法,并且作者提供了 KeyphraseVectorizers 软件包,使得提取出的关键词可以在不同领域中灵活应用。
Oct, 2022
本文提出了一种序列标注方法,将关键短语提取问题变为一个更自然的建模方式,并表明标注模型相比现有最先进的提取方法具有显著的性能优势。
Aug, 2016
本文介绍了如何从科学出版物的摘要中提取关键词和关键短语,以便于下游任务,如知识图谱建设、文本挖掘和学科分类。
Jul, 2022
本研究探讨关键短语在自动文本处理中的应用,通过使用决策树及特定算法 GenEx 进行有监督学习的方法,相较于通用算法 C4.5 及商用软件 Word 97 和 Search 97,结果证明专用算法能更好的生成关键短语,同时 GenEx 在元数据生成和内容标记方面也表现优异。
Dec, 2002
本文基于自蒸馏的思想,提出了一个简单高效的联合学习方法,以有效利用数以百万计的未注释科学文章,从而改进关键短语提取的性能,并在两个公共基准数据集 (Inspec 和 SemEval-2017) 上实现了新的最先进结果。
Oct, 2020
文章讨论了在自然语言处理中,基于 Transformer 的架构会有输入大小的限制问题,但该论文通过将长文档分块并保持全局上下文,以查询定义话题,从而克服了这个问题,开发的系统使用预训练的 BERT 模型并调整它来估计给定文本跨度形成关键短语的概率,实验结果表明,在长文档上,使用查询的较短上下文大小胜过没有查询的较长上下文。
May, 2022
我们提供了一项综合研究,研究了 10 种预处理技术如何影响词汇量大小、模型性能和模型运行时间等因素,发现一些组合技术可以在不降低正确率的情况下缩短运行时间,并且还有一些组合方法可以缩短运行时间同时提高模型准确性。
Apr, 2021