Sep, 2022

通过递归和迭代删除量化停用词生成情感分析

TL;DR本文提出了一种量化的方法,通过迭代和递归的特征删除算法确定哪些单词可以从经过预训练的变压器词汇表中删除,以在情感分析任务中最小化其性能降级,实验证明通过这种方法生成的停用词列表可以大幅降低数据集的大小,而对模型性能的影响微不足道,因此可以为特定的自然语言处理任务生成高效的停用词集。