MMJan, 2024

文本分类可增强领域无关的停用词提取

TL;DR该研究通过使用 MasakhaNEWS、African Stopwords Project 和 MasakhaPOS 数据集,针对九种非洲语言和法语,探讨了文本分类在自然语言处理(NLP)中简化停用词提取的作用。研究结果显示,文本分类能够有效识别领域无关的停用词,成功检测率超过 80%,但由于语言差异,某些语言的检测率较低。此外,研究还发现,尽管超过 40%的停用词在不同新闻类别中都有,但只有不到 15%的停用词是某个特定类别独有的。不常见的停用词为文本增添了深度,但它们是否被归类为停用词则取决于上下文。因此,将统计和语言方法相结合可以创建全面的停用词列表,凸显了我们的混合方法的价值。这项研究提升了非洲语言的自然语言处理,并强调了文本分类在停用词提取中的重要性。