Jun, 2024

改进文本分析和信息检索的 TF-IDF 方法下的马拉地语停用词筛选

TL;DR我们研究了停用词在马拉地语中的应用,使用 MahaCorpus 数据集中的 2400 万个句子,结合 TF-IDF 方法和人工评估,筛选出具有强大效果的 400 个停用词,并将其应用于文本分类任务。该研究还提出了在资源有限的语言中进行停用词筛选的简单方法。停用词已集成到 mahaNLP 库中,并在此 https URL 上公开提供。