XSTEM: 一个基于实例的词干提取算法
本文介绍了一种基于规则的乌兹别克语词干提取算法,该算法使用基于有限状态机的词缀剥离方法,将词缀分类为 15 个类别并设计为 FSM,最后建立一个基本 FSM,并创建了一个 XML 格式的词缀词典用于开发基于 FSM 的词缀提取应用程序。
Oct, 2022
这篇论文首次开发了索马里语的文本词形归一化技术,为索马里语的自然语言处理任务构建了词典和基于规则的词形归一化系统,该系统在各种长度的文本上进行测试,取得了较高的准确率。
Aug, 2023
采用基于样例的学习算法进行词义消歧,并整合了各种知识源对词义进行消歧,包括词性、周围单词的形态、局部习惯用语和动词 - 宾语句法关系等。在常见数据集和自行构建的大型已标记语料库上,该方法提高了词义消歧的准确性。
Jun, 1996
本文提出了一种量化的方法,通过迭代和递归的特征删除算法确定哪些单词可以从经过预训练的变压器词汇表中删除,以在情感分析任务中最小化其性能降级,实验证明通过这种方法生成的停用词列表可以大幅降低数据集的大小,而对模型性能的影响微不足道,因此可以为特定的自然语言处理任务生成高效的停用词集。
Sep, 2022
DefExt 是一种易于使用的半监督定义抽取工具,基于有条件的随机场算法和自举方法,逐渐使模型更加了解目标语料库中的特点,主要组件包括序列标注算法和自举方法,经过自动和手动评估后,我们公开了 DefExt 作为开源工具,并提供了训练和测试数据以供使用。
Jun, 2016
该论文介绍了一种针对高棉语的关键词提取方法 KSW,利用了专门的停用词词典,并通过实施预处理方法来去除停用词,从而提高有意义的关键词的提取效果。实验证明,与先前方法相比,KSW 在准确性和相关性方面取得了显著的改进,彰显了其推进高棉语文本处理和信息检索的潜力。KSW 资源,包括停用词词典,可在以下 GitHub 仓库中获取:(此 https URL)。
May, 2024