XSTEM: 一个基于实例的词干提取算法

May, 2022

XSTEM: 一个基于实例的词干提取算法

XSTEM: An exemplar-based stemming algorithm

Kirk Baker

TL;DR本研究介绍一种快速，简单，可配置，高精度和高召回率的词干提取算法，其采用基于单词的查找表的简单性和性能与规则方法的强大普适性相结合，避免了词汇表外单词的问题。

Abstract

stemming is the process of reducing related words to a standard form by removing affixes from them. Existing algorithms vary with respect to their complexity, configurability, handling of unknown words, and abili

stemming affixes word-based lookup tables rule-based methods out-of-vocabulary words

发现论文，激发创造

UzbekStemmer: 为乌兹别克语开发一种基于规则的词干提取算法

本文介绍了一种基于规则的乌兹别克语词干提取算法，该算法使用基于有限状态机的词缀剥离方法，将词缀分类为 15 个类别并设计为 FSM，最后建立一个基本 FSM，并创建了一个 XML 格式的词缀词典用于开发基于 FSM 的词缀提取应用程序。

Oct, 2022

乌尔都语基于规则的词干提取器

本文介绍基于规则的乌尔都语词干提取器，用于信息检索，通过人类专家的验证评估结果。

Oct, 2013

索马里语的词典和基于规则的词汇形态还原方法

这篇论文首次开发了索马里语的文本词形归一化技术，为索马里语的自然语言处理任务构建了词典和基于规则的词形归一化系统，该系统在各种长度的文本上进行测试，取得了较高的准确率。

Aug, 2023

整合多种知识源以消歧词义：以例为基础的方法

采用基于样例的学习算法进行词义消歧，并整合了各种知识源对词义进行消歧，包括词性、周围单词的形态、局部习惯用语和动词 - 宾语句法关系等。在常见数据集和自行构建的大型已标记语料库上，该方法提高了词义消歧的准确性。

Jun, 1996

一种基于有限状态机的乌兹别克语规则词形还原算法的开发

构建维吾尔语词形还原算法来识别单词的本义词，其中使用了词缀数据库和词性知识以及有限状态机来移除维吾尔语中的词缀。

Oct, 2022

基于语境的波兰语词形还原器

本文介绍了基于 Google T5 模型的波兰词形还原器，通过在不同的语境长度上运行训练，最终实现了最佳的波兰语词形还原效果。

Jul, 2022

古吉拉特语的轻量级词干处理器

本研究介绍了一个基于规则的 Gujarati 语词干提取器的实现，探讨了 Gujarati 语言形态学的丰富性，并通过与人工专家的验证来评估了其效果。

Oct, 2012

通过递归和迭代删除量化停用词生成情感分析

本文提出了一种量化的方法，通过迭代和递归的特征删除算法确定哪些单词可以从经过预训练的变压器词汇表中删除，以在情感分析任务中最小化其性能降级，实验证明通过这种方法生成的停用词列表可以大幅降低数据集的大小，而对模型性能的影响微不足道，因此可以为特定的自然语言处理任务生成高效的停用词集。

Sep, 2022

DefExt: 一种半监督的定义提取工具

DefExt 是一种易于使用的半监督定义抽取工具，基于有条件的随机场算法和自举方法，逐渐使模型更加了解目标语料库中的特点，主要组件包括序列标注算法和自举方法，经过自动和手动评估后，我们公开了 DefExt 作为开源工具，并提供了训练和测试数据以供使用。

Jun, 2016

KSW: 基于高棉停用词的关键词提取字典

该论文介绍了一种针对高棉语的关键词提取方法 KSW，利用了专门的停用词词典，并通过实施预处理方法来去除停用词，从而提高有意义的关键词的提取效果。实验证明，与先前方法相比，KSW 在准确性和相关性方面取得了显著的改进，彰显了其推进高棉语文本处理和信息检索的潜力。KSW 资源，包括停用词词典，可在以下 GitHub 仓库中获取：（此 https URL）。

May, 2024