古吉拉特语的轻量级词干处理器

Oct, 2012

A Lightweight Stemmer for Gujarati

Juhi Ameta, Nisheeth Joshi, Iti Mathur

TL;DR本研究介绍了一个基于规则的 Gujarati 语词干提取器的实现，探讨了 Gujarati 语言形态学的丰富性，并通过与人工专家的验证来评估了其效果。

Abstract

gujarati is a resource poor language with almost no language processing tools being available. In this paper we have shown an implementation of a rule based →

gujarati language processing stemmer morphology rule-based

发现论文，激发创造

乌尔都语基于规则的词干提取器

本文介绍基于规则的乌尔都语词干提取器，用于信息检索，通过人类专家的验证评估结果。

Oct, 2013

UzbekStemmer: 为乌兹别克语开发一种基于规则的词干提取算法

本文介绍了一种基于规则的乌兹别克语词干提取算法，该算法使用基于有限状态机的词缀剥离方法，将词缀分类为 15 个类别并设计为 FSM，最后建立一个基本 FSM，并创建了一个 XML 格式的词缀词典用于开发基于 FSM 的词缀提取应用程序。

Oct, 2022

UzbekTagger: 一种基于规则的乌兹别克语词性标记器

本研究提出了一个低资源语言乌兹别克语的词性标注数据集和标注工具，使用一种基于规则的标注器，该标注器使用 12 种标签来标注单词的词性，通过使用前缀 / 后缀剥离方法对单词进行词干处理，该工具在乌兹别克文本中标注和识别单词的词性，并且是第一次公开提供乌兹别克语数据集和标注工具，也可以作为其他紧密相关土耳其语言的基础。

Jan, 2023

技术干预在低资源语言中的应用：提升贡迪语信息获取能力的经验教训

通过技术驱动的数据收集方法，我们创建了超过 60,000 条从印度南部和中部约 2.3 百万部落人口使用的低资源易失语言之一贡迪语到印地语的翻译数据，不仅创建了 26,240 条印地语 - Gondi 语的翻译语料库，还参与了近 850 名社区成员，让 Gondi 语进入互联网领域。

Nov, 2022

XSTEM: 一个基于实例的词干提取算法

本研究介绍一种快速，简单，可配置，高精度和高召回率的词干提取算法，其采用基于单词的查找表的简单性和性能与规则方法的强大普适性相结合，避免了词汇表外单词的问题。

May, 2022

改进文本分析和信息检索的 TF-IDF 方法下的马拉地语停用词筛选

我们研究了停用词在马拉地语中的应用，使用 MahaCorpus 数据集中的 2400 万个句子，结合 TF-IDF 方法和人工评估，筛选出具有强大效果的 400 个停用词，并将其应用于文本分类任务。该研究还提出了在资源有限的语言中进行停用词筛选的简单方法。停用词已集成到 mahaNLP 库中，并在此 https URL 上公开提供。

Jun, 2024

机器翻译中印度语言的低资源状态再探讨

本文提供并分析了一个用于印度语神经机器翻译系统的大规模多语言句子对齐语料库和强大基准的自动化框架，其中包括基线 NMT 系统，检索模块和用于公共网站的对齐模块，通过迭代增加语料库来改进系统。我们的工作还评估了设计选择，例如枢轴语言的选择和迭代式增量语料库增加的影响。与现有的印度语语料库相比，本工作不仅提供了自动化框架，还产生了一个相对较大的语料库。这个语料库使我们能够在公开的 WAT 评估基准和其他标准评估基准上获得明显改善的结果。

Aug, 2020

一种基于有限状态机的乌兹别克语规则词形还原算法的开发

构建维吾尔语词形还原算法来识别单词的本义词，其中使用了词缀数据库和词性知识以及有限状态机来移除维吾尔语中的词缀。

Oct, 2022

低资源语言医疗翻译实现

本研究聚焦于解决卡塔尔移民工人与医务人员之间的语言障碍问题，尤其是通过开发一种真实可行的印地语 - 英语机器翻译系统来提高医生和患者之间的交流质量，我们采用了各种方法来收集适合的训练数据，并成功地通过生成合成变量的方法自动扩充训练数据，从而实现了 BLEU 分数绝对值提高超过 3 分。

Oct, 2016

BanLemma: 一个以词形构造依赖规则和词典的孟加拉语词形还原工具

本研究利用语言学规则和词典设计了一个专门用于孟加拉语的词形还原器，通过对大规模孟加拉语文本的分析，实现了在给定句子中基于单词词性分类的词形还原。词形还原器在经过训练的语言学家手动注释的测试数据集上取得了 96.36％的准确性，并在三个先前发布的孟加拉语词形还原数据集上展现了竞争性能。我们公开提供代码和数据集，以促进孟加拉语自然语言处理的进一步发展。

Nov, 2023