古吉拉特语的轻量级词干处理器
本文介绍了一种基于规则的乌兹别克语词干提取算法,该算法使用基于有限状态机的词缀剥离方法,将词缀分类为 15 个类别并设计为 FSM,最后建立一个基本 FSM,并创建了一个 XML 格式的词缀词典用于开发基于 FSM 的词缀提取应用程序。
Oct, 2022
本研究提出了一个低资源语言乌兹别克语的词性标注数据集和标注工具,使用一种基于规则的标注器,该标注器使用 12 种标签来标注单词的词性,通过使用前缀 / 后缀剥离方法对单词进行词干处理,该工具在乌兹别克文本中标注和识别单词的词性,并且是第一次公开提供乌兹别克语数据集和标注工具,也可以作为其他紧密相关土耳其语言的基础。
Jan, 2023
通过技术驱动的数据收集方法,我们创建了超过 60,000 条从印度南部和中部约 2.3 百万部落人口使用的低资源易失语言之一贡迪语到印地语的翻译数据,不仅创建了 26,240 条印地语 - Gondi 语的翻译语料库,还参与了近 850 名社区成员,让 Gondi 语进入互联网领域。
Nov, 2022
本研究介绍一种快速,简单,可配置,高精度和高召回率的词干提取算法,其采用基于单词的查找表的简单性和性能与规则方法的强大普适性相结合,避免了词汇表外单词的问题。
May, 2022
我们研究了停用词在马拉地语中的应用,使用 MahaCorpus 数据集中的 2400 万个句子,结合 TF-IDF 方法和人工评估,筛选出具有强大效果的 400 个停用词,并将其应用于文本分类任务。该研究还提出了在资源有限的语言中进行停用词筛选的简单方法。停用词已集成到 mahaNLP 库中,并在此 https URL 上公开提供。
Jun, 2024
本文提供并分析了一个用于印度语神经机器翻译系统的大规模多语言句子对齐语料库和强大基准的自动化框架,其中包括基线 NMT 系统,检索模块和用于公共网站的对齐模块,通过迭代增加语料库来改进系统。我们的工作还评估了设计选择,例如枢轴语言的选择和迭代式增量语料库增加的影响。与现有的印度语语料库相比,本工作不仅提供了自动化框架,还产生了一个相对较大的语料库。这个语料库使我们能够在公开的 WAT 评估基准和其他标准评估基准上获得明显改善的结果。
Aug, 2020
本研究聚焦于解决卡塔尔移民工人与医务人员之间的语言障碍问题,尤其是通过开发一种真实可行的印地语 - 英语机器翻译系统来提高医生和患者之间的交流质量,我们采用了各种方法来收集适合的训练数据,并成功地通过生成合成变量的方法自动扩充训练数据,从而实现了 BLEU 分数绝对值提高超过 3 分。
Oct, 2016
本研究利用语言学规则和词典设计了一个专门用于孟加拉语的词形还原器,通过对大规模孟加拉语文本的分析,实现了在给定句子中基于单词词性分类的词形还原。词形还原器在经过训练的语言学家手动注释的测试数据集上取得了 96.36%的准确性,并在三个先前发布的孟加拉语词形还原数据集上展现了竞争性能。我们公开提供代码和数据集,以促进孟加拉语自然语言处理的进一步发展。
Nov, 2023