本研究利用语言学规则和词典设计了一个专门用于孟加拉语的词形还原器,通过对大规模孟加拉语文本的分析,实现了在给定句子中基于单词词性分类的词形还原。词形还原器在经过训练的语言学家手动注释的测试数据集上取得了 96.36%的准确性,并在三个先前发布的孟加拉语词形还原数据集上展现了竞争性能。我们公开提供代码和数据集,以促进孟加拉语自然语言处理的进一步发展。
Nov, 2023
本文通过实证研究,考察了在六种不同的语言上,使用不同的形态学特征开发上下文词形还原器对下游表现的影响,并发现:(i)为词形还原器提供细粒度的形态学特征在训练时并不那么有益,即使对于词汇连接语言;(ii)实际上,现代上下文词表示似乎隐式地编码了足够的形态信息,以获得无需查看任何明确形态信号的良好上下文词形还原器;(iii)最佳的领域外词形还原器是使用简单的 UPOS 标签或者没有训练形态学的模型;(iv)目前的词形还原评估实践并不足以清晰地区分模型之间的差异。
Feb, 2023
构建维吾尔语词形还原算法来识别单词的本义词,其中使用了词缀数据库和词性知识以及有限状态机来移除维吾尔语中的词缀。
Oct, 2022
本研究评估了三种不同的爱沙尼亚词形还原方法 —— 基于生成字符级模型、基于模式的单词级分类模型和基于规则的形态分析。根据我们的实验结果,一个明显较小的生成模型在所有基于 EstBERT 的基于模式的分类模型中一致表现更好。此外,我们观察到三种模型所产生的错误之间存在相对较小的重叠,表明使用不同方法的集成可能会带来改进。
Apr, 2024
本文介绍了基于 Google T5 模型的波兰词形还原器,通过在不同的语境长度上运行训练,最终实现了最佳的波兰语词形还原效果。
Jul, 2022
本文介绍基于规则的乌尔都语词干提取器,用于信息检索,通过人类专家的验证评估结果。
Oct, 2013
提高阿姆哈拉语的词性标注性能,本文介绍了使用形态学知识、扩展已有标注数据、特征提取、参数调整和标注算法等方法,对比以往工作,明显的提高了词性标注性能。
Jan, 2020
该研究使用阿拉伯语探讨了联合建模的方法,具体包括字符级别的词汇化特征和字词级别的非词汇化特征,可以更好地将模糊的语言特征解模糊,进一步提高模型的效果和词义的准确性。该方法在现代标准阿拉伯语和阿拉伯埃及话方言的翻译中都取得了相对较好的实验结果。
Oct, 2019
本文介绍了一个简单的神经模型,用于词形还原和形态标记,可以达到 20 种语言的最新结果,并表明联合形态标记和词形还原特别有助于低资源词形还原和形态复杂性较高的语言。
Apr, 2019
本研究应用深度学习技术解决 Wolof 语言拼写纠错的问题,通过生成合成数据的方式减轻低资源语言没有语料库的限制,同时还探究了不同子词处理方法对模型性能的影响。
May, 2023