基于语境的波兰语词形还原器
本文通过实证研究,考察了在六种不同的语言上,使用不同的形态学特征开发上下文词形还原器对下游表现的影响,并发现:(i)为词形还原器提供细粒度的形态学特征在训练时并不那么有益,即使对于词汇连接语言;(ii)实际上,现代上下文词表示似乎隐式地编码了足够的形态信息,以获得无需查看任何明确形态信号的良好上下文词形还原器;(iii)最佳的领域外词形还原器是使用简单的 UPOS 标签或者没有训练形态学的模型;(iv)目前的词形还原评估实践并不足以清晰地区分模型之间的差异。
Feb, 2023
这篇论文首次开发了索马里语的文本词形归一化技术,为索马里语的自然语言处理任务构建了词典和基于规则的词形归一化系统,该系统在各种长度的文本上进行测试,取得了较高的准确率。
Aug, 2023
本文研究了在深度学习自然语言处理模型中是否需要使用基本形式单词进行词形还原。研究结果表明,在英语中使用基本形式单词进行词形还原并不必要,但在俄语等富有形态语言中,使用词形还原可以带来小幅且稳定的性能提升,尤其是在词义消歧任务中。
Sep, 2019
本研究利用语言学规则和词典设计了一个专门用于孟加拉语的词形还原器,通过对大规模孟加拉语文本的分析,实现了在给定句子中基于单词词性分类的词形还原。词形还原器在经过训练的语言学家手动注释的测试数据集上取得了 96.36%的准确性,并在三个先前发布的孟加拉语词形还原数据集上展现了竞争性能。我们公开提供代码和数据集,以促进孟加拉语自然语言处理的进一步发展。
Nov, 2023
本文介绍了一个简单的神经模型,用于词形还原和形态标记,可以达到 20 种语言的最新结果,并表明联合形态标记和词形还原特别有助于低资源词形还原和形态复杂性较高的语言。
Apr, 2019
本研究使用 NLP 技术中的 lemmatization 和 parsing,研究了词语和语法标记对于作者风格识别的效果,并在多种标记类型下进行了分类准确度的对比,结果显示虽然其性能较字词标记差,但不相差的程度不超过 15%。
Jun, 2022
本研究评估了三种不同的爱沙尼亚词形还原方法 —— 基于生成字符级模型、基于模式的单词级分类模型和基于规则的形态分析。根据我们的实验结果,一个明显较小的生成模型在所有基于 EstBERT 的基于模式的分类模型中一致表现更好。此外,我们观察到三种模型所产生的错误之间存在相对较小的重叠,表明使用不同方法的集成可能会带来改进。
Apr, 2024