基于语境的波兰语词形还原器

Jul, 2022

Context based lemmatizer for Polish language

Michal Karwatowski, Marcin Pietron

TL;DR本文介绍了基于 Google T5 模型的波兰词形还原器，通过在不同的语境长度上运行训练，最终实现了最佳的波兰语词形还原效果。

Abstract

lemmatization is the process of grouping together the inflected forms of a word so they can be analysed as a single item, identified by the word's lemma, or dictionary form. In computational linguistics, lemmatis

lemmatization computational linguistics deep learning polish language google t5 model

发现论文，激发创造

关于词形信息在上下文词形还原中的作用

本文通过实证研究，考察了在六种不同的语言上，使用不同的形态学特征开发上下文词形还原器对下游表现的影响，并发现：（i）为词形还原器提供细粒度的形态学特征在训练时并不那么有益，即使对于词汇连接语言；（ii）实际上，现代上下文词表示似乎隐式地编码了足够的形态信息，以获得无需查看任何明确形态信号的良好上下文词形还原器；（iii）最佳的领域外词形还原器是使用简单的 UPOS 标签或者没有训练形态学的模型；（iv）目前的词形还原评估实践并不足以清晰地区分模型之间的差异。

Feb, 2023

索马里语的词典和基于规则的词汇形态还原方法

这篇论文首次开发了索马里语的文本词形归一化技术，为索马里语的自然语言处理任务构建了词典和基于规则的词形归一化系统，该系统在各种长度的文本上进行测试，取得了较高的准确率。

Aug, 2023

一种基于有限状态机的乌兹别克语规则词形还原算法的开发

构建维吾尔语词形还原算法来识别单词的本义词，其中使用了词缀数据库和词性知识以及有限状态机来移除维吾尔语中的词缀。

Oct, 2022

应用词形归一化对 ELMo 在词义消歧中的影响：词形还原与否

本文研究了在深度学习自然语言处理模型中是否需要使用基本形式单词进行词形还原。研究结果表明，在英语中使用基本形式单词进行词形还原并不必要，但在俄语等富有形态语言中，使用词形还原可以带来小幅且稳定的性能提升，尤其是在词义消歧任务中。

Sep, 2019

BanLemma: 一个以词形构造依赖规则和词典的孟加拉语词形还原工具

本研究利用语言学规则和词典设计了一个专门用于孟加拉语的词形还原器，通过对大规模孟加拉语文本的分析，实现了在给定句子中基于单词词性分类的词形还原。词形还原器在经过训练的语言学家手动注释的测试数据集上取得了 96.36％的准确性，并在三个先前发布的孟加拉语词形还原数据集上展现了竞争性能。我们公开提供代码和数据集，以促进孟加拉语自然语言处理的进一步发展。

Nov, 2023

一种简单的联合模型，用于改善上下文神经词形还原

本文介绍了一个简单的神经模型，用于词形还原和形态标记，可以达到 20 种语言的最新结果，并表明联合形态标记和词形还原特别有助于低资源词形还原和形态复杂性较高的语言。

Apr, 2019

风格指纹、词性标注和屈折语言：以波兰语为例的案例研究

本研究使用 NLP 技术中的 lemmatization 和 parsing，研究了词语和语法标记对于作者风格识别的效果，并在多种标记类型下进行了分类准确度的对比，结果显示虽然其性能较字词标记差，但不相差的程度不超过 15%。

Jun, 2022

HuSpaCy 中的混合还原

本文提出了一种混合词形还原器，使用神经模型、字典和手工规则的混合架构，在广泛使用的匈牙利语数据集上获得了实验结果，并发表了三种 HuSpaCy 模型。

Jun, 2023

形态变化的语境化

本文介绍了一种利用神经混合图模型构建并预测词形变化的方法，并将其与传统的形态学变化或表面实现进行了比较，证明了将语言学驱动的潜在变量纳入 NLP 模型的实用性。

May, 2019

当下词干化方法的比较：爱沙尼亚语的案例研究

本研究评估了三种不同的爱沙尼亚词形还原方法 —— 基于生成字符级模型、基于模式的单词级分类模型和基于规则的形态分析。根据我们的实验结果，一个明显较小的生成模型在所有基于 EstBERT 的基于模式的分类模型中一致表现更好。此外，我们观察到三种模型所产生的错误之间存在相对较小的重叠，表明使用不同方法的集成可能会带来改进。

Apr, 2024