俄语和乌克兰语的形态分析器和生成器

Mar, 2015

俄语和乌克兰语的形态分析器和生成器

Morphological Analyzer and Generator for Russian and Ukrainian Languages

Mikhail Korobov

TL;DRpymorphy2 是一种针对俄语和乌克兰语的词形分析器和生成器，使用大型的 OpenCorpora 和 LanguageTool 数据库，开发了一组语言学动机的规则，以便分析词形和生成现实世界文档中出现的生僻词汇，具有现代技术水平，易于使用、文档齐全、可扩展性强。

Abstract

pymorphy2 is a morphological analyzer and generator for russian and ukr

pymorphy2 morphological analyzer russian ukrainian language

发现论文，激发创造

基于语法和句法的乌克兰语语料库分析工具

该研究提供了一个文本挖掘工具 StyloMetrix 的概述，该工具最初为波兰语开发，后来扩展为英语和乌克兰语。研究人员使用计算语言学家和文学研究人员手工制作的各种度量衡来构建统计评估句法和语法特征的思路是直接而熟悉的，但对于乌克兰语等低资源语言，该工具仍需开发。该论文描述了 StyloMetrix 的流程和用于文本分类任务的一些实验，同时也描述了该包的主要限制和度量衡的评估程序。

May, 2023

DEMorphy，德语语言形态结构分析器

DEMorphy 是一个基于德语词形字典构建的德语词形分析器，提供了德语变格后缀的猜测器，其使用 Python 实现，易于使用，适用于学术和商业目的，并带有相关文档。

Mar, 2018

UzMorphAnalyser: 用词尾进行乌兹别克语言的形态分析模型

该论文提出了对乌兹别克语词汇进行形态分析、寻找词干、确定词性信息的模型，经过验证和评估后，该模型在词级别的准确度超过了 91%，并且已经以基于 Web 应用程序和开源 Python 库的形式提供。

May, 2024

基于大数据的俄语讽刺检测方法

我们提出了一组确定性算法，用于俄语屈折和自动文本合成，并实现在一个公开可用的网站上。这个服务提供词的屈折、单词匹配和语法正确的俄语文本合成的功能。我们的算法在 OpenCorpora 俄语语料库的标注语料上进行了性能测试，比较了其他解决方案，并用于估计俄语不同词性的形态学变异性和复杂性。

Jun, 2023

为乌兹别克语创建形态和句法标记语料库

本研究填补了低资源乌兹别克语领域机器学习模型样本不足的问题，开发了新的词性标注和句法标注标准，并提出了一个基于网络的工具来帮助标注。同时，我们共享了创建乌兹别克语语料库的第一阶段的经验结果。

Oct, 2022

捷克形态句法分析的开源网络服务与形态字典增强的深度学习

我们提供了一个开源网络服务，该服务用于捷克形态句法分析。该系统将深度学习模型与高精度形态词典的重评分相结合，在推理时能够显示超过两个竞争基准：深度学习模型确保了对于未在词汇表中的词汇的泛化和更好的消歧能力，从而优于现有的形态分析器 MorphoDiTa；同时，深度学习模型通过推理时利用手动精心编辑的形态词典来获益。相较于 MorphoDiTa，我们在词干化方面的误差减少了 50％，在词性标记方面的误差减少了 58％，同时还提供了依赖性分析。该模型是在目前最大的捷克形态句法语料库 PDT-C 1.0 上进行训练的，训练后的模型可以在此 https URL 上获取。我们将该工具提供为一个网络服务部署在此 https URL 上。源代码可以在 GitHub（此 https URL）上找到，配有用于简单使用的 Python 客户端。模型的文档可以在此 https URL 找到。

Jun, 2024

UniMorph 2.0: 通用形态学

该研究介绍了 Universal Morphology UniMorph 项目在收集、标注和发布语言复杂形态学数据和工具方面所取得的进展，旨在改善自然语言处理技术处理全球语言的能力，利用通用标记体系 UniMorph，结合词源及词形态特征，使每个词的形态学信息都能得到充分表达和利用。

Oct, 2018

Morph Call: 探究多语种 Transformer 的形态句法内容

本研究提出了 Morph Call，它是针对四种不同形态的印欧语言（英语，法语，德语和俄语）的 46 个探测任务套件，使用诱导句子扰动的检测方法，在神经元，层和表示水平上分析了四个多语言 transformers 的形态句法内容，其中包括其不太被探究的蒸馏版本，并研究了精调 POS 标记对模型知识的影响。研究结果表明，精调可以改善和降低探测性能，并改变形态句法知识在模型中的分布。代码和数据公开，希望填补 transformers 的研究空白。

Apr, 2021

使用序列解码器进行形态分析

本文介绍 Morse，一种循环编码器解码器模型，用于生成语句中每个单词的形态分析。该模型可生成单独的形态特征，表现出色且能处理少见标签和各种复杂语言。

May, 2018

UzbekTagger: 一种基于规则的乌兹别克语词性标记器

本研究提出了一个低资源语言乌兹别克语的词性标注数据集和标注工具，使用一种基于规则的标注器，该标注器使用 12 种标签来标注单词的词性，通过使用前缀 / 后缀剥离方法对单词进行词干处理，该工具在乌兹别克文本中标注和识别单词的词性，并且是第一次公开提供乌兹别克语数据集和标注工具，也可以作为其他紧密相关土耳其语言的基础。

Jan, 2023