UniMorph 4.0: 通用形态学

May, 2022

UniMorph 4.0: Universal Morphology

Khuyagbaatar Batsuren, Omer Goldman, Salam Khalifa, Nizar Habash, Witold Kieraś...

TL;DR这篇论文介绍了近几年在 Universal Morphology 项目中对语言无关的特征模式和注释数据资源的扩展和改进，以及推动对派生形态学的纳入。

Abstract

The universal morphology (UniMorph) project is a collaborative effort providing broad-coverage instantiated normalized morphological inflection tables for hundreds of diverse world languages. The project comprise

universal morphology morphological inflection feature schema annotated data derivational morphology

发现论文，激发创造

UniMorph 2.0: 通用形态学

该研究介绍了 Universal Morphology UniMorph 项目在收集、标注和发布语言复杂形态学数据和工具方面所取得的进展，旨在改善自然语言处理技术处理全球语言的能力，利用通用标记体系 UniMorph，结合词源及词形态特征，使每个词的形态学信息都能得到充分表达和利用。

Oct, 2018

通用依赖和通用形态的融合

研究对比了 Universal Dependencies 和 Universal Morphology 计划，通过提出一种从 Universal Dependencies v2 特征映射到 UniMorph 结构的确定性映射，从而消除了两个项目之间的兼容性问题，并给出了两个注释项目的基础、优势和劣势的关键评估。

Oct, 2018

J-UniMorph: 通过通用特征模式进行日语形态注释

我们介绍了一个基于 UniMorph 特征结构的日语形态学数据集 J-UniMorph，该数据集解决了普遍存在于该语言中的具有凝结性特点的动词形式。相比于从维基词典自动提取的现有日语 UniMorph 子集，J-UniMorph 在每个词中提供了更广泛、更常用的 118 个屈折形式，包括敬语、不同的礼貌水平和其他语言细微差异，突出了日语的独特特点。本文详细介绍了 J-UniMorph 的统计数据和特征，并将其与维基词典版进行了比较。我们公开发布了 J-UniMorph 及其交互式可视化工具，旨在支持跨语言研究和各种应用。

Feb, 2024

K-UniMorph：韩国通用形态学及其特征模式

我们为韩语提出了一份新的通用形态学数据集，名为 K-UniMorph，涉及韩语的形态学范例，包括动词结束的语法标准、提取屈折形式的方法和生成形态结构的过程，同时采用了来自 Sylak-Glassman（2015 年）和 Sylak-Glassman（2016 年）的形态特征模式。

May, 2023

多参数的形态重新屈折：一个扩展注释模式和一个格鲁吉亚语案例研究

本文提出了一种扩展 UniMorph 注释的策略，通过引入分层特征结构解决多重人称协议等语言中的复杂情况。作者将其应用于格鲁吉亚语，并提供了人工验证的其准确性和平衡性。实验表明，这种扩展能显著提高 UniMorph 数据集的涵盖率和可解释性。

Mar, 2022

CoNLL--SIGMORPHON 2018 共享任务：通用的形态再生成

CoNLL-SIGMORPHON 2018 shared task focused on supervised learning and morphological generation for over 100 languages, with task 1, inflection task, receiving 27 submissions and task 2, the cloze task, receiving 6 submissions where most systems utilized neural components and improvements were seen from last year's inflection task.

Oct, 2018

CoNLL-SIGMORPHON 2017 共享任务：52 种语言的通用形态还原

该研究以 CoNLL-SIGMORPHON 2017 共享任务为基础，使用监督型形态生成技术在 52 种语言上进行训练和测试，结果表明神经序列到序列模型能够在小训练数据集上取得高性能，但由于不同偏置和数据增强策略导致预测的屈折形式集合不一，因此仍需要进一步的改进措施。

Jun, 2017

无国界的形态学：从子句层面考虑

本文通过提出一种基于句子层面的形态学，并创建了一个新的、基于句子层面的多语言数据集 MightyMorph，得出基于句子层面的变形、重新变形和分析任务比基于单词水平的任务更具挑战性，同时提供一种方便的界面与语境化语言模型（LMs）相接，评估这些模型中编码的形态学知识和它们用于形态学任务的可用性，为跨语言神经形态的研究打开了新的视野。

Feb, 2022

通用依存关系 v2：一个不断增长的多语言树库集合

该研究介绍了 Universal Dependencies 的第二个版本，其中包括词汇分析、词形还原、标准化标记和句法关系，适用于 90 种语言，以及主要变化（UD v1 到 UD v2）的讨论。

Apr, 2020

UDPipe 于 SIGMORPHON 2019: 上下文嵌入，形态类别规则化，语料库合并

我们在 SIGMORPHON2019 共享任务中对 UDPip2.0 进行修改，使用预训练的上下文化嵌入 (BERT) 作为网络的附加输入，使用单独的形态特征作为正则化，并合并了同一语言的选定语料库，在词形还原任务中，我们的系统的准确性达到了 95.78，超过所有提交的系统，且在词态分析方面取得了 93.19 的准确度，是一个非常有前途的研究。

Aug, 2019