UniMorph 4.0: 通用形态学
该研究介绍了 Universal Morphology UniMorph 项目在收集、标注和发布语言复杂形态学数据和工具方面所取得的进展,旨在改善自然语言处理技术处理全球语言的能力,利用通用标记体系 UniMorph,结合词源及词形态特征,使每个词的形态学信息都能得到充分表达和利用。
Oct, 2018
研究对比了 Universal Dependencies 和 Universal Morphology 计划,通过提出一种从 Universal Dependencies v2 特征映射到 UniMorph 结构的确定性映射,从而消除了两个项目之间的兼容性问题,并给出了两个注释项目的基础、优势和劣势的关键评估。
Oct, 2018
我们介绍了一个基于 UniMorph 特征结构的日语形态学数据集 J-UniMorph,该数据集解决了普遍存在于该语言中的具有凝结性特点的动词形式。相比于从维基词典自动提取的现有日语 UniMorph 子集,J-UniMorph 在每个词中提供了更广泛、更常用的 118 个屈折形式,包括敬语、不同的礼貌水平和其他语言细微差异,突出了日语的独特特点。本文详细介绍了 J-UniMorph 的统计数据和特征,并将其与维基词典版进行了比较。我们公开发布了 J-UniMorph 及其交互式可视化工具,旨在支持跨语言研究和各种应用。
Feb, 2024
我们为韩语提出了一份新的通用形态学数据集,名为 K-UniMorph,涉及韩语的形态学范例,包括动词结束的语法标准、提取屈折形式的方法和生成形态结构的过程,同时采用了来自 Sylak-Glassman(2015 年)和 Sylak-Glassman(2016 年)的形态特征模式。
May, 2023
本文提出了一种扩展 UniMorph 注释的策略,通过引入分层特征结构解决多重人称协议等语言中的复杂情况。作者将其应用于格鲁吉亚语,并提供了人工验证的其准确性和平衡性。实验表明,这种扩展能显著提高 UniMorph 数据集的涵盖率和可解释性。
Mar, 2022
CoNLL-SIGMORPHON 2018 shared task focused on supervised learning and morphological generation for over 100 languages, with task 1, inflection task, receiving 27 submissions and task 2, the cloze task, receiving 6 submissions where most systems utilized neural components and improvements were seen from last year's inflection task.
Oct, 2018
该研究以 CoNLL-SIGMORPHON 2017 共享任务为基础,使用监督型形态生成技术在 52 种语言上进行训练和测试,结果表明神经序列到序列模型能够在小训练数据集上取得高性能,但由于不同偏置和数据增强策略导致预测的屈折形式集合不一,因此仍需要进一步的改进措施。
Jun, 2017
本文通过提出一种基于句子层面的形态学,并创建了一个新的、基于句子层面的多语言数据集 MightyMorph,得出基于句子层面的变形、重新变形和分析任务比基于单词水平的任务更具挑战性,同时提供一种方便的界面与语境化语言模型(LMs)相接,评估这些模型中编码的形态学知识和它们用于形态学任务的可用性,为跨语言神经形态的研究打开了新的视野。
Feb, 2022
该研究介绍了 Universal Dependencies 的第二个版本,其中包括词汇分析、词形还原、标准化标记和句法关系,适用于 90 种语言,以及主要变化(UD v1 到 UD v2)的讨论。
Apr, 2020
我们在 SIGMORPHON2019 共享任务中对 UDPip2.0 进行修改,使用预训练的上下文化嵌入 (BERT) 作为网络的附加输入,使用单独的形态特征作为正则化,并合并了同一语言的选定语料库,在词形还原任务中,我们的系统的准确性达到了 95.78,超过所有提交的系统,且在词态分析方面取得了 93.19 的准确度,是一个非常有前途的研究。
Aug, 2019