多参数的形态重新屈折:一个扩展注释模式和一个格鲁吉亚语案例研究
这篇论文介绍了近几年在 Universal Morphology 项目中对语言无关的特征模式和注释数据资源的扩展和改进,以及推动对派生形态学的纳入。
May, 2022
我们为韩语提出了一份新的通用形态学数据集,名为 K-UniMorph,涉及韩语的形态学范例,包括动词结束的语法标准、提取屈折形式的方法和生成形态结构的过程,同时采用了来自 Sylak-Glassman(2015 年)和 Sylak-Glassman(2016 年)的形态特征模式。
May, 2023
我们介绍了一个基于 UniMorph 特征结构的日语形态学数据集 J-UniMorph,该数据集解决了普遍存在于该语言中的具有凝结性特点的动词形式。相比于从维基词典自动提取的现有日语 UniMorph 子集,J-UniMorph 在每个词中提供了更广泛、更常用的 118 个屈折形式,包括敬语、不同的礼貌水平和其他语言细微差异,突出了日语的独特特点。本文详细介绍了 J-UniMorph 的统计数据和特征,并将其与维基词典版进行了比较。我们公开发布了 J-UniMorph 及其交互式可视化工具,旨在支持跨语言研究和各种应用。
Feb, 2024
该研究以 CoNLL-SIGMORPHON 2017 共享任务为基础,使用监督型形态生成技术在 52 种语言上进行训练和测试,结果表明神经序列到序列模型能够在小训练数据集上取得高性能,但由于不同偏置和数据增强策略导致预测的屈折形式集合不一,因此仍需要进一步的改进措施。
Jun, 2017
CoNLL-SIGMORPHON 2018 shared task focused on supervised learning and morphological generation for over 100 languages, with task 1, inflection task, receiving 27 submissions and task 2, the cloze task, receiving 6 submissions where most systems utilized neural components and improvements were seen from last year's inflection task.
Oct, 2018
该研究介绍了 Universal Morphology UniMorph 项目在收集、标注和发布语言复杂形态学数据和工具方面所取得的进展,旨在改善自然语言处理技术处理全球语言的能力,利用通用标记体系 UniMorph,结合词源及词形态特征,使每个词的形态学信息都能得到充分表达和利用。
Oct, 2018
本研究探索了通过不同方式获取亚字符音韵特征对形态学模型、尤其是重音和分析的效果,通过语言特定的语法从标准文字数据中引出音素数据,并用两种重音模型在八种语言中进行实验。
Jun, 2023
提出一种针对低资源语言的自动词形变化生成方案,在神经网络方法、注意力机制、跨语言转移学习等方面做了改进并实现了 15% 的性能提升。发现了语言类别相似和通用表示是跨语言转移学习成功的关键因素。
Aug, 2019