带音韵特征的形态变化
提出一种针对低资源语言的自动词形变化生成方案,在神经网络方法、注意力机制、跨语言转移学习等方面做了改进并实现了 15% 的性能提升。发现了语言类别相似和通用表示是跨语言转移学习成功的关键因素。
Aug, 2019
该研究以 CoNLL-SIGMORPHON 2017 共享任务为基础,使用监督型形态生成技术在 52 种语言上进行训练和测试,结果表明神经序列到序列模型能够在小训练数据集上取得高性能,但由于不同偏置和数据增强策略导致预测的屈折形式集合不一,因此仍需要进一步的改进措施。
Jun, 2017
通过将词汇学特征添加到 LSTM 和 BERT 模型中,我们比较了多种语言中命名实体识别、依赖解析和评论过滤任务的基线和改进模型表现,结果显示,根据所添加的特征的质量和任务的不同,这些特征对于 LSTM 的 NER 和 DP 任务表现提升效果较好,而不太适用于 CF 任务;对于 BERT,只有在高质量特征时才会对 DP 表现有所改善,而且相对于强大的多语言 BERT 模型,语言特异性 BERT 变体的改善程度较小。
Nov, 2020
本研究提出通过元学习的方式,以较少的语言资源解决形态学词形变化的任务。研究发现,将数据作为元参数,可以作为引导资源匮乏语言微调的强大初始化点。通过 29 个目标语言的实验,该方法表现出优异的性能,比之前提出的跨语言转移模型提高了 31.7% 的绝对精度,并且平均比之前的最优方法提高了 1.7% 的绝对准确度。
Apr, 2020
CoNLL-SIGMORPHON 2018 shared task focused on supervised learning and morphological generation for over 100 languages, with task 1, inflection task, receiving 27 submissions and task 2, the cloze task, receiving 6 submissions where most systems utilized neural components and improvements were seen from last year's inflection task.
Oct, 2018
使用基于词元的训练 - 测试分割方法重新评估形态学屈折模型,结果表明对于不同的语言模型的泛化性能有着不同程度的影响,尤其对于低资源语言的影响更大。
Aug, 2021
本研究通过多任务学习将形态学监督引入字符语言模型,并发现即使形态学数据和语言建模数据不重叠,这种增加也可以提高 24 种语言的 BPC 性能。同时,研究表明有屈折词的性能获益更大,而形态学督导即使在语言建模数据增加的情况下也能提高性能。最后,我们通过跨语言转移形态学督导来提高低资源环境下的语言建模性能。
Jun, 2019