CMU-01在SIGMORPHON 2019跨语言和语境形态共享任务中的表现
本研究提出一种新颖的跨语言转移方法,使用神经编码器-解码器模型完成词形映射任务,并使用高资源语言数据提高低资源语言的性能。在21种不同语言家族的语言对中进行实验,比无转移方法的精度高出58%,并表明零射和单射学习也是可能的。此外,我们发现语言相关性程度强烈影响转移形态学知识的能力。
Mar, 2017
该研究以 CoNLL-SIGMORPHON 2017 共享任务为基础,使用监督型形态生成技术在 52 种语言上进行训练和测试,结果表明神经序列到序列模型能够在小训练数据集上取得高性能,但由于不同偏置和数据增强策略导致预测的屈折形式集合不一,因此仍需要进一步的改进措施。
Jun, 2017
本篇论文介绍了苏黎世大学在SIGMORPHON 2017共享任务中针对形态重构的提交。 我们专注于神经网络方法,可以在有限资源的情况下解决任务。 我们提出了两种具有硬单调注意机制的循环神经网络架构,这些架构在复制方面很强大,并且在实现方面存在显着差异。 随后,我们提出了一些实验,通过字符对齐技术使翻译连贯,并基于样本量100的条件下,所提出的两种方法(以模型集合的形式)均优于下一竞争对手,成为了SIGMORPHON 2017共享任务1的全局胜者。
Jul, 2017
本研究提出两种新型的多任务训练方法和相应的数据增强方法,应用于Mexican polysynthetic语言的形态分割,提高了神经基线的性能,同时探索了跨语言转移作为第三种加强神经模型的方法,表明在维持可比性甚至性能提高的同时,可以训练一个多语言模型来减少约75%的参数数量,将我们的形态分割数据集提供给Mexicanero,Nahuatl,Wixarika和Yorem Nokki用于未来研究。
Apr, 2018
本文介绍了一个简单的神经模型,用于词形还原和形态标记,可以达到20种语言的最新结果,并表明联合形态标记和词形还原特别有助于低资源词形还原和形态复杂性较高的语言。
Apr, 2019
我们在SIGMORPHON2019共享任务中对UDPip2.0进行修改,使用预训练的上下文化嵌入(BERT)作为网络的附加输入,使用单独的形态特征作为正则化,并合并了同一语言的选定语料库,在词形还原任务中,我们的系统的准确性达到了95.78,超过所有提交的系统,且在词态分析方面取得了93.19的准确度,是一个非常有前途的研究。
Aug, 2019
SIGMORPHON 2019共享任务关注跨语言转移和上下文形态学分析,研究传递学习和上下文词形还原在66种语言中的应用,同时在100种语言对中考察了词缀的转移,所有的提交中都具备了神经元件。
Oct, 2019
本文通过实证研究,考察了在六种不同的语言上,使用不同的形态学特征开发上下文词形还原器对下游表现的影响,并发现:(i)为词形还原器提供细粒度的形态学特征在训练时并不那么有益,即使对于词汇连接语言;(ii)实际上,现代上下文词表示似乎隐式地编码了足够的形态信息,以获得无需查看任何明确形态信号的良好上下文词形还原器;(iii)最佳的领域外词形还原器是使用简单的UPOS标签或者没有训练形态学的模型;(iv)目前的词形还原评估实践并不足以清晰地区分模型之间的差异。
Feb, 2023
历史语言中的NLP社区所面临的主要挑战之一是其封闭语料库中有限的资源。本研究描述了我们参与SIGTYP 2024共享任务约束子任务的提交,重点关注13种历史语言的词性标注、形态标注和词形还原。我们采用了Sun等人(2023年)的分层分词方法,并结合DeBERTa-V3架构的优势,使我们的模型能够有效地从训练数据的每个字符中学习。我们还展示了字符级T5模型在词形还原任务中的有效性。我们的模型通过有限的数据从头开始预训练,并在约束子任务中获得了第一名,几乎达到了无约束任务的冠军水平。我们的代码可在此https URL找到。
May, 2024