本研究提出了一种基于神经编码器解码器模型的方法,用于生成Morphological inflection generation任务中给定基本形式的词汇对应的特定语言变换的变形形式,并在7个形态丰富语言的数据集上进行评估,获得了与现有的最先进的基于变化生成的模型相比更好或可比的结果。
Dec, 2015
本研究应用神经序列到序列模型解决NLP中复杂词形派生问题,并介绍派生范式完成任务。基于优于非神经基准线16.4%的结果,我们的神经模型学会了各种派生模式。但是,由于派生性构词涉及语义、历史和词汇考虑,因此未来需要更多工作来实现和生成机制的性能平衡。
Aug, 2017
在小型训练集下,我们针对neural seq2seq models在paradigm completion的应用中性能低下提出了两种新方法:1. Paradigm transduction, 2. Source selection with high precision (SHIP), 在52种语言的基准数据集上,我们相比之前的技术水平在最高达9.71%的绝对准确率上实现了优异表现。
Sep, 2018
提出一种针对低资源语言的自动词形变化生成方案,在神经网络方法、注意力机制、跨语言转移学习等方面做了改进并实现了15%的性能提升。发现了语言类别相似和通用表示是跨语言转移学习成功的关键因素。
Aug, 2019
该研究提出了一种新颖的方法,使用人造语言验证语言模型的归纳偏见,并发现常用的神经架构在处理语句单词排序方面存在不同的归纳偏差。
Jun, 2021
使用基于词元的训练-测试分割方法重新评估形态学屈折模型,结果表明对于不同的语言模型的泛化性能有着不同程度的影响,尤其对于低资源语言的影响更大。
Aug, 2021
本文通过提出一种基于句子层面的形态学,并创建了一个新的、基于句子层面的多语言数据集 MightyMorph,得出基于句子层面的变形、重新变形和分析任务比基于单词水平的任务更具挑战性,同时提供一种方便的界面与语境化语言模型(LMs)相接,评估这些模型中编码的形态学知识和它们用于形态学任务的可用性,为跨语言神经形态的研究打开了新的视野。
Feb, 2022
本文提出了一种以unigram分布为先验知识的初始化模型权重的方法,在神经语言生成模型中应用该方法可提高学习效率、整体性能以及鼓励模型专注于非频率相关的语言特性。
Dec, 2022
本研究探索了通过不同方式获取亚字符音韵特征对形态学模型、尤其是重音和分析的效果,通过语言特定的语法从标准文字数据中引出音素数据,并用两种重音模型在八种语言中进行实验。
Jun, 2023
本文针对语言田野调查的高耗时和复杂性问题,提出了一种新颖的模型,以指导语言学家在田野工作中的互动。通过评估不同采样策略的效率,研究发现提高注释数据多样性和利用模型置信度来优化交互能够显著提升田野调查的效果。
Sep, 2024