基于字级别和形态学的语义角色标注模型对比研究
对于具备丰富形态的语言,采用神经模型进行解析时,在字符级别建模具有优势,因为字符级别模型可以学习到形态学特征。通过在 12 种形态学类型不同的语言上进行实验,我们发现字符级别模型在某些情况下无法准确区分单词,特别是在面对形态学变体方面。然后,我们证明了明确定义形态学格的显式建模可以改善我们的最佳模型,表明字符级别模型可以从定向的显式形态学建模中获益。
Aug, 2018
本研究通过多任务学习将形态学监督引入字符语言模型,并发现即使形态学数据和语言建模数据不重叠,这种增加也可以提高 24 种语言的 BPC 性能。同时,研究表明有屈折词的性能获益更大,而形态学督导即使在语言建模数据增加的情况下也能提高性能。最后,我们通过跨语言转移形态学督导来提高低资源环境下的语言建模性能。
Jun, 2019
通过系统地比较不同的基本表示单元、表示单元的组合方式和建模的语言的形态学类型,我们发现用 bi-LSTM 组合字符三元组表示法在大多数情况下优于其他方法,但是没有任何一种基于字符级别的模型能够与直接使用真实的形态学分析相比拟,即使学习数据增加一个数量级。
Apr, 2017
本文研究字符级别模式识别神经网络所学习的规律以及相对于手动标注的词语分割的重叠性,并使用卷积神经网络和双向长短期记忆网络对三种不同的语言进行形态标记任务的评估和比较,证明这些模型可以隐式地发现可理解的语言规则。
Aug, 2018
本文研究如何利用转移学习的方法,通过训练 character-level recurrent neural taggers 的方式,使得高资源语言和低资源语言都能够正确预测 morphological taggings,成功地实现了多语言间的知识迁移,有效提高了准确性达 30%。
Aug, 2017
本文探讨是否在神经网络中使用额外的句法特征表示对语义角色标注(SRL)有益,实验结果表明这有助于提高 SRL 的性能,并且在 CoNLL-2005 数据集上达到了新的最先进水平。
Jul, 2019
本文介绍了一种联合模型,能够对单词进行无监督的形态分析,并学习从形态素到单词嵌入的字符级组成函数。该模型对单词进行分割,并根据其预测上下文单词的能力对每个分割部分进行加权。我们的形态分析与专门的形态分析器相当,并且在语法类比回答任务中表现优异。最后,我们表明,将形态学明确纳入字符级模型有助于它们生成与人类判断更相关的未知单词的嵌入。
Jun, 2016
研究探讨了采用字符级表示对神经模型性能的影响,通过对英语、德语、荷兰语和意大利语数据集的实验结果发现,字符级信息的引入并不能提高英语和德语语言的性能,但字符级信息可以提高荷兰语和意大利语的性能。
Jun, 2023
本论文提出,在序列到序列模型中,将字符级别和上下文语言模型表示相结合以提高 Discourse Representation Structure 解析的性能,并通过基于语义标签的新方法分析表明,字符级别表示改进了在选定语义现象的全部性能。
Nov, 2020