在 1295 种语言的大规模多语言数据集中训练神经网络模型,以研究神经模型对于语言结构所能学习到的广义化程度,发现神经网络模型在语言结构的广义化方面的表现并不好,并会存在误报,但有些表现仍然与语言学中的传统特征非常接近,为了鼓励在这个领域的持续研究,我们发布了多个资源,包括语言表示的多重集合、多语言单词嵌入、映射和预测的语法和形态特征以及提供语言表征的具有语言学意义的评估软件。
Jan, 2023
对语言类型学在自然语言处理中的应用进行了调研,发现目前的语言类型数据库在系统性能提升方面存在局限性,现提出将语言的类型类别与现代自然语言处理中的机器学习算法相融合的新方法。
Jul, 2018
本文研究神经机器翻译的表示,探讨其对源语言和目标语言的理解以及对单词结构学习的影响,发现了一些关键参数对表示的影响
Apr, 2017
本研究分析了神经机器翻译模型在不同粒度上学习到的表示,并通过相关的外围特性对其质量进行评估,结果表明深层次的 NMT 模型学习了大量的语言信息,其中鲜明的发现包括:(i)词组结构和词类等语言单元在模型较低的层次上被捕捉;(ii)而词汇语义或非局部的句法和语义依存则在较高层次上表示更好;(iii)使用字符所学习的表示比使用子词单位所学习的更具有词形信息;(iv)多语言模型所学习的表示比双语模型更加丰富。
Nov, 2019
本文提出一个过程,用于研究神经机器翻译 (NMT) 系统生成的句子表示如何编码不同的语义现象,最终发现编码器最适合在语法 - 语义界面上支持推理,而不是需要世界知识的指代消解。
Apr, 2018
本文研究了神经机器翻译中不同层面的向量表示的学习情况,并发现高层次对语义的学习更有效,而较低层次对词性标注的学习效果更好。
Jan, 2018
我们学习了分布式语言表述的方法,可以用来预测语言在不同类型水平和 NLP 模型中的相似性,进而预测 WALS 中的语言类型特征。
Feb, 2018
研究探讨了 NLP 工具在不同语言的应用情况以及针对语言结构差异进行的分析,指出哪些变量最影响语言建模的效果,通过计算词序和形态相似性指数等方法进行实证研究,最后通过多分类文本分类实验验证了研究结论。
Apr, 2020
本文研究表明神经语言模型在多语言语料库上的训练可以用来学习语言的分布式表示,尤其是在语料库被翻译成英文的情况下。我们研究了语言表示与各种相似性之间的相关性和因果关系,发现结构相似是最能影响语言表示相似性的,而遗传关系则是一个混淆因素。这项研究可以促进自然语言处理和语言学的相互发展。
Jan, 2019
研究神经机器翻译模型和单语模型在表征词汇相似性和语法角色方面的性能,结果表明,神经翻译模型在捕捉概念的本体论状态方面比单语模型更胜一筹。
Oct, 2014