为类型预测学习语言表示

EMNLPJul, 2017

Learning Language Representations for Typology Prediction

Chaitanya Malaviya, Graham Neubig, Patrick Littell

TL;DR利用 1017 种语言构建一个神经机器翻译系统，预测存在于语分类数据库中缺失的语言特征，实验表明该方法不仅能推测句法特征，还能推测音位、音库特征。

Abstract

One central mystery of neural nlp is what neural models "know" about their subject matter. When a neural machine translation system learns to translate from one language to another, does it learn the syntax or se

neural nlp machine translation typological databases phonological inventory syntactic features

发现论文，激发创造

语言嵌入有时包含类型学概括

在 1295 种语言的大规模多语言数据集中训练神经网络模型，以研究神经模型对于语言结构所能学习到的广义化程度，发现神经网络模型在语言结构的广义化方面的表现并不好，并会存在误报，但有些表现仍然与语言学中的传统特征非常接近，为了鼓励在这个领域的持续研究，我们发布了多个资源，包括语言表示的多重集合、多语言单词嵌入、映射和预测的语法和形态特征以及提供语言表征的具有语言学意义的评估软件。

Jan, 2023

语言变异和语言规律的建模：关于自然语言处理中的语言类型学调查

对语言类型学在自然语言处理中的应用进行了调研，发现目前的语言类型数据库在系统性能提升方面存在局限性，现提出将语言的类型类别与现代自然语言处理中的机器学习算法相融合的新方法。

Jul, 2018

神经机器翻译模型学到了什么关于形态学？

本文研究神经机器翻译的表示，探讨其对源语言和目标语言的理解以及对单词结构学习的影响，发现了一些关键参数对表示的影响

Apr, 2017

神经机器翻译模型的语言表征能力

本研究分析了神经机器翻译模型在不同粒度上学习到的表示，并通过相关的外围特性对其质量进行评估，结果表明深层次的 NMT 模型学习了大量的语言信息，其中鲜明的发现包括：（i）词组结构和词类等语言单元在模型较低的层次上被捕捉；（ii）而词汇语义或非局部的句法和语义依存则在较高层次上表示更好；（iii）使用字符所学习的表示比使用子词单位所学习的更具有词形信息；（iv）多语言模型所学习的表示比双语模型更加丰富。

Nov, 2019

神经机器翻译中语义现象的自然语言推理评估

本文提出一个过程，用于研究神经机器翻译 (NMT) 系统生成的句子表示如何编码不同的语义现象，最终发现编码器最适合在语法 - 语义界面上支持推理，而不是需要世界知识的指代消解。

Apr, 2018

评估神经机器翻译中的表示层对词性标注和语义标注任务的影响

本文研究了神经机器翻译中不同层面的向量表示的学习情况，并发现高层次对语义的学习更有效，而较低层次对词性标注的学习效果更好。

Jan, 2018

从音韵学到句法：利用语言嵌入进行不同层次的无监督语言类型学研究

我们学习了分布式语言表述的方法，可以用来预测语言在不同类型水平和 NLP 模型中的相似性，进而预测 WALS 中的语言类型特征。

Feb, 2018

评估基于 Transformer 的多语言文本分类

研究探讨了 NLP 工具在不同语言的应用情况以及针对语言结构差异进行的分析，指出哪些变量最影响语言建模的效果，通过计算词序和形态相似性指数等方法进行实证研究，最后通过多分类文本分类实验验证了研究结论。

Apr, 2020

语言表征实际代表着什么？

本文研究表明神经语言模型在多语言语料库上的训练可以用来学习语言的分布式表示，尤其是在语料库被翻译成英文的情况下。我们研究了语言表示与各种相似性之间的相关性和因果关系，发现结构相似是最能影响语言表示相似性的，而遗传关系则是一个混淆因素。这项研究可以促进自然语言处理和语言学的相互发展。

Jan, 2019

不是所有神经嵌入都是平等的

研究神经机器翻译模型和单语模型在表征词汇相似性和语法角色方面的性能，结果表明，神经翻译模型在捕捉概念的本体论状态方面比单语模型更胜一筹。

Oct, 2014