语言类型学的概率生成模型

ACLMar, 2019

A Probabilistic Generative Model of Linguistic Typology

Johannes Bjerva, Yova Kementchedjhieva, Ryan Cotterell, Isabelle Augenstein

TL;DR使用指令与参数框架、生成式语言模型、指数族矩阵分解等方法建立语言结构的概率模型，实现了对不同语言之间结构的预测，并表明语言嵌入的预训练可以推广到未观察的语言。

Abstract

In the principles-and-parameters framework, the structural features of languages depend on parameters that may be toggled on or off, with a single parameter often dictating the status of multiple features. The implied covariance between features inspires our probabilisation of this lin

principles-and-parameters framework generative model of language exponential-family matrix factorization typological features language embeddings

发现论文，激发创造

语言嵌入有时包含类型学概括

在 1295 种语言的大规模多语言数据集中训练神经网络模型，以研究神经模型对于语言结构所能学习到的广义化程度，发现神经网络模型在语言结构的广义化方面的表现并不好，并会存在误报，但有些表现仍然与语言学中的传统特征非常接近，为了鼓励在这个领域的持续研究，我们发布了多个资源，包括语言表示的多重集合、多语言单词嵌入、映射和预测的语法和形态特征以及提供语言表征的具有语言学意义的评估软件。

Jan, 2023

从音韵学到句法：利用语言嵌入进行不同层次的无监督语言类型学研究

我们学习了分布式语言表述的方法，可以用来预测语言在不同类型水平和 NLP 模型中的相似性，进而预测 WALS 中的语言类型特征。

Feb, 2018

形态丰富语言的概率建模

本论文研究了如何在语言的概率模型中考虑单词的子结构。从单词的形态学基本概念出发，提出了三种不同类型的语言模型。在 n 元语言模型中，提出了一种基于复合词分解的 Bayesian 模型，还开发了一种新的分布式语言模型。在这两种情况下，论文表明考虑单词的子结构可以提高模型性能和机器翻译的质量。此外，我们还探讨了一些可以自动学习语言词根及语言特征的模型。这些方法应用在闪族语言上表现出更好的结果。

Aug, 2015

探索类型学知识库中的概率推论

本文介绍了一种使用计算模型发现语言基础规律的方法，其表现优于以往的基线模型，成功识别了已知的 Greenberg 大一统规律，同时还发现了有待进一步研究的新规律。

Jun, 2019

从文本中推断语言类型学特征：推理《世界语言结构地图》的稀疏特征

本文提出一种利用多语种文本预测 World Atlas of Language Structures（WALS）特征的方法，使用基于字节嵌入和卷积层构建的循环神经网络预测器，通过在 556 种语言上的测试表明一些各种语言类型的特征是可靠预测的

Apr, 2020

概率语言类型学：元音库存的深度生成模型

本文首次利用基于概率的深度随机点过程解决音韵类型学中的基础问题：什么构成了自然元音库，作者通过超过 200 种不同语言的广泛实验以及与之前的计算机模拟方法的对比，提出了全面的理论。

May, 2017

元音共鸣峰模型的深度生成模型

该研究提出了一种基于前两个共振峰值的声学信息的生成概率模型，用以预测语言中包含哪些元音，从而归纳语言类型学的原理。

Jul, 2018

为类型预测学习语言表示

利用 1017 种语言构建一个神经机器翻译系统，预测存在于语分类数据库中缺失的语言特征，实验表明该方法不仅能推测句法特征，还能推测音位、音库特征。

Jul, 2017

使用监督学习发现潜在结构的句法类型学细粒度预测

本研究展示了如何通过部分语音序列对一个新语言的基本语序事实进行预测，并且通过大量的合成语言训练数据，将这个通常被认为是无监督学习的问题转化成了有监督学习，从而成功地识别了一个语言的 POS 序列的表面特征（手工特征或神经特征）与其更深层次的结构（潜在树）相关性。该系统在该任务上表现出色，比语法归纳基线高出一个很大的优势。

Oct, 2017

通用且独立：多语言探测框架用于全面模型解释和评估

本文提出并应用一种 GUI 辅助框架，使我们能够轻松地探寻普遍依赖数据中所有形态句法特征所出现的大量语言。我们发现，反映了过去几年自然语言处理的西方中心趋势，mBERT 模型中揭示的大多数规律对于西欧语言而言是典型的。因此，我们提出了一个工具包，以系统化解决多语种模型中存在的缺陷，为 104 种语言和 80 种形态句法特征提供可重复的实验设置。

Oct, 2022