类型盲是否会阻碍跨语言共享？

ACLJan, 2021

Does Typological Blinding Impede Cross-Lingual Sharing?

Johannes Bjerva, Isabelle Augenstein

TL;DR通过跨语言模型中学习潜在权重来实现按语言共享特征，并利用语言类型化信息来弥合高、低资源语言之间的性能差距。

Abstract

Bridging the performance gap between high- and low-resource languages has been the focus of much previous work. Typological features from databases such as the World Atlas of Language Structures (WALS) are a prime candidate for this, as such data exists even for very low-resource langu

cross-lingual typology performance gap latent weights sharing

发现论文，激发创造

SIGTYP 2020 共享任务：语言类型特征预测

本篇论文介绍了如何通过预测语言的语言学特征来填充 typological knowledge bases。该任务吸引了 5 支团队的 8 个提交，在最强大的系统中，特征相关性得到了应用。然而，该研究的错误分析表明，即使在一些语言的特征不确定时，即使是最优秀的系统也难以准确地预测特征值。

Oct, 2020

从文本中推断语言类型学特征：推理《世界语言结构地图》的稀疏特征

本文提出一种利用多语种文本预测 World Atlas of Language Structures（WALS）特征的方法，使用基于字节嵌入和卷积层构建的循环神经网络预测器，通过在 556 种语言上的测试表明一些各种语言类型的特征是可靠预测的

Apr, 2020

将语言类型学纳入神经依存句法分析中的挑战

本研究探讨了在跨语言依赖分析的背景下，如何利用类型学来提高性能，而我们的主要发现是将语言聚合成句法同质性群组有助于性能，而将类型维度进行组合式学习的效果并不显著。同时，考虑到所选择语料库的列统计学与类型学相一致时，性能表现也将更为出色。

Sep, 2019

从外语使用中重构母语语言类型

本研究通过英语作为第二语言文本中的结构特征和母语语言的类型学特征之间的相似性，提供了支持语言相似性跨语言转移的实证证据，并利用这一发现，在不依赖类型学资源的情况下，直接从 ESL 文本中恢复母语类型学相似性结构，并以无监督的方式执行对目标语言的类型学特征预测。我们的方法在类型学预测任务上取得了 72.2％的准确度，具有与依赖类型学资源的等效方法相当的竞争力。

Apr, 2014

使用类型学属性增强自然语言处理模型的跨语言行为测试

本文提出了 M2C，这是一种对自然语言处理模型进行语言特征行为测试的框架，并评估了 12 种类型不同的语言在不同特征测试下的表现，结果发现 NLP 模型在英语上的表现较好，但在斯瓦希里语等语言的某些特殊语言特征测试上表现不佳，这启示我们需要发展解决这些缺陷的模型。

Jul, 2023

语言变异和语言规律的建模：关于自然语言处理中的语言类型学调查

对语言类型学在自然语言处理中的应用进行了调研，发现目前的语言类型数据库在系统性能提升方面存在局限性，现提出将语言的类型类别与现代自然语言处理中的机器学习算法相融合的新方法。

Jul, 2018

自然语言处理中语言类型数据库的过去、现在和未来

在发展自然语言处理模型中，特质信息对于低资源语言尤为重要，目前存在的大规模特质数据库在彼此之间和与其他特质信息源（如语言语法）之间存在不一致性，我们通过系统地研究不同特质数据库和资源的不一致性及其在自然语言处理中的用途，旨在为解决这个问题提供启示，同时提出连续视角的特质特征具有重要的潜力，建议从语言学的角度加以推广，认为在低资源语境下的语言建模中，这种特质视角具有重要的应用前景。

Oct, 2023

语言嵌入：用于语言类型学和跨语言迁移学习

本研究探究是否可以通过学习表示语言之间关系的语言表示来进行跨语言任务，而无需使用平行数据。使用去噪自编码器产生 29 种语言的密集嵌入，并在零样本情况下使用 WALS 和两个外部任务（跨语言依赖解析和跨语言自然语言推理）来评估嵌入。

Jun, 2021

借助多视角语言表示桥接语言类型学和多语机器翻译

将来自语言数据库和多语言机器翻译等任务的稀疏语言向量相结合，使用奇异向量典型相关分析方法进行研究，发现这两种方法的关联性可嵌入语言类型学和语言谱系学，实现了对多语种机器翻译的优化，而且无需大规模的多语种编排，便于新语种的测量。

Apr, 2020

使用语言嵌入和条件概率预测《WALS》中的类型学特征：ÚFAL 提交给 SIGTYP 2020 共享任务

我们使用基于 WALS 数据库的受限系统来预测语言类型学特征，探究了两种方法：内在于语言的特征值的相关性的计算，和基于 WALS 特征的语言嵌入预测器的训练。我们提交的系统结合了这两种方法的自我估计的置信度得分，并在测试数据上达到了 70.7％的准确度，排名该共享任务的第一名。

Oct, 2020