语言嵌入：用于语言类型学和跨语言迁移学习

ACLJun, 2021

语言嵌入：用于语言类型学和跨语言迁移学习

Language Embeddings for Typology and Cross-lingual Transfer Learning

Dian Yu, Taiqi He, Kenji Sagae

TL;DR本研究探究是否可以通过学习表示语言之间关系的语言表示来进行跨语言任务，而无需使用平行数据。使用去噪自编码器产生 29 种语言的密集嵌入，并在零样本情况下使用 WALS 和两个外部任务（跨语言依赖解析和跨语言自然语言推理）来评估嵌入。

Abstract

cross-lingual language tasks typically require a substantial amount of annotated data or parallel translation data. We explore whether language representations that capture relationships among languages can be learned and subsequently leveraged in →

cross-lingual language representations dense embeddings denoising autoencoder extrinsic tasks

发现论文，激发创造

语言嵌入有时包含类型学概括

在 1295 种语言的大规模多语言数据集中训练神经网络模型，以研究神经模型对于语言结构所能学习到的广义化程度，发现神经网络模型在语言结构的广义化方面的表现并不好，并会存在误报，但有些表现仍然与语言学中的传统特征非常接近，为了鼓励在这个领域的持续研究，我们发布了多个资源，包括语言表示的多重集合、多语言单词嵌入、映射和预测的语法和形态特征以及提供语言表征的具有语言学意义的评估软件。

Jan, 2023

跨语言词嵌入模型调查

本文综述了跨语言词向量模型的具体类型，比较它们的数据需求和目标函数，并讨论了如何对跨语言词向量模型进行评估和未来研究的挑战。

Jun, 2017

从音韵学到句法：利用语言嵌入进行不同层次的无监督语言类型学研究

我们学习了分布式语言表述的方法，可以用来预测语言在不同类型水平和 NLP 模型中的相似性，进而预测 WALS 中的语言类型特征。

Feb, 2018

跨语言单词嵌入模型的实证比较

通过系统比较四种不同的方法，本研究对于在四个不同语言对上诱导跨语言词向量的方法进行了评估，包括内在评估和外在评估，并展示在某些任务上，廉价监督模型的性能是有竞争力的。

Apr, 2016

多任务双编码器模型学习跨语言句子表示

探索了一种使用双编码器学习跨语言句子表示的自然环境，以克服多语言神经语言建模中标记化非英语数据的缺乏，并在许多单语、跨语言、零样本 / 少样本学习任务上对跨语言表示进行了全面评估，并分析了不同的跨语言嵌入空间。