组合式分布式语义的多语言模型

ACLApr, 2014

Multilingual Models for Compositional Distributed Semantics

Karl Moritz Hermann, Phil Blunsom

TL;DR通过基于多语种数据和联合嵌入的分布式假设扩展学习语义表示的新技术，学习出在跨语言上语义等价的句子之间高度对齐而在不相似的句子之间保持足够距离的表示。此方法不仅适用于单词层面，还可以对文档进行语义层面的表示学习。在两个跨语言文档分类任务上，我们的模型都能胜过之前的最佳成果，并通过定性分析和枢轴效应研究证明了我们学习到的语义表示合理且能够捕捉跨语言语义关系。

Abstract

We present a novel technique for learning semantic representations, which extends the distributional hypothesis to multilingual data and joint-space embeddings. Our models leverage parallel data and learn to stro

semantic representations multilingual data language modeling cross-lingual classification semantic relationships

发现论文，激发创造

无需单词对齐的多语言分布式表示

提出了一种在多语种情况下学习分布式表征的方法，该方法将分配相似的嵌入对齐句子，并分配不对齐的句子不相似的嵌入，模型学习到的表征具有语义信息，能够应用于跨语种文档分类任务，且未使用并行数据学习到能够跨语种捕捉语义关系的表征。

Dec, 2013

学习跨语言分布式逻辑表示以进行语义解析

本文探讨了如何通过在不同语言中打标注的数据来学习语义解析器的分布式逻辑形式表示，以提高特定语言下单语义解析器的性能，并在标准的多语言 GeoQuery 数据集上得到了改进的结果。

Jun, 2018

利用神经机器翻译学习联合多语句子表示

本研究使用神经机器翻译框架跨越六种完全不同的语言，在学习联合句子表示方面。我们的目标是构建一种与语言无关的表示形式，有可能捕捉到基础的语义。我们定义了一种新的跨语言相似度衡量方式，对我们的模型学习出的 140 万个句子表示进行比较，并研究了相似句子的特征。实验证据表明，嵌入空间中相似的句子实际上具有高度的语义相关性，但通常具有不同的结构和语法。这种关系也适用于不同语言之间的比较。

Apr, 2017

对比学习的多语言表征蒸馏

该研究加入对比学习以蒸馏多语言表示，并用于平行语句的质量估计。实验证明，该方法在不同的资源稀少语言上显著优于先前的句子编码器，诸如 LASER 等。

Oct, 2022

多语言表征中的语义漂移

本文介绍了一种比较多语言计算表示相互关系的方法，可以重建语言学家所假定的类似的分类树，同时提出了一种检测语言家族之间语义漂移的度量，并使用基于单词和句子的多语言模型进行了实验，结果表明多语言分布式表示可以不需要任何词源学信息保存语言之间的关系。

Apr, 2019

来自平行句子的稳健跨语言嵌入

提出一种基于双语 CBOW 方法的联合学习方法，通过利用句子对齐语料库获得强健的跨语言词和句子表示，显著提高了跨语言句子检索性能，并在维持单词翻译方面与最先进的方法并驾齐驱，同时在零 - shot 跨语言文档分类任务方面达到深度 RNN 方法的水平，对单语词向量的提高优势明显。

Dec, 2019

Polyglot: 多语言 NLP 的分布式词表示

使用多种语言 Wikipedia 来为 100 多种语言训练单词嵌入表示，并将其应用在词性标注中取得了与英语、丹麦语和瑞典语接近最新成果的表现。此外，通过单词分组的距离等方式，进一步研究了这些嵌入所捕获的语义特征，并将这些嵌入公开以帮助多语言应用的开发和增强.

Jul, 2013

利用单语数据进行跨语言组合词表示

本文提出了一种新颖的基于神经网络的架构，用于引导组合跨语言词表示，利用双语和单语数据，通过单语包含准则来实现，评估结果超越了以前的方法，具体的，在英语到德语和德语到英语的子任务中获得了 92.7％和 84.4％的准确度，较之以前的最高值，前者提高 0.9％，后者提高了 7.7％的准确度和 33.0% 的误差降低。

Dec, 2014

无监督映射实现跨主题分布语义表示

本文提出了一种基于不同主题学习单词的多个分布式表示的分布式语义模型，该模型通过不同主题训练不同的 DSM，然后将每个基于主题的 DSM 对齐到一个公共向量空间，实现了最先进的上下文词语相似性任务，并且在 NLP 下游任务中表现出比单一原型模型更好的性能。

Apr, 2019

单语和跨语言元嵌入的共同语义空间

本文介绍了一种新的技术来创建单语和跨语言的元嵌入。通过使用多种技术、文本来源、知识库和语言创建的多个单词嵌入，使用线性变换和平均值将现有单词向量投射到公共语义空间，以保持原始嵌入的维度，并通过处理词汇表外的问题而不失去信息。经过广泛的实证评估，我们的技术在各种内在和外在的多语言评估方面表现出对以前工作的有效性，并获取了在语义文本相似性方面具有竞争力的结果，并在单词相似性和词性标注方面得到了最先进的性能（英文和西班牙文）。跨语言元嵌入还表现出优秀的跨语言转移学习能力，即我们可以利用资源丰富的语言中预训练的源嵌入来改进贫乏语言的单词表示。

Jan, 2020