使用离散自编码器进行多义词嵌入的双语学习

ACLMar, 2016

使用离散自编码器进行多义词嵌入的双语学习

Bilingual Learning of Multi-sense Embeddings with Discrete Autoencoders

Simon Šuster, Ivan Titov, Gertjan van Noord

TL;DR该研究提出了一种使用单语和双语信息学习多义词嵌入的方法，并且发现从双语数据中求得的单词表示在各种评估任务中优于单语表示，尽管测试时不存在跨语言信息。

Abstract

We present an approach to learning multi-sense word embeddings relying both on monolingual and bilingual information. Our model consists of an en

multi-sense word embeddings monolingual and bilingual information encoder decoder crosslingual information

发现论文，激发创造

基于多语境的多义词嵌入模型

该论文介绍了一种利用多语种语料库改进多义词嵌入的多视角贝叶斯非参数算法，这是第一个能有效利用多语种语料库进行多意词表示学习的方法，结果表明采用多语种语料库可显著提高性能。

Jun, 2017

通过自编码学习双语句子嵌入并使用多层感知器计算相似度

本文提出一种新型模型架构及培训算法，可从平行和单语数据的组合中学习双语句子嵌入。我们通过自编码和神经机器翻译将源语言和目标语言的句子嵌入连接起来。并通过多层感知机来提取非平行或有噪声的双语句对，此方法在句子对齐和 WMT2018 上表现出有希望的性能。

Jun, 2019

一种自编码器学习双语词表示的方法

本文探讨了不依赖词级对齐的跨语言自编码器方法，学习在两种语言之间对齐的词矢量表示，并提出了一种显式的相关性最大化正则化器来提高性能，并在跨语言测试分类问题上进行了实证研究，其结果与现有研究表现相当甚至取得了 10-14 个百分点的提高。

Feb, 2014

跨语境多义词上下文词嵌入映射

本文提出两种改进的解决方案，通过将上下文多义词嵌入视为噪声（去除）和通过生成聚类级别的平均锚嵌入以替换上下文多义词嵌入，提高了跨语言语境下上下文词嵌入对齐的微观性能，同时不会损害双语词汇表归纳任务的宏观性能；对于无监督对齐，我们的方法在双语词汇表归纳任务中显著提高了 10 多分。

Sep, 2019

跨语言无监督意义嵌入（CLUSE）

本文提出了一个模块化的感知诱导和表示学习模型，联合学习双语感知嵌入，在向量空间中很好地对齐，利用英汉平行语料库中的跨语言信号捕捉语言对中的词汇搭配和分布特征。通过在 Stanford 上下文单词相似性（SCWS）数据集上进行评估，确保单语感知嵌入的质量。此外，我们还介绍了双语上下文单词相似性（BCWS），这是评估跨语言感知嵌入的大型高质量数据集，是衡量学习的嵌入是否在向量空间中确实对齐的第一次尝试。所提出方法展示了在单语和双语空间中评估感知嵌入的优越质量。

Sep, 2018

学习表示双语词典

该研究提出了一种神经嵌入模型，利用双语词典将文字定义映射到双语目标词汇，探索不同的句子编码技术以及采用多任务学习和联合学习等关键学习策略来增强学习过程，实验结果表明，该模型在跨语言反向字典检索任务和双语释义识别问题上表现优异，并有效地解决了双语释义识别问题。

Aug, 2018

使用词袋自动编码器学习多语言单词表示

本文研究了一种自编码器模型，用于学习多语言单词表示，不需使用单词层面对齐。实验证明，该方法在多语言文档分类方面具有较好的表现，且与利用单词层面对齐的方法相比具有竞争力。

Jan, 2014

多义词语境向量跨语言对齐

本文提出了一种新颖的方法，在从双语词典中获取跨语言信号的基础上，通过利用上下文语境嵌入实现词义级别上的对齐，进而在多种语言之间预训练跨语言模型，以在诸如命名实体识别、情感分类等任务中获得表现上的突破。

Mar, 2021

多任务双编码器模型学习跨语言句子表示

探索了一种使用双编码器学习跨语言句子表示的自然环境，以克服多语言神经语言建模中标记化非英语数据的缺乏，并在许多单语、跨语言、零样本 / 少样本学习任务上对跨语言表示进行了全面评估，并分析了不同的跨语言嵌入空间。

Oct, 2018

自然语言处理的多语言多模态嵌入

我们提出了一种新的判别模型，它从多语言和多模态数据中学习嵌入，因此我们的模型可以利用多种语言的图像和描述来提高嵌入质量。通过对图像和语句进行排名、对语义文本相似性进行评估，以及对神经机器翻译进行评估，我们发现附加的多语言信号可以改进 ISR 和 STS 任务，并且判别成本也可以用于重新排列 NMT 模型产生的最佳 $n$ 列表，从而产生强大的改进。

Feb, 2017