利用单语嵌入中的结构相似性进行非监督式词汇对应

ACLDec, 2017

利用单语嵌入中的结构相似性进行非监督式词汇对应

Unsupervised Word Mapping Using Structural Similarities in Monolingual Embeddings

Hanan Aldarmaki, Mahesh Mohan, Mona Diab

TL;DR本文提出了一种无监督的方法来学习一对语言的双语词典，并利用单语向量空间中的局部和全局结构将它们对齐，从而使相似的单词映射到一起，实验表明，使用提出的无监督方法学习的双语对应词性能与使用监督学习的双语对应词从种子词典中学习的相当。

Abstract

Most existing methods for automatic bilingual dictionary induction rely on prior alignments between the source and target languages, such as parallel corpora or seed dictionaries. For many language pairs, such supervised alignments are not readily available. We propose an →

automatic bilingual dictionary induction unsupervised approach monolingual word embeddings alignment supervised bilingual correspondents

发现论文，激发创造

无监督的跨语言词向量空间转移

本文提出了一种基于无监督学习的算法，通过分布匹配和最小化回译损失来优化两种语言单词嵌入空间之间的转换函数，使用神经网络计算 Sinkhorn 距离评估性能并在跨语言词汇相似度预测和双语词汇归纳等任务中具有强大的性能。

Sep, 2018

无监督机器翻译实现双语词库归纳

本文提出一种新的方法，使用无监督机器翻译的方法生成合成平行语料库，进而提取双语词汇表。该方法可与任何词向量和跨语言映射技术一起使用，并且除了用于训练词向量的单语语料库外，不需要任何其他资源。在评估方面，与最近邻和 CSLS 技术相比，该方法在标准 MUSE 数据集上提高了 6 个准确度点，确立了新的最先进技术。

Jul, 2019

一种强大的自学习方法：全无监督跨语言词嵌入映射

本文提出了一种新的无监督初始化和稳健的自学习算法来学习跨语言词嵌入，成功地克服了传统方法在更实际的语境下所面临的困难，并在标准数据集上取得了最佳效果，甚至超过了以往的监督式系统。

May, 2018

多语言词嵌入的无监督超级对齐

本文研究了将在多种语言中学习到的连续单词表示对齐到一个共同空间的问题，并提出了一种新的方案来保证映射的组合性，从而在维持直接单词翻译的竞争性表现的同时，实现了间接单词翻译的更好对齐。

Nov, 2018

无平行数据的单词翻译

本文通过无监督的方式对单语词嵌入空间进行对齐，构建两种语言之间的双语词典，旨在为全自动的机器翻译提供潜在影响。实验表明该方法在英语 - 俄语和英语 - 中文等语言对中效果很好，且无需使用字符信息。

Oct, 2017

分布式词嵌入的无监督对齐

本文提出一种基于随机优化的方法，利用概率嵌入技术实现了跨领域的编码对齐，可以成功用于无监督单语言嵌入的双语词汇表推断，且在无监督词汇翻译任务中表现优异。

Mar, 2022

无监督和半监督跨语言词嵌入学习的鲁棒性研究

本文通过大量的评估，分析了多种跨语言嵌入模型的优劣，特别是在目标语言，训练语料库和监督程度等不同方面的限制，从而对 “高质量跨语言嵌入模型可以在不需要太多监督的情况下学习到” 的观点提出了质疑。

Aug, 2019

无监督机器翻译数据增强改善跨语言词向量结构相似度

提出了一种使用非监督机器翻译生成的伪平行语料库以优化跨语言词嵌入的无监督映射方法的新思路，改进了现有方法，并通过详细分析证明伪数据增强方法特别适用于基于映射的跨语言词嵌入任务。

May, 2020

无需双语语料库的跨语言词嵌入学习

使用高覆盖率的字典和 EM 式训练算法，该方法解决了以前的跨语言词嵌入方法中的资源需求大、难以融合单语言数据或难以处理多义词等问题，在双语词汇表归纳任务中实现了表现卓越的结果，并且在单语词汇相似度和跨语言文档分类任务上也取得了有竞争力的结果。

Jun, 2016

超越离线映射：通过上下文锚定学习跨语言词向量

本研究提出了一种基于弱监督（仅有相同单词列表）的方法，通过固定目标语言的嵌入并学习与之对齐的源语言的嵌入来解决不同语言的单词嵌入相似性不一致的问题，并在双语词表归纳和 XNLI 任务上取得了较好的结果，相比于传统的映射方法表现更好。

Dec, 2020