半监督学习用于双语词典归纳

Feb, 2024

Semi-Supervised Learning for Bilingual Lexicon Induction

Paul Garnier, Gauthier Guinet

TL;DR无监督和半监督学习方法在词向量、双语词汇归纳以及排名问题方面取得了重要进展。

Abstract

We consider the problem of aligning two sets of continuous word representations, corresponding to languages, to a common space in order to infer a bilingual lexicon. It was recently shown that it is possible to infer such lexicon, without using any parallel data, by aligning word embeddings

word embeddings bilingual induction unsupervised learning semi-supervised learning lexicon induction

发现论文，激发创造

无监督机器翻译实现双语词库归纳

本文提出一种新的方法，使用无监督机器翻译的方法生成合成平行语料库，进而提取双语词汇表。该方法可与任何词向量和跨语言映射技术一起使用，并且除了用于训练词向量的单语语料库外，不需要任何其他资源。在评估方面，与最近邻和 CSLS 技术相比，该方法在标准 MUSE 数据集上提高了 6 个准确度点，确立了新的最先进技术。

Jul, 2019

无监督双语平行语料库构建及词对齐的双语词汇识别

本文提出了一种过程，结合自监督的双文本挖掘与自监督的词对齐，从而产生更高质量的双语词典，进一步地，学习过滤结果的词汇条目，最终模型在 12 种语言对上的 BUCC 2020 共享任务中，比现有技术提高了 14 个 F1 点，同时提供更加可解释的方法和丰富的词义语境推理能力。

Jan, 2021

多语言词嵌入的无监督超级对齐

本文研究了将在多种语言中学习到的连续单词表示对齐到一个共同空间的问题，并提出了一种新的方案来保证映射的组合性，从而在维持直接单词翻译的竞争性表现的同时，实现了间接单词翻译的更好对齐。

Nov, 2018

双向交互的半监督双语词典归纳

本文提出了一种新的半监督双语词表归纳框架，通过先验最优运输和双向词典更新等机制促进有标注和无标注数据之间的交互，在 MUSE 和 VecMap 数据集上表现出显著的提高，并通过消融研究证明了受监督信号和无监督对齐之间的双向交互对于整体性能的提高起到了作用。

Oct, 2020

双语词典感应中的半监督非等距嵌入空间

该论文提出了一种半监督的双语词汇识别方法（BLISS），该方法使用了一个新的中枢过滤技术，可以放松两个嵌入空间同构假设，利用有限的对齐双语词汇表和更大的未对齐词汇表，实现了令人瞩目的效果。

Aug, 2019

来自单语多模数据的无监督双语词典归纳

本文提出了一种多语种图像字幕模型，通过联合特征学习将不同语言的单词映射到共同空间，其中学习了从句子上下文中分离出的语言特征和与单词相关的局部视觉特征。实验结果表明该方法在多个语言对上具有有效性。

Jun, 2019

无平行数据的单词翻译

本文通过无监督的方式对单语词嵌入空间进行对齐，构建两种语言之间的双语词典，旨在为全自动的机器翻译提供潜在影响。实验表明该方法在英语 - 俄语和英语 - 中文等语言对中效果很好，且无需使用字符信息。

Oct, 2017

无监督的跨语言词向量空间转移

本文提出了一种基于无监督学习的算法，通过分布匹配和最小化回译损失来优化两种语言单词嵌入空间之间的转换函数，使用神经网络计算 Sinkhorn 距离评估性能并在跨语言词汇相似度预测和双语词汇归纳等任务中具有强大的性能。

Sep, 2018

无监督双语词典归纳的局限性

该文研究了无监督的机器翻译模型，提出了利用对手生成网络对词嵌入空间进行自对齐和对齐生成双语词典，但对于形态丰富的语言，无监督双语词典的表现会受到很大限制，该研究通过利用弱监督从同一词来构建词典，建立了无监督双语词典表现和图相似度的相关性。

May, 2018

利用单语嵌入中的结构相似性进行非监督式词汇对应

本文提出了一种无监督的方法来学习一对语言的双语词典，并利用单语向量空间中的局部和全局结构将它们对齐，从而使相似的单词映射到一起，实验表明，使用提出的无监督方法学习的双语对应词性能与使用监督学习的双语对应词从种子词典中学习的相当。

Dec, 2017