利用单语嵌入中的结构相似性进行非监督式词汇对应
本文提出了一种基于无监督学习的算法,通过分布匹配和最小化回译损失来优化两种语言单词嵌入空间之间的转换函数,使用神经网络计算 Sinkhorn 距离评估性能并在跨语言词汇相似度预测和双语词汇归纳等任务中具有强大的性能。
Sep, 2018
本文提出一种新的方法,使用无监督机器翻译的方法生成合成平行语料库,进而提取双语词汇表。该方法可与任何词向量和跨语言映射技术一起使用,并且除了用于训练词向量的单语语料库外,不需要任何其他资源。在评估方面,与最近邻和 CSLS 技术相比,该方法在标准 MUSE 数据集上提高了 6 个准确度点,确立了新的最先进技术。
Jul, 2019
本文提出了一种新的无监督初始化和稳健的自学习算法来学习跨语言词嵌入,成功地克服了传统方法在更实际的语境下所面临的困难,并在标准数据集上取得了最佳效果,甚至超过了以往的监督式系统。
May, 2018
本文研究了将在多种语言中学习到的连续单词表示对齐到一个共同空间的问题,并提出了一种新的方案来保证映射的组合性,从而在维持直接单词翻译的竞争性表现的同时,实现了间接单词翻译的更好对齐。
Nov, 2018
本文通过无监督的方式对单语词嵌入空间进行对齐,构建两种语言之间的双语词典,旨在为全自动的机器翻译提供潜在影响。实验表明该方法在英语 - 俄语和英语 - 中文等语言对中效果很好,且无需使用字符信息。
Oct, 2017
本文通过大量的评估,分析了多种跨语言嵌入模型的优劣,特别是在目标语言,训练语料库和监督程度等不同方面的限制,从而对 “高质量跨语言嵌入模型可以在不需要太多监督的情况下学习到” 的观点提出了质疑。
Aug, 2019
提出了一种使用非监督机器翻译生成的伪平行语料库以优化跨语言词嵌入的无监督映射方法的新思路,改进了现有方法,并通过详细分析证明伪数据增强方法特别适用于基于映射的跨语言词嵌入任务。
May, 2020
使用高覆盖率的字典和 EM 式训练算法,该方法解决了以前的跨语言词嵌入方法中的资源需求大、难以融合单语言数据或难以处理多义词等问题,在双语词汇表归纳任务中实现了表现卓越的结果,并且在单语词汇相似度和跨语言文档分类任务上也取得了有竞争力的结果。
Jun, 2016
本研究提出了一种基于弱监督(仅有相同单词列表)的方法,通过固定目标语言的嵌入并学习与之对齐的源语言的嵌入来解决不同语言的单词嵌入相似性不一致的问题,并在双语词表归纳和 XNLI 任务上取得了较好的结果,相比于传统的映射方法表现更好。
Dec, 2020