本文旨在提出一种新的基于正交矩阵和置换矩阵联合估计的点集对齐算法,并应用在自然语言处理和计算机视觉领域的单语数据的无监督单词翻译问题中,实现了比竞争对手更先进效果却需要更少的计算资源
May, 2018
本文提出了一种基于无监督学习的算法,通过分布匹配和最小化回译损失来优化两种语言单词嵌入空间之间的转换函数,使用神经网络计算 Sinkhorn 距离评估性能并在跨语言词汇相似度预测和双语词汇归纳等任务中具有强大的性能。
Sep, 2018
本文研究了将在多种语言中学习到的连续单词表示对齐到一个共同空间的问题,并提出了一种新的方案来保证映射的组合性,从而在维持直接单词翻译的竞争性表现的同时,实现了间接单词翻译的更好对齐。
Nov, 2018
本文提出了一种无监督的方法来学习一对语言的双语词典,并利用单语向量空间中的局部和全局结构将它们对齐,从而使相似的单词映射到一起,实验表明,使用提出的无监督方法学习的双语对应词性能与使用监督学习的双语对应词从种子词典中学习的相当。
Dec, 2017
本文通过大量的评估,分析了多种跨语言嵌入模型的优劣,特别是在目标语言,训练语料库和监督程度等不同方面的限制,从而对 “高质量跨语言嵌入模型可以在不需要太多监督的情况下学习到” 的观点提出了质疑。
Aug, 2019
本文提出一种新的方法,使用无监督机器翻译的方法生成合成平行语料库,进而提取双语词汇表。该方法可与任何词向量和跨语言映射技术一起使用,并且除了用于训练词向量的单语语料库外,不需要任何其他资源。在评估方面,与最近邻和 CSLS 技术相比,该方法在标准 MUSE 数据集上提高了 6 个准确度点,确立了新的最先进技术。
Jul, 2019
本文将跨语言对应问题直接建模为最优传输问题,通过利用测度恢复算法所产生的词嵌入,使用 Gromov-Wasserstein 距离测量不同语言中单词对的相似度,并证明了该模型在无监督翻译任务中表现良好,效果与当前最先进技术相当。
Aug, 2018
提出了一种基于流形的几何学方法,用于学习源语言和目标语言之间的无监督对齐单词嵌入。该方法将对齐学习问题进行了公式化,并将其视为具有两倍随机矩阵的流形上的域自适应问题。实验表明,该方法在多种语言对的双语词汇识别任务上优于现有的最优传输方法,尤其对于远程语言对的性能改进更为显著。
Apr, 2020
本文提出了一种新的无监督初始化和稳健的自学习算法来学习跨语言词嵌入,成功地克服了传统方法在更实际的语境下所面临的困难,并在标准数据集上取得了最佳效果,甚至超过了以往的监督式系统。
提出了一种在多语种情况下学习分布式表征的方法,该方法将分配相似的嵌入对齐句子,并分配不对齐的句子不相似的嵌入,模型学习到的表征具有语义信息,能够应用于跨语种文档分类任务,且未使用并行数据学习到能够跨语种捕捉语义关系的表征。
Dec, 2013