双语词嵌入密度匹配
本研究采用密度匹配和密度建模的方法进行多语种词向量的对齐,提出基于 Normalizing Flow 的 Real-NVP 和 GAN-Real-NVP 两种监督学习和无监督学习的密度对齐方法,并通过验证标准来指导训练过程。实验结果表明,我们的方法在有限或没有平行数据的情况下均能显著提高多项 NLP 任务的表现。
Jan, 2022
本文提倡使用基于密度的分布嵌入方法,并提出了一种在高斯分布空间中学习表示的方法,以更好地捕捉有关表示和其关系的不确定性,自然地表达不对称性,并使决策边界参数更有表达力。本文比较了各种单词嵌入基准测试的性能,调查了这些嵌入模型主导和其他不对称关系的能力,并探索了表示的新颖特性。
Dec, 2014
本文提出了一种基于无监督学习的算法,通过分布匹配和最小化回译损失来优化两种语言单词嵌入空间之间的转换函数,使用神经网络计算 Sinkhorn 距离评估性能并在跨语言词汇相似度预测和双语词汇归纳等任务中具有强大的性能。
Sep, 2018
该论文探讨了一种无监督的方法,用于推导出一种通用的,跨语言的词嵌入空间,其中不同语言中具有类似语义的单词彼此接近。通过使用线性插值的一系列中间空间,该方法模拟了计算机视觉中的域流方法,以提高跨语言自然语言推理的性能。
Oct, 2022
本文提出了一种新的几何方法,通过单语嵌入和双语词典学习双语映射,并将其建模为平滑的黎曼流形上的优化问题,旨在解决双语词典感应和多语言学习中的问题。该方法分解了学习源语言到目标语言的变换,包括学习用于将语言特定的嵌入旋转到公共空间的旋转以及学习在公共空间中对嵌入之间相似性进行建模的相似性度量。结果表明,该方法在双语词典感应和跨语言词相似性任务上优于以前的方法,同时还将该框架推广到了多种语言的共同潜在空间表示上,展示了联合学习处理多语言问题的有效性。
Aug, 2018
本研究中,我们提出了一种修改交叉语言同义词向中心点移动的方法,可通过最初的线性变换对两个不相交的单语向量空间进行对准来有效学习交叉语言词嵌入,并实现更好的交叉语言整合。同时,我们的实验结果表明该方法明显优于现有方法在单语和跨语言评估任务方面的表现。
Aug, 2018
本文提出了一种无监督的方法来学习一对语言的双语词典,并利用单语向量空间中的局部和全局结构将它们对齐,从而使相似的单词映射到一起,实验表明,使用提出的无监督方法学习的双语对应词性能与使用监督学习的双语对应词从种子词典中学习的相当。
Dec, 2017
使用高覆盖率的字典和 EM 式训练算法,该方法解决了以前的跨语言词嵌入方法中的资源需求大、难以融合单语言数据或难以处理多义词等问题,在双语词汇表归纳任务中实现了表现卓越的结果,并且在单语词汇相似度和跨语言文档分类任务上也取得了有竞争力的结果。
Jun, 2016
本文介绍了一种新的技术来创建单语和跨语言的元嵌入。通过使用多种技术、文本来源、知识库和语言创建的多个单词嵌入,使用线性变换和平均值将现有单词向量投射到公共语义空间,以保持原始嵌入的维度,并通过处理词汇表外的问题而不失去信息。经过广泛的实证评估,我们的技术在各种内在和外在的多语言评估方面表现出对以前工作的有效性,并获取了在语义文本相似性方面具有竞争力的结果,并在单词相似性和词性标注方面得到了最先进的性能(英文和西班牙文)。跨语言元嵌入还表现出优秀的跨语言转移学习能力,即我们可以利用资源丰富的语言中预训练的源嵌入来改进贫乏语言的单词表示。
Jan, 2020