IsoVec:控制词嵌入空间的相对同构性
通过系统比较四种不同的方法,本研究对于在四个不同语言对上诱导跨语言词向量的方法进行了评估,包括内在评估和外在评估,并展示在某些任务上,廉价监督模型的性能是有竞争力的。
Apr, 2016
本文提出了一种新的几何方法,通过单语嵌入和双语词典学习双语映射,并将其建模为平滑的黎曼流形上的优化问题,旨在解决双语词典感应和多语言学习中的问题。该方法分解了学习源语言到目标语言的变换,包括学习用于将语言特定的嵌入旋转到公共空间的旋转以及学习在公共空间中对嵌入之间相似性进行建模的相似性度量。结果表明,该方法在双语词典感应和跨语言词相似性任务上优于以前的方法,同时还将该框架推广到了多种语言的共同潜在空间表示上,展示了联合学习处理多语言问题的有效性。
Aug, 2018
本文提出了一种基于无监督学习的算法,通过分布匹配和最小化回译损失来优化两种语言单词嵌入空间之间的转换函数,使用神经网络计算Sinkhorn距离评估性能并在跨语言词汇相似度预测和双语词汇归纳等任务中具有强大的性能。
Sep, 2018
本研究探讨了跨语言词嵌入的离线和联合学习方法,并发现在并行语料库下,联合学习可以更准确地解决不同语言间的相似性问题,尤其在双语词典诱导方面表现更优。因此,建议在跨语言嵌入研究中加强联合学习的研究。
Jun, 2019
该论文提出了一种半监督的双语词汇识别方法(BLISS),该方法使用了一个新的中枢过滤技术,可以放松两个嵌入空间同构假设,利用有限的对齐双语词汇表和更大的未对齐词汇表,实现了令人瞩目的效果。
Aug, 2019
通过研究跨语言词嵌入,本文关注了跨语言词典诱导及其评价指标,并发现了Anglocentric实验的局限性,同时提供了适用于所有语言的强大跨语言嵌入的指导方针。
Nov, 2019
提出了一种新的半监督方法,通过两个独立训练的自编码器的潜在空间使用非线性映射,学习用于双语词汇识别的跨语言词嵌入表示,并在15种不同方向的语言对(包括资源丰富和低资源语言)的两个数据集上进行了广泛的实验,结果表明该方法优于现有模型。
Apr, 2020
本研究提出了一种基于弱监督(仅有相同单词列表)的方法,通过固定目标语言的嵌入并学习与之对齐的源语言的嵌入来解决不同语言的单词嵌入相似性不一致的问题,并在双语词表归纳和XNLI任务上取得了较好的结果,相比于传统的映射方法表现更好。
Dec, 2020
使用单语嵌入空间自动构建双语词典是机器翻译中的核心挑战,现有的尝试未能考虑语义相关词对于多个空间的相对同构性的影响。为解决这一问题,我们提出了GRI,通过结合分布式训练目标和注意力图卷积来同时考虑语义相似词对于定义和计算多个空间的相对同构性所需的影响。实验评估表明,GRI通过提高相对得分达到63.6%的平均P@1值优于现有研究。我们在此链接上发布了GRI的代码。
Oct, 2023