来自平行句子的稳健跨语言嵌入
该论文探讨了跨语言词嵌入在算法使用不同特征集合时的表现差异,并发现使用句子ID特征集合的算法表现显著优于不使用的算法。作者认为利用句子ID特征集合的算法与传统对齐算法在性能表现上较为相似,而通过将额外的信息引入跨语言词嵌入,这种性能差异可能得到进一步改善。
Aug, 2016
该研究介绍了一种以单个BiLSTM编码器为基础的多语言句子表示架构,其使用共享的BPE词汇表来学习93种语言的嵌入表示,并在公开可用的平行语料库上进行了训练。使用英文注释数据进行分类器训练,可将其转移至任何一种语言,且可以在跨语言自然语言推理、文档分类和平行语料库挖掘中取得良好效果。
Dec, 2018
本研究提出了一种使用双向双编码器和加性边际softmax学习多语言句子嵌入的方法,能够在联合国(UN)平行语料库检索任务上取得最先进的结果,并使用检索到的语言对训练NMT模型。通过对我们的句子嵌入平均构建的简单文档级别嵌入进行实验,能在UN文档级别检索任务中取得97%以上的P@1。最后,我们在BUCC挖掘任务上评估了所提出的模型,利用原始余弦相似度得分的学习嵌入与当前最先进的模型相比取得了有竞争力的结果,并利用第二阶段的评分器在此任务上实现了新的最先进水平。
Feb, 2019
本文提出了一种基于上下文的跨语言映射技术,利用平行语料库中对齐的句子的平均嵌入来替代单词级别映射,从而实现更好的句子级别跨语言相似性,实验证明该方法能够在句子翻译检索中优于独立于语境的单词映射。
Mar, 2019
本研究探讨了跨语言词嵌入的离线和联合学习方法,并发现在并行语料库下,联合学习可以更准确地解决不同语言间的相似性问题,尤其在双语词典诱导方面表现更优。因此,建议在跨语言嵌入研究中加强联合学习的研究。
Jun, 2019
本文通过大量的评估,分析了多种跨语言嵌入模型的优劣,特别是在目标语言,训练语料库和监督程度等不同方面的限制,从而对“高质量跨语言嵌入模型可以在不需要太多监督的情况下学习到”的观点提出了质疑。
Aug, 2019
本文研究了两种多语言文本学习方法,即alignment和joint training,并提出了将这两种方法结合的框架。实验证明,该框架改善了现有方法的局限性,在MUSE双语词汇诱导(BLI)基准测试中性能优于现有方法,并在CoNLL跨语言NER基准测试上产生了最新的结果。
Oct, 2019
本研究提出了一种基于弱监督(仅有相同单词列表)的方法,通过固定目标语言的嵌入并学习与之对齐的源语言的嵌入来解决不同语言的单词嵌入相似性不一致的问题,并在双语词表归纳和XNLI任务上取得了较好的结果,相比于传统的映射方法表现更好。
Dec, 2020
本文将多语言预训练模型转化为多语言句子编码器,通过对句子编码器进行探索,采用基于对比学习的简单而高效的方法,揭示了句子编码器隐含的跨语言词汇知识,进而提供了一种利用跨语言词汇的工具。
Apr, 2022
跨语言句子嵌入领域最近取得了很大的进展,但是由于平行语料的稀缺性,对于低资源语言的研究相对滞后。本文表明当前模型中低资源语言的跨语言词表示与高资源语言的对齐程度明显不足。为了解决这个问题,我们引入了一种新的框架,通过使用现成的词对齐模型,显式地对英语和八种低资源语言之间的单词进行对齐。该框架包含三个主要的训练目标:对齐的单词预测、单词翻译排序,以及广泛使用的翻译排序。我们通过在双语检索任务上进行实验证明了我们的方法,该方法在低资源语言的句子嵌入上取得了显著的改进。此外,所提出模型在高资源语言上更广泛任务的竞争性表现凸显了其实用性。
Apr, 2024