通过系统比较四种不同的方法,本研究对于在四个不同语言对上诱导跨语言词向量的方法进行了评估,包括内在评估和外在评估,并展示在某些任务上,廉价监督模型的性能是有竞争力的。
Apr, 2016
使用高覆盖率的字典和EM式训练算法,该方法解决了以前的跨语言词嵌入方法中的资源需求大、难以融合单语言数据或难以处理多义词等问题,在双语词汇表归纳任务中实现了表现卓越的结果,并且在单语词汇相似度和跨语言文档分类任务上也取得了有竞争力的结果。
Jun, 2016
本文综述了跨语言词向量模型的具体类型,比较它们的数据需求和目标函数,并讨论了如何对跨语言词向量模型进行评估和未来研究的挑战。
Jun, 2017
本文提出了一种基于无监督学习的算法,通过分布匹配和最小化回译损失来优化两种语言单词嵌入空间之间的转换函数,使用神经网络计算Sinkhorn距离评估性能并在跨语言词汇相似度预测和双语词汇归纳等任务中具有强大的性能。
Sep, 2018
本文通过大量的评估,分析了多种跨语言嵌入模型的优劣,特别是在目标语言,训练语料库和监督程度等不同方面的限制,从而对“高质量跨语言嵌入模型可以在不需要太多监督的情况下学习到”的观点提出了质疑。
Aug, 2019
通过研究跨语言词嵌入,本文关注了跨语言词典诱导及其评价指标,并发现了Anglocentric实验的局限性,同时提供了适用于所有语言的强大跨语言嵌入的指导方针。
Nov, 2019
提出一种基于双语CBOW方法的联合学习方法,通过利用句子对齐语料库获得强健的跨语言词和句子表示,显著提高了跨语言句子检索性能,并在维持单词翻译方面与最先进的方法并驾齐驱,同时在零-shot跨语言文档分类任务方面达到深度RNN方法的水平,对单语词向量的提高优势明显。
Dec, 2019
本研究系统评估了使用不同上下文窗口大小训练的跨语言词嵌入在多种语言、领域和任务中的性能,并发现增加源和目标词窗口大小可以提高双语词汇归纳的性能,尤其是对于频繁的名词。
Apr, 2020
本研究提出了一种基于弱监督(仅有相同单词列表)的方法,通过固定目标语言的嵌入并学习与之对齐的源语言的嵌入来解决不同语言的单词嵌入相似性不一致的问题,并在双语词表归纳和XNLI任务上取得了较好的结果,相比于传统的映射方法表现更好。
Dec, 2020
本文提出一种通过在Skip-gram损失函数中加入全局同构度量来提高单语词向量空间同构性的方法以改进词向量之间的跨语言映射,从而实现对通用数据条件下的双语词典诱导、领域不匹配和训练算法不匹配的提高。
Oct, 2022