本文综述了跨语言词向量模型的具体类型,比较它们的数据需求和目标函数,并讨论了如何对跨语言词向量模型进行评估和未来研究的挑战。
Jun, 2017
本文通过大量的评估,分析了多种跨语言嵌入模型的优劣,特别是在目标语言,训练语料库和监督程度等不同方面的限制,从而对 “高质量跨语言嵌入模型可以在不需要太多监督的情况下学习到” 的观点提出了质疑。
Aug, 2019
使用高覆盖率的字典和 EM 式训练算法,该方法解决了以前的跨语言词嵌入方法中的资源需求大、难以融合单语言数据或难以处理多义词等问题,在双语词汇表归纳任务中实现了表现卓越的结果,并且在单语词汇相似度和跨语言文档分类任务上也取得了有竞争力的结果。
Jun, 2016
本文提出了一种基于无监督学习的算法,通过分布匹配和最小化回译损失来优化两种语言单词嵌入空间之间的转换函数,使用神经网络计算 Sinkhorn 距离评估性能并在跨语言词汇相似度预测和双语词汇归纳等任务中具有强大的性能。
Sep, 2018
提出一种基于双语 CBOW 方法的联合学习方法,通过利用句子对齐语料库获得强健的跨语言词和句子表示,显著提高了跨语言句子检索性能,并在维持单词翻译方面与最先进的方法并驾齐驱,同时在零 - shot 跨语言文档分类任务方面达到深度 RNN 方法的水平,对单语词向量的提高优势明显。
Dec, 2019
本文介绍了一种新的技术来创建单语和跨语言的元嵌入。通过使用多种技术、文本来源、知识库和语言创建的多个单词嵌入,使用线性变换和平均值将现有单词向量投射到公共语义空间,以保持原始嵌入的维度,并通过处理词汇表外的问题而不失去信息。经过广泛的实证评估,我们的技术在各种内在和外在的多语言评估方面表现出对以前工作的有效性,并获取了在语义文本相似性方面具有竞争力的结果,并在单词相似性和词性标注方面得到了最先进的性能(英文和西班牙文)。跨语言元嵌入还表现出优秀的跨语言转移学习能力,即我们可以利用资源丰富的语言中预训练的源嵌入来改进贫乏语言的单词表示。
Jan, 2020
本文基于多语言词嵌入(CLE)并从多个方面对 CLW 模型进行了全面评估,提出了优化 CLE 模型的方法及对现有基线进行重新评估的重要性。
Feb, 2019
本研究探究是否可以通过学习表示语言之间关系的语言表示来进行跨语言任务,而无需使用平行数据。使用去噪自编码器产生 29 种语言的密集嵌入,并在零样本情况下使用 WALS 和两个外部任务(跨语言依赖解析和跨语言自然语言推理)来评估嵌入。
Jun, 2021
本文提出一种新的方法,使用无监督机器翻译的方法生成合成平行语料库,进而提取双语词汇表。该方法可与任何词向量和跨语言映射技术一起使用,并且除了用于训练词向量的单语语料库外,不需要任何其他资源。在评估方面,与最近邻和 CSLS 技术相比,该方法在标准 MUSE 数据集上提高了 6 个准确度点,确立了新的最先进技术。
Jul, 2019
本研究探讨了跨语言词嵌入的离线和联合学习方法,并发现在并行语料库下,联合学习可以更准确地解决不同语言间的相似性问题,尤其在双语词典诱导方面表现更优。因此,建议在跨语言嵌入研究中加强联合学习的研究。
Jun, 2019