跨文字系統的無監督雙語詞彙彙編
本文提出一种新的方法,使用无监督机器翻译的方法生成合成平行语料库,进而提取双语词汇表。该方法可与任何词向量和跨语言映射技术一起使用,并且除了用于训练词向量的单语语料库外,不需要任何其他资源。在评估方面,与最近邻和 CSLS 技术相比,该方法在标准 MUSE 数据集上提高了 6 个准确度点,确立了新的最先进技术。
Jul, 2019
本文提出了一种多语种图像字幕模型,通过联合特征学习将不同语言的单词映射到共同空间,其中学习了从句子上下文中分离出的语言特征和与单词相关的局部视觉特征。实验结果表明该方法在多个语言对上具有有效性。
Jun, 2019
本文提出了一种无监督的方法来学习一对语言的双语词典,并利用单语向量空间中的局部和全局结构将它们对齐,从而使相似的单词映射到一起,实验表明,使用提出的无监督方法学习的双语对应词性能与使用监督学习的双语对应词从种子词典中学习的相当。
Dec, 2017
该论文提出了一种半监督的双语词汇识别方法(BLISS),该方法使用了一个新的中枢过滤技术,可以放松两个嵌入空间同构假设,利用有限的对齐双语词汇表和更大的未对齐词汇表,实现了令人瞩目的效果。
Aug, 2019
本文提出了一种过程,结合自监督的双文本挖掘与自监督的词对齐,从而产生更高质量的双语词典,进一步地,学习过滤结果的词汇条目,最终模型在 12 种语言对上的 BUCC 2020 共享任务中,比现有技术提高了 14 个 F1 点,同时提供更加可解释的方法和丰富的词义语境推理能力。
Jan, 2021
本文提出了一种基于无监督学习的算法,通过分布匹配和最小化回译损失来优化两种语言单词嵌入空间之间的转换函数,使用神经网络计算 Sinkhorn 距离评估性能并在跨语言词汇相似度预测和双语词汇归纳等任务中具有强大的性能。
Sep, 2018
本文通过无监督的方式对单语词嵌入空间进行对齐,构建两种语言之间的双语词典,旨在为全自动的机器翻译提供潜在影响。实验表明该方法在英语 - 俄语和英语 - 中文等语言对中效果很好,且无需使用字符信息。
Oct, 2017
我们提出了 PhoneXL 框架,通过使用音素转录作为传统的正字转录之外的附加语言模态,以缓解不同书写脚本语言之间的差距,同时释放出首个音素 - 正字对齐数据集,并展示了音素转录提供了关键信息,能够增强 CJKV 语言之间的跨语言传输,从而在跨语言标记级任务上实现持续改进。
Jul, 2023
介绍了一种适用于资源匮乏语言的无监督双语词汇表感知方法,该方法仅需要使用高资源语言单语 BERT 进行推理,并在印度次大陆的五种语言中首次发布自动生成的双语词汇表。
May, 2023