该研究加入对比学习以蒸馏多语言表示,并用于平行语句的质量估计。实验证明,该方法在不同的资源稀少语言上显著优于先前的句子编码器,诸如 LASER 等。
Oct, 2022
提出新的方法来对齐多语种嵌入,基于单语种嵌入模型中句子的相似性测量;实验证明我们的方法在多语种数据集上表现出色,优于现有的多语种嵌入方法和对比损失方法。
May, 2024
本文提出了一种新的多语种文本嵌入生成模型 —— VMSST,通过在 $N$ 种语言的并行数据上运行,通过一个引入的近似算法,在多语种语境中鼓励源分离,我们在比较学习多语种文本嵌入的对比和基于生成的方法时,对其进行了仔细的大规模比较,并对其进行了语义相似性、位文本挖掘、跨语言问题检索等任务的评估,从而证明了其优越性。
Dec, 2022
本文提出了一种多级对比学习(ML-CTL)框架,使用翻译后的平行数据并显式地整合每对平行句子的单词级信息进行对比学习,以进一步提高预训练模型的跨语言能力。其中,采用了交叉零噪声对比估计(CZ-NCE)损失来减轻训练过程中小批量大小的浮点误差的影响。该方法显著提高了基础模型(mBERT)的跨语言迁移能力,并在 Xtreme 基准测试的多个零 - shot 跨语言下游任务中表现优异。
Feb, 2022
本文提出一种跨媒体对比学习方法,将几种低资源语言与高资源语言相连,通过少量的图像 - 文本对实现神经机器翻译,取得了显著的效果。
该论文介绍了一种使用跨语言预训练进行零 - shot 学习的多模式语言和视觉问题解决方法,它可以用于构建跨语言图像检索模型和改进文本嵌入聚类,并在多语言环境下进行评估。
Nov, 2020
提出了一种利用对比学习进行多语言语音和声音表示学习的新框架,旨在通过减少数据依赖性、改善各种语言和条件下的泛化能力,实现多语言共享表示,以便在有限的目标语言数据中促进跨语言转移。通过从多语言数据中自我监督学习情感表示,该方法在情感识别、音频分类和检索基准测试中展示了最先进的性能,为获得跨语言和声学条件下的共享和泛化语音表示提供了一种有效的方法。
Oct, 2023
本研究探讨了如何将零 - shot 模型从高资源语言(一般是英语)迁移到其他语言,结果表明在不同语言的查询和文档中使用零 - shot 排名算法的有效性会降低。因此,我们提出利用双语词典生成人工混合语言的数据来训练排名模型,我们对从跨语言词嵌入和平行维基百科页面标题引导的词典进行了实验,最终在多语言、跨语言和单语言信息检索方面进行了评估。结果表明,使用代码切换可以在跨语言和多语言检索中带来一致且实质性的收益。
May, 2023
提出一个针对跨语言信息检索的全面无监督框架,通过基于单语语料库构建共享的跨语言词嵌入空间,利用来自对抗神经网络的迭代过程实现无需双语数据的检索,实验验证了该方法的有效性,并通过无监督集成 CLIR 模型提升性能。
May, 2018
本论文探讨采用跨语言预训练的零样本方法来学习多模态表示,提出建立跨语言图像检索模型的简单实用方法,并引入了一种新的目标函数来测试多语言 MSCOCO2014 字幕测试数据集(XTD10)的零样本模型性能,证明跨语言模型可用于零样本的下游任务, 如多语言图像标记。
Sep, 2021