通过最优传输压缩提升低资源语言的跨语言信息检索
本文提出了基于知识蒸馏的跨语言摘要框架,通过 Sinkhorn Divergence 实现了师生之间的知识转移,并在跨语言摘要数据集上证明了该方法的高效性。
Dec, 2021
跨语言语义解析利用最优传输从高资源语言(例如英语)向训练数据稀缺的低资源语言转移解析能力。我们提出了一种新的跨语言语义解析方法,通过显式地最小化概率潜变量之间的跨语言差异来改善自然语言解析,减少训练样本的使用。我们在 MTOP 和 MultiATIS++SQL 两个数据集上评估方法,在少样本跨语言情景下取得了最先进的结果。消融研究进一步揭示了我们的方法即使没有平行输入翻译也能提高性能。此外,我们展示了我们的模型更好地在潜空间中捕获跨语言结构,从而提高了语义表示的相似性。
Jul, 2023
使用 Translate-Distill 框架进行跨语言信息检索 (CLIR) 已经显示出其通过翻译和塑造训练跨语言神经双重编码器模型的好处。然而,Translate-Distill 仅支持单一语言。本研究扩展 Translate-Distill 并提出了用于多语言信息检索 (MLIR) 的多语言 Translate-Distill (MTD) 方法。我们通过 nDCG@20 指标和 MAP 指标在性能上展示了使用 MTD 培训的 ColBERT-X 模型优于以前的最先进训练方法 Multilingual Translate-Train,其在 nDCG@20 上提高了 5% 到 25%,在 MAP 上提高了 15% 到 45%。我们还展示了该模型对于训练批次中语言混合方式的鲁棒性。我们的实现可在 GitHub 上找到。
May, 2024
该研究提出了一种名为 Translate-Distill 的方法,它利用交叉编码器或 CLIR 交叉编码器的知识蒸馏来训练双编码器 CLIR 学生模型。
Jan, 2024
本文提出一种新的参数高效的跨语言转移学习框架,利用基于翻译的对齐方法来缓解多语言差异,并探索参数高效的微调方法,经过广泛的实验表明,我们的框架显著减少了语言之间的多语言差异,并在跨语言转移方面取得了改进,尤其在低资源场景中,同时只保留和微调极少量的参数与全模型相比(例如,我们的框架对于每种语言只需要全模型的 0.16% 的额外参数,在 few-shot 学习场景下)。
May, 2023
该论文介绍了一种使用跨语言预训练进行零 - shot 学习的多模式语言和视觉问题解决方法,它可以用于构建跨语言图像检索模型和改进文本嵌入聚类,并在多语言环境下进行评估。
Nov, 2020
本研究提出了一种跨语言跨模态知识蒸馏的方法,使用跨语言文本数据训练学生模型,以匹配用英语文本数据训练的教师模型的跨模态预测。通过引入新的多语言视频数据集 Multi-youcook2 验证了该方法的有效性。
Oct, 2022
本文提出了一种基于教师 - 学生知识蒸馏的新型多语种训练技术,利用平衡(子采样)数据将单语教师模型的知识蒸馏到一个多语种学生中,可以提高自然语言处理系统中低资源语言的表现。
Oct, 2022
通过 Dual-view Curricular Optimal Transport(DCOT)在跨语言跨模态检索中学习带有噪声的对应关系,从而解决机器翻译产生的不完美翻译问题,实验证明了该方法的有效性和鲁棒性。
Sep, 2023