Translate-Distill:通过翻译和蒸馏学习跨语言稠密检索
使用 Translate-Distill 框架进行跨语言信息检索 (CLIR) 已经显示出其通过翻译和塑造训练跨语言神经双重编码器模型的好处。然而,Translate-Distill 仅支持单一语言。本研究扩展 Translate-Distill 并提出了用于多语言信息检索 (MLIR) 的多语言 Translate-Distill (MTD) 方法。我们通过 nDCG@20 指标和 MAP 指标在性能上展示了使用 MTD 培训的 ColBERT-X 模型优于以前的最先进训练方法 Multilingual Translate-Train,其在 nDCG@20 上提高了 5% 到 25%,在 MAP 上提高了 15% 到 45%。我们还展示了该模型对于训练批次中语言混合方式的鲁棒性。我们的实现可在 GitHub 上找到。
May, 2024
使用多阶段知识蒸馏训练的 DR.DECR 是一种新的跨语言信息检索 (CLIR) 系统,其学习了强大的多语言表示以及简化的 CLIR,具有比使用有标记的 CLIR 数据进行直接微调更高的准确性。
Dec, 2021
本文提出了一种新颖的蒸馏方法,将自然语言处理模型中的交互信息更好地应用于开放领域的问答问题,并通过级联蒸馏方法优化成绩,从而在 Open-Domain QA 基准上取得了优于强基线模型的最优结果。
May, 2022
本文介绍了 ColBERT-X,这是一个使用 XLM-RoBERTa 编码器的多重表示稠密检索模型,用于支持跨语言信息检索(CLIR)。在几种语言的自适应文件排名任务上表现出了在传统词汇 CLIR 基线之上的显着和统计上的显着改进。
Jan, 2022
本研究提出了一种跨语言跨模态知识蒸馏的方法,使用跨语言文本数据训练学生模型,以匹配用英语文本数据训练的教师模型的跨模态预测。通过引入新的多语言视频数据集 Multi-youcook2 验证了该方法的有效性。
Oct, 2022
本文提出了 OPTICAL:优化传输蒸馏用于低资源跨语种信息检索,该方法利用优化传输问题将知识从双语数据中分离出来,只需要少量数据就可以在低资源语种上显著提高效果。
Jan, 2023
通过系统实证分析,我们发现预训练的最新型多语言编码器并不能显著超越早期基于跨语言单词嵌入的模型在无监督文档级和句子级交叉语言信息检索方面的性能,但在经过监督学习优化的条件下,可在句子检索中取得最高准确率,并通过局部相关性匹配和对特定领域对比微调等方法最大程度提升排名质量,还揭示了基于单语数据训练的检索模型会出现 “单语过度拟合” 的现象,这与针对特定目标语言的单语信息检索的交叉语言转移存在显著差异。
Dec, 2021
本文提出了基于知识蒸馏的跨语言摘要框架,通过 Sinkhorn Divergence 实现了师生之间的知识转移,并在跨语言摘要数据集上证明了该方法的高效性。
Dec, 2021
本文提出一种基于蒸馏的方法来提高多语言机器翻译的准确性,并在数据集上进行了实验,结果表明该方法可以通过训练单独的模型(即老师)来训练多语言模型,这使得一个模型即可具备处理多达 44 种不同语言的能力(且其准确性与单独模型相当甚至更优)。
Feb, 2019