从英语 Retriever 学习跨语言 IR
该研究提出了一种名为 Translate-Distill 的方法,它利用交叉编码器或 CLIR 交叉编码器的知识蒸馏来训练双编码器 CLIR 学生模型。
Jan, 2024
使用 Translate-Distill 框架进行跨语言信息检索 (CLIR) 已经显示出其通过翻译和塑造训练跨语言神经双重编码器模型的好处。然而,Translate-Distill 仅支持单一语言。本研究扩展 Translate-Distill 并提出了用于多语言信息检索 (MLIR) 的多语言 Translate-Distill (MTD) 方法。我们通过 nDCG@20 指标和 MAP 指标在性能上展示了使用 MTD 培训的 ColBERT-X 模型优于以前的最先进训练方法 Multilingual Translate-Train,其在 nDCG@20 上提高了 5% 到 25%,在 MAP 上提高了 15% 到 45%。我们还展示了该模型对于训练批次中语言混合方式的鲁棒性。我们的实现可在 GitHub 上找到。
May, 2024
通过系统实证分析,我们发现预训练的最新型多语言编码器并不能显著超越早期基于跨语言单词嵌入的模型在无监督文档级和句子级交叉语言信息检索方面的性能,但在经过监督学习优化的条件下,可在句子检索中取得最高准确率,并通过局部相关性匹配和对特定领域对比微调等方法最大程度提升排名质量,还揭示了基于单语数据训练的检索模型会出现 “单语过度拟合” 的现象,这与针对特定目标语言的单语信息检索的交叉语言转移存在显著差异。
Dec, 2021
提出一个针对跨语言信息检索的全面无监督框架,通过基于单语语料库构建共享的跨语言词嵌入空间,利用来自对抗神经网络的迭代过程实现无需双语数据的检索,实验验证了该方法的有效性,并通过无监督集成 CLIR 模型提升性能。
May, 2018
本文介绍了 ColBERT-X,这是一个使用 XLM-RoBERTa 编码器的多重表示稠密检索模型,用于支持跨语言信息检索(CLIR)。在几种语言的自适应文件排名任务上表现出了在传统词汇 CLIR 基线之上的显着和统计上的显着改进。
Jan, 2022
通过利用跨语种检索增强的上下文学习(CREA-ICL)方法,从高资源语言中提取语义相似的提示,以改善多语言预训练语言模型(MPLMs)在各种任务中的零样本性能,本文研究了大型语言模型在低资源语言中上下文学习(ICL)性能的限制和挑战,并对检索增强的上下文学习在分类和生成任务中的性能动态提供了洞见。
Nov, 2023
本研究提出了一种跨语言跨模态知识蒸馏的方法,使用跨语言文本数据训练学生模型,以匹配用英语文本数据训练的教师模型的跨模态预测。通过引入新的多语言视频数据集 Multi-youcook2 验证了该方法的有效性。
Oct, 2022
该研究旨在提供一种用于跨语言检索模型的组织框架,并在 TREC 2022 NeuCLIR 中的三种语言测试集上实现基于此的可重复现的基准线。
Apr, 2023
提出了一种新的演示检索框架 DeTriever,使用大语言模型的隐藏状态的加权组合来学习富语义信息,并通过估计输出查询之间的相似性来评估示例之间的相对好处。在两个热门 NL2SQL 基准测试上的实验表明,该方法在一次性 NL2SQL 任务中显著优于最先进的基准线。
Jun, 2024