使用综合数据工程技术提升多语言信息检索模型性能
这是介绍针对 18 种不同语言的 MIRACL 比赛挑战建立的多语言数据集,该数据集旨在评估模型的单语检索性能,收集了 70 万高质量相关性评估,以提高信息检索能力。
Oct, 2022
本研究探讨了采用神经网络翻译和预训练多语言神经语言模型是否能提升多语言信息检索 (MLIR) 技术。结果表明,使用预训练的 XLM-R 多语言语言模型以其母语进行索引,可以在索引时间大大缩短的情况下取得与神经翻译相结合的最佳效果。
Sep, 2022
使用 Translate-Distill 框架进行跨语言信息检索 (CLIR) 已经显示出其通过翻译和塑造训练跨语言神经双重编码器模型的好处。然而,Translate-Distill 仅支持单一语言。本研究扩展 Translate-Distill 并提出了用于多语言信息检索 (MLIR) 的多语言 Translate-Distill (MTD) 方法。我们通过 nDCG@20 指标和 MAP 指标在性能上展示了使用 MTD 培训的 ColBERT-X 模型优于以前的最先进训练方法 Multilingual Translate-Train,其在 nDCG@20 上提高了 5% 到 25%,在 MAP 上提高了 15% 到 45%。我们还展示了该模型对于训练批次中语言混合方式的鲁棒性。我们的实现可在 GitHub 上找到。
May, 2024
本文介绍了解决 SemEval 2021 任务 2 的方法,即多语言和跨语言上下文词义消歧。通过使用预训练的基于 Transformer 的语言模型,包括 ELECTRA 和 ALBERT,对英语任务和 XLM-R 对所有其他任务进行微调,通过添加信号和数据增强来提高性能,在 Multilingual 任务中取得强的性能,在 Cross-Lingual 设置中实现零射击方法,使用我们的多语言模型,后者表现略好。
Apr, 2021
本研究探讨了如何将零 - shot 模型从高资源语言(一般是英语)迁移到其他语言,结果表明在不同语言的查询和文档中使用零 - shot 排名算法的有效性会降低。因此,我们提出利用双语词典生成人工混合语言的数据来训练排名模型,我们对从跨语言词嵌入和平行维基百科页面标题引导的词典进行了实验,最终在多语言、跨语言和单语言信息检索方面进行了评估。结果表明,使用代码切换可以在跨语言和多语言检索中带来一致且实质性的收益。
May, 2023
通过系统实证分析,我们发现预训练的最新型多语言编码器并不能显著超越早期基于跨语言单词嵌入的模型在无监督文档级和句子级交叉语言信息检索方面的性能,但在经过监督学习优化的条件下,可在句子检索中取得最高准确率,并通过局部相关性匹配和对特定领域对比微调等方法最大程度提升排名质量,还揭示了基于单语数据训练的检索模型会出现 “单语过度拟合” 的现象,这与针对特定目标语言的单语信息检索的交叉语言转移存在显著差异。
Dec, 2021
本研究旨在探讨如何在不同语言中使用基于转换器的双编码器设计实现单语检索,包括使用多语言变压器的交叉语言一般化能力,在多场景下使用最佳实践指南解决单语检索问题,从而为构建低资源语言的搜索应用提供指南和基础。
Apr, 2022
该研究旨在提供一种用于跨语言检索模型的组织框架,并在 TREC 2022 NeuCLIR 中的三种语言测试集上实现基于此的可重复现的基准线。
Apr, 2023
本文介绍了我们在 MRL 2022 胜出的系统,主要探索了基于 transformers 的两种方法:从头训练模型结合数据增强以及在多语言词形态任务中进行前缀调校的迁移学习,其中数据增强显著提高了大多数语言的词形和重构任务的性能,而前缀调校在预先训练的 mGPT 模型上对低数据量和多语言环境中的分析任务进行了适应,结果显示 transformers 与数据增强在词形和重构任务方面取得了最佳结果,而在分析任务方面,基于 mGPT 的前缀调校取得了最高结果。
Nov, 2022
利用大型预训练语言模型作为综合数据生成器,对于信息检索任务的未监督数据的微调,可以使检索器在零样本学习和有监督学习的任务中获得更好的表现
Feb, 2022