无监督多语言密集检索生成伪标签

ACLMar, 2024

无监督多语言密集检索生成伪标签

Unsupervised Multilingual Dense Retrieval via Generative Pseudo Labeling

Chao-Wei Huang, Chen-An Li, Tsu-Yuan Hsu, Chen-Yu Hsu, Yun-Nung Chen

TL;DR本研究介绍了 UMR，一种无需配对数据训练的无监督多语言密集检索器，通过利用多语言语言模型的序列似然估计能力来获取密集检索器训练的伪标签，提出了一个两阶段框架，逐步改善多语言密集检索器的性能，实验证明 UMR 优于有监督基线模型，提升了多语言检索器在实际应用中的可行性。

Abstract

dense retrieval methods have demonstrated promising performance in multilingual information retrieval, where queries and documents can be in different languages. However, dense retrievers typically require a subs

dense retrieval methods multilingual information retrieval umr unsupervised multilingual dense retriever paired data

发现论文，激发创造

AugTriever：可扩展的数据增强无监督密集检索

本文提出了无需注释的可扩展伪查询文档对训练方法，包括查询提取和转化查询生成两种。通过使用这些方法，研究展示出比其他方法更好的检索表现。

Dec, 2022

UnifieR: 大规模信息检索统一检索器

本论文提出了一种名为 UnifieR 的学习框架，它将基于预训练语言模型的密集向量和基于词汇表的检索统一在一个模型中，并在多个基准测试中验证了其有效性和可转移性。

May, 2022

无监督对比学习密集信息检索

本文介绍一种无监督训练的密集感知器，使用对比学习 (contrastive learning) 的方法，提高了信息检索的性能，并在多语言检索中表现出强大的跨语言转移能力。

Dec, 2021

利用无监督多语言上下文化表示进行低资源序列标注

本文提出了多语言语言模型与深度语义对准（MLMA），用于产生跨语言标注的语言无关表示，方法不需要平行数据或一个词一个词匹配，只需要单语语料库，并利用深度上下文表示。实验结果表明，本方法在欧洲语言以及英语和汉语等远距离语言对上实现了新的最新 NER 和 POS 性能。

Oct, 2019

UDAPDR：基于 LLM 加速的无监督域自适应及 Reranker 蒸馏方法

通过使用大型语言模型 (LLMs) 生成大量合成的查询，可以在不使用大量标记的数据的情况下，有效地优化实现信息检索任务，同时消除因为领域的转变而导致真实世界应用效力降低的问题。

Mar, 2023

在多语言多层次检索中，利用 LLMs 合成训练数据

通过使用 SWIM-IR 合成训练数据集，我们研究了多语言密集检索模型的能力，并在三个检索基准上对其进行了全面评估，发现 SWIM-IR 可以以较低成本替代昂贵的人工标记检索训练数据。

Nov, 2023

GPL: 密集检索的生成伪标签用于无监督域适应

该研究论文提出了一种新的无监督领域适应方法 Generative Pseudo Labeling，该方法结合查询生成器和交叉编码器的伪标记，证明该方法可以在数据集较小的目标领域中进行更加鲁棒的训练，并且在检索任务上比最先进的密集检索方法提高了近 9.3 个百分点的 nDCG@10 指标。

Dec, 2021

基于数据中心化方法的无监督领域泛化：来自网络规模多模态数据的检索

该研究论文探讨了领域泛化和无监督领域泛化问题，提出了一种在多模态场景下构建数据集的新方法，并在不同的基准测试上与其他方法进行了比较，取得了较高的准确性。

Feb, 2024

训练多语言密集检索模型最佳实践

本研究旨在探讨如何在不同语言中使用基于转换器的双编码器设计实现单语检索，包括使用多语言变压器的交叉语言一般化能力，在多场景下使用最佳实践指南解决单语检索问题，从而为构建低资源语言的搜索应用提供指南和基础。

Apr, 2022

Mr. TyDi: 为密集检索提供多语言评测基准

介绍了 Mr.TyDi - 一个包括 11 种不同语言、多语言检索基准数据集，旨在评估利用学习的密集表示进行排名的效果。通过提供多语言 DPR 等基线模型，实验结果表明，虽然效果比 BM25 模型要差，但密集表示仍然可以提供有价值的相关信号，可以用于在稀疏和密集模型之间建立混合模型，具有进一步的研究意义。

Aug, 2021