无监督上下文感知句子表示预训练在多语言密集检索中的应用

Jun, 2022

无监督上下文感知句子表示预训练在多语言密集检索中的应用

Unsupervised Context Aware Sentence Representation Pretraining for Multi-lingual Dense Retrieval

Ning Wu, Yaobo Liang, Houxing Ren, Linjun Shou, Nan Duan...

TL;DR本文介绍了一种简单有效的单语言预训练任务 —— 对比上下文预测 (contrastive context prediction, CCP)，通过学习建模句子级上下文关系来学习句子表示，从而使句子配对对齐，并使用语言特定的存储器库和非对称批标准化操作来防止模型崩溃和信息泄漏，在不使用双语数据的情况下，在多语言检索任务 Tatoeba 上实现了新的最佳结果，在跨语言查询 - 段落检索任务 XOR Retrieve 和 Mr.TYDI 中，该模型在所有使用双语数据的预训练模型中在零样本和监督设置 (both zero-shot and supervised setting) 中都取得了两个最新成果。

Abstract

Recent research demonstrates the effectiveness of using pretrained language models (PLM) to improve dense retrieval and multilingual dense retrieval. In this work, we present a simple but effective monolingual pretraining task called contrastive context prediction~(CCP) to learn

pretrained language models contrastive context prediction multilingual retrieval sentence representation embedding

发现论文，激发创造

建模序列句子关系以提高跨语言稠密检索

通过建立序列句子关系，提出一种多语言 PLM 模型，称为 masked sentence model (MSM)，并通过四项跨语言检索任务的全面实验验证其在跨语言检索方面的有效性和更强的能力。

Feb, 2023

无监督多语言句子嵌入用于平行语料挖掘

本研究提出了一种新的无监督方法，通过使用单语数据来获得跨语言句子嵌入，产生了合成平行语料库，使用预训练的跨语言掩码语言模型（XLM）对其进行微调以得到多语言句子表示，并在两个平行语料库挖掘任务上评估了表示的质量，结果表明，这种方法可以比基准 XLM 模型获得高达 22 个 F1 点的改进。此外，我们还观察到，单个合成的双语语料库能够改善其他语言对的结果。

May, 2021

通过软对比学习改善多语言对齐

提出新的方法来对齐多语种嵌入，基于单语种嵌入模型中句子的相似性测量；实验证明我们的方法在多语种数据集上表现出色，优于现有的多语种嵌入方法和对比损失方法。

May, 2024

对比学习的多语言表征蒸馏

该研究加入对比学习以蒸馏多语言表示，并用于平行语句的质量估计。实验证明，该方法在不同的资源稀少语言上显著优于先前的句子编码器，诸如 LASER 等。

Oct, 2022

跨语境上下文短语检索

通过利用短语提供的细粒度信息，我们提出了密集检索的新任务形式，即跨语言上下文短语检索，通过使用上下文信息解决多义词问题，实验结果展示了我们方法的有效性。

Mar, 2024

基于对比学习的语言无关多语种信息检索

通过利用平行语料库和非平行语料库，采用对比学习等方法，有效提高了预训练多语言语言模型的跨语言传递能力，同时显著提高了检索性能，且计算成本较低。