Jun, 2022

无监督上下文感知句子表示预训练在多语言密集检索中的应用

TL;DR本文介绍了一种简单有效的单语言预训练任务 —— 对比上下文预测 (contrastive context prediction, CCP),通过学习建模句子级上下文关系来学习句子表示,从而使句子配对对齐,并使用语言特定的存储器库和非对称批标准化操作来防止模型崩溃和信息泄漏,在不使用双语数据的情况下,在多语言检索任务 Tatoeba 上实现了新的最佳结果,在跨语言查询 - 段落检索任务 XOR Retrieve 和 Mr.TYDI 中,该模型在所有使用双语数据的预训练模型中在零样本和监督设置 (both zero-shot and supervised setting) 中都取得了两个最新成果。