SimLM: 密集文本检索的表示瓶颈预训练

Jul, 2022

SimLM: 密集文本检索的表示瓶颈预训练

SimLM: Pre-training with Representation Bottleneck for Dense Passage Retrieval

Liang Wang, Nan Yang, Xiaolong Huang, Binxing Jiao, Linjun Yang...

TL;DR本文提出一种简单而有效的预训练方法 SimLM，用于针对稠密段落检索，其使用简单的瓶颈架构通过自监督预训练学习将段落信息压缩成一种密集向量，并使用替换的语言建模目标，该目标灵感来自 ELECTRA，以提高样本效率并减少预训练和微调之间输入分布的差异。SimLM 只需要访问未标记的语料库，在没有标记数据或查询时更普遍适用。在多个大规模段落检索数据集上进行实验证明，在多种设置下，SimLM 都比强基线实现了实质性的改进。显著的是，SimLM 甚至胜过了多向量方法，如 ColBERTv2，这需要更高的存储成本。

Abstract

In this paper, we propose simlm (Similarity matching with Language Model pre-training), a simple yet effective pre-training method for den

simlm pre-training dense passage retrieval language modeling unlabeled data

发现论文，激发创造

基于大型语言模型的文档扩展预训练用于密集式段落检索

利用 LLM（大型语言模型）进行文档扩展进行预训练，显著提升了大规模网络搜索任务中的检索性能。

Aug, 2023

面向语料库的无监督语言模型预训练用于密集文本检索

本文提出了 coCondenser 方法，将 Condenser 预训练架构与无监督语料级对比损失相结合，减轻了密集检索器对大规模训练数据和数据工程的依赖，并通过实验表明，该方法具有与 RocketQA 相当的性能。

Aug, 2021

SimVLM：简单的弱监督视觉语言模型预训练

本文提出了一种简约的视觉语言模型（Simple Visual Language Model）普及方法，使用大规模的弱监督数据，通过单一前缀语言建模目标进行端到端训练，并在不利用额外数据或任务特定的定制的情况下，在广泛的辨别和生成性视觉语言基准方面实现了具有新的最先进的结果，还展示了 SimVLM 获得了强大的泛化和转移能力，实现了零 - shot 行为。

Aug, 2021

低资源口语理解的瓶颈低秩变换器

本文介绍了如何使用变形器结构并应用群稀疏技术实现拥有较高精度、更小规模 SLU 模型的生成，从而避免使用预先训练的参数较多的大型模型。

Jun, 2022

针对词级语义相似性的无监督预训练模型专业化

本研究将外部词汇知识与 BERT 模型的多任务学习相结合，提出了一种 “词汇知情” 的 BERT（LIBERT）模型，比起原始 BERT 在多项语言任务和词汇简化任务中均有显著提高。

Sep, 2019

Condenser: 用于密集检索的预训练模型架构

该论文提出了一种基于 Condenser 的 Transformer 架构，可以提高标准 LM 在文本检索和相似性任务上的效果。

Apr, 2021

无监督上下文感知句子表示预训练在多语言密集检索中的应用

本文介绍了一种简单有效的单语言预训练任务 —— 对比上下文预测 (contrastive context prediction, CCP)，通过学习建模句子级上下文关系来学习句子表示，从而使句子配对对齐，并使用语言特定的存储器库和非对称批标准化操作来防止模型崩溃和信息泄漏，在不使用双语数据的情况下，在多语言检索任务 Tatoeba 上实现了新的最佳结果，在跨语言查询 - 段落检索任务 XOR Retrieve 和 Mr.TYDI 中，该模型在所有使用双语数据的预训练模型中在零样本和监督设置 (both zero-shot and supervised setting) 中都取得了两个最新成果。

Jun, 2022

ColBERT: 通过 BERT 的上下文化后交互实现高效有效的段落搜索

ColBERT 是一种基于深度语言模型的信息检索方法，通过实现一种廉价而又强大的互动机制，将查询和文档分别进行编码，然后为它们建立细粒度相似性，从而利用深度语言模型的表现力，同时加快查询处理。

Apr, 2020

跨语种语义相似匹配的多阶段蒸馏框架

本论文提出了一种多阶段蒸馏框架来构建小型但高性能的跨语言模型，同时结合对比学习、瓶颈和参数循环策略，解决了模型压缩过程中性能损失严重的问题，并证明该方法可以将 XLM-R 和 MiniLM 的大小压缩了 50％以上，而性能仅降低了约 1％。

Sep, 2022

建模序列句子关系以提高跨语言稠密检索

通过建立序列句子关系，提出一种多语言 PLM 模型，称为 masked sentence model (MSM)，并通过四项跨语言检索任务的全面实验验证其在跨语言检索方面的有效性和更强的能力。

Feb, 2023