简约胜于繁华：利用弱解码器对强文本编码器进行预训练以进行密集检索

Feb, 2021

简约胜于繁华：利用弱解码器对强文本编码器进行预训练以进行密集检索

Less is More: Pre-train a Strong Text Encoder for Dense Retrieval Using a Weak Decoder

Shuqi Lu, Di He, Chenyan Xiong, Guolin Ke, Waleed Malik...

TL;DR本文提出一种基于自学习方法的预训练自编码语言模型，该模型通过训练编码器输出高质量的文本序列嵌入来解决解码器可能利用语言模式的问题，实验结果表明该模型能够显著提高稠密检索模型的效果和少样本学习能力。

Abstract

dense retrieval requires high-quality text sequence embeddings to support effective search in the representation space. Autoencoder-based language models are appealing in →

dense retrieval autoencoder-based language model text sequence embeddings self-learning method few-shot ability

发现论文，激发创造

通过对比跨度预测来预训练用于密集检索的判别性文本编码器

本文介绍了一种新型对比度跨度预测任务，该任务实现了仅训练编码器但仍具备自动编码器的瓶颈能力，在大数据检索的场景中通过组内对比度学习方法能够高效的学习出具有区分度的文本表示，避免了解码器的旁路效应。

Apr, 2022

放弃您的解码器：使用词袋预测进行密集段落检索的预训练

通过使用增强解码的遮蔽自动编码器预训练，显著提高了稠密表示中输入标记的术语覆盖，从而实现了在大规模检索基准上的最先进的检索性能，无需任何额外参数，相比于使用增强解码的标准遮蔽自动编码器预训练速度提高了 67%。

Jan, 2024

基于 Transformer 语言模型的句子瓶颈自编码器

本篇论文提出一种基于自编码器和预训练 transformer 语言模型的文本表示学习方法，通过只训练句子编码和单层 transformer 解码器，获取良好的句子表示，超过了使用预训练 transformer 模型在各类文本任务中的表现，且参数规模更小。

Aug, 2021

具有挑战性的解码器有助于稠密通道检索的掩码自编码器预训练

该研究提出了一种基于点互信息的令牌重要性感知遮蔽策略，以加强解码器的挑战，进而构建编码器的表示能力，并在大规模监督通道检索数据集和领域外零 - shot 检索基准上验证了其有效性和鲁棒性。

May, 2023

利用预训练语言模型生成通用文本嵌入以实现可扩展推断

研究使用共享文本编码器实现多任务推理以及使用二进制量化减少数据存储大小的方法，证明预训练的编码器在多个任务上表现的泛化性好。

Apr, 2020

序列模型的离散自编码器

本文旨在通过强制使用自动编码器并引入改进的语义哈希技术，从序列模型中提取更好的表示，以提高其在语言建模和机器翻译等任务中的表现，并展示了该技术在生成多元化翻译方面的应用。

Jan, 2018

文本检索中的稀疏、密集和注意力表示

该研究探讨了双编码器的检索能力，并将其与稀疏词袋模型和注意力神经网络进行了比较。研究发现固定长度编码的能力存在限制，具体表现为编码维数，金标和排名较低文件之间的边际，以及文档长度。在此基础上，该研究提出了一种结合了双编码器的高效性和注意力结构的表达能力的简单神经模型，并探索了稀疏 - 密集混合模型以提高检索精度，这些模型在大规模检索中胜过强有力的替代方案。

May, 2020

Condenser: 用于密集检索的预训练模型架构

该论文提出了一种基于 Condenser 的 Transformer 架构，可以提高标准 LM 在文本检索和相似性任务上的效果。

Apr, 2021

通过遮蔽自编码器预训练针对检索的语言模型 RetroMAE

本研究提出一种新的基于 Masked Auto-Encoder 的检索导向的预训练模型 RetroMAE，通过三个关键设计，包括污染输入、不对称模型结构和不对称的遮盖比率，取得了令人满意的实验结果，大幅提高了在 BEIR 和 MS MARCO 等检索基准测试中的性能表现。

May, 2022

协同过滤的深度自编码器训练

本文提出了一种基于深度自编码器的新模型，通过对 Netflix 数据集进行评分预测任务，相对于之前的模型具有明显优势。该模型不需要层预训练，采用 6 层自编码器进行端到端的训练，通过实验证明：深度自编码器模型的泛化能力比浅层模型更好，负部分的非线性激活函数对于训练深度模型至关重要，必须大量采用正则化技术，如 dropout，以防止过拟合。此外，我们提出了一种基于迭代输出反馈的训练算法，以克服协作过滤的自然稀疏性，该算法显著加速了训练并改善了模型性能。

Aug, 2017