简约胜于繁华:利用弱解码器对强文本编码器进行预训练以进行密集检索
本文介绍了一种新型对比度跨度预测任务,该任务实现了仅训练编码器但仍具备自动编码器的瓶颈能力,在大数据检索的场景中通过组内对比度学习方法能够高效的学习出具有区分度的文本表示,避免了解码器的旁路效应。
Apr, 2022
通过使用增强解码的遮蔽自动编码器预训练,显著提高了稠密表示中输入标记的术语覆盖,从而实现了在大规模检索基准上的最先进的检索性能,无需任何额外参数,相比于使用增强解码的标准遮蔽自动编码器预训练速度提高了 67%。
Jan, 2024
本篇论文提出一种基于自编码器和预训练 transformer 语言模型的文本表示学习方法,通过只训练句子编码和单层 transformer 解码器,获取良好的句子表示,超过了使用预训练 transformer 模型在各类文本任务中的表现,且参数规模更小。
Aug, 2021
该研究提出了一种基于点互信息的令牌重要性感知遮蔽策略,以加强解码器的挑战,进而构建编码器的表示能力,并在大规模监督通道检索数据集和领域外零 - shot 检索基准上验证了其有效性和鲁棒性。
May, 2023
本文旨在通过强制使用自动编码器并引入改进的语义哈希技术,从序列模型中提取更好的表示,以提高其在语言建模和机器翻译等任务中的表现,并展示了该技术在生成多元化翻译方面的应用。
Jan, 2018
该研究探讨了双编码器的检索能力,并将其与稀疏词袋模型和注意力神经网络进行了比较。研究发现固定长度编码的能力存在限制,具体表现为编码维数,金标和排名较低文件之间的边际,以及文档长度。在此基础上,该研究提出了一种结合了双编码器的高效性和注意力结构的表达能力的简单神经模型,并探索了稀疏 - 密集混合模型以提高检索精度,这些模型在大规模检索中胜过强有力的替代方案。
May, 2020
本研究提出一种新的基于 Masked Auto-Encoder 的检索导向的预训练模型 RetroMAE,通过三个关键设计,包括污染输入、不对称模型结构和不对称的遮盖比率,取得了令人满意的实验结果,大幅提高了在 BEIR 和 MS MARCO 等检索基准测试中的性能表现。
May, 2022
本文提出了一种基于深度自编码器的新模型,通过对 Netflix 数据集进行评分预测任务,相对于之前的模型具有明显优势。该模型不需要层预训练,采用 6 层自编码器进行端到端的训练,通过实验证明:深度自编码器模型的泛化能力比浅层模型更好,负部分的非线性激活函数对于训练深度模型至关重要,必须大量采用正则化技术,如 dropout,以防止过拟合。此外,我们提出了一种基于迭代输出反馈的训练算法,以克服协作过滤的自然稀疏性,该算法显著加速了训练并改善了模型性能。
Aug, 2017