Apr, 2024

驻足于起始处:语言模型如何嵌入长篇文档以进行稠密检索

TL;DR这项研究调查了 Transformer-based 模型在文本表征学习中的位置偏差存在情况,特别是在网络文档检索的背景下。我们基于先前研究的基础上,拓展了关于因果性语言模型输入序列中信息丢失的问题,将其应用于表征学习领域。我们在编码器 - 解码器模型的各个训练阶段,包括语言模型预训练、对比度预训练和对比度微调中,研究了位置偏差。通过对 MS-MARCO 文档集的实验发现,在对比度预训练之后,该模型已经生成了能够更好地捕捉输入早期内容的嵌入向量,而微调进一步加剧了这种效果。