驻足于起始处：语言模型如何嵌入长篇文档以进行稠密检索

Apr, 2024

驻足于起始处：语言模型如何嵌入长篇文档以进行稠密检索

Dwell in the Beginning: How Language Models Embed Long Documents for Dense Retrieval

João Coelho, Bruno Martins, João Magalhães, Jamie Callan, Chenyan Xiong

TL;DR这项研究调查了 Transformer-based 模型在文本表征学习中的位置偏差存在情况，特别是在网络文档检索的背景下。我们基于先前研究的基础上，拓展了关于因果性语言模型输入序列中信息丢失的问题，将其应用于表征学习领域。我们在编码器 - 解码器模型的各个训练阶段，包括语言模型预训练、对比度预训练和对比度微调中，研究了位置偏差。通过对 MS-MARCO 文档集的实验发现，在对比度预训练之后，该模型已经生成了能够更好地捕捉输入早期内容的嵌入向量，而微调进一步加剧了这种效果。

Abstract

This study investigates the existence of positional biases in transformer-based models for text representation learning, particularly in t

positional biases transformer-based models text representation learning web document retrieval contrastive pre-training

发现论文，激发创造

迷失在中间：语言模型如何使用长上下文

我们分析了语言模型在多文档问答和键值检索两个任务中的性能，发现当相关信息出现在输入上下文的开头或结尾时，性能通常最高，而在长上下文中访问相关信息时性能显著下降。此外，随着输入上下文的增长，性能显著降低，即使是专门用于长上下文的模型也如此。我们的分析对语言模型如何利用输入上下文提供了更好的理解，并为未来的长上下文模型提供了新的评估协议。

Jul, 2023

基于预训练句子嵌入的长文档分类的注意力机制

通过利用预训练的句子 transformers 对语义有意义的嵌入进行组合，结合文档长度线性扩展的小的注意力层，我们得到了与当前最先进模型竞争力的结果，特别是在冻结底层 transformers 的情况下，有助于避免完全微调。通过两个额外的实验进一步评估所研究的架构在比较简单的基线上的相关性。

Jul, 2023

关于大型语言模型中的位置偏差的总结化问题

对于大型语言模型，在抽象摘要任务中表现出色，但在多文档问答中存在输入上下文偏差，导致摘要内容分散，影响性能。本文通过实证研究揭示了这种偏差对于大型语言模型在不同摘要评估上的挑战。

Oct, 2023

LLM 长文本语境失误的洞见：当转换器知道但不透露

大型语言模型（LLM）存在位置偏差，难以利用长篇上下文中间或结尾的信息。我们的研究通过探测其隐藏表示来探究 LLMs 的长篇上下文推理能力。我们发现，虽然 LLMs 编码目标信息的位置，但在生成准确回答时往往未能充分利用这一特性。这揭示了信息检索和利用之间的不一致，形成了一种 “知道但不说” 的现象。我们进一步分析了提取时间与最终准确性之间的关系，从而揭示了 Transformer 模型的基本机制。

Jun, 2024

通过缩放单一维度来减轻大型语言模型的位置偏见

本文研究了大型语言模型中的位置偏见问题，发现注意力权重和因果性注意掩码是位置偏见的微观表现，提出了通过调整位置隐状态来减轻位置偏见的方法，并通过在多个任务上进行实验验证了该方法的有效性和普适性。

Jun, 2024

注意力对齐和灵活位置嵌入改进了 Transformer 长度外推

提出两种通过温度缩放实现的注意力对齐策略，改善了 T5 在语言建模、检索和多文档问答中对长篇文本的应用能力，无需进行微调。

Nov, 2023

神经语言模型中近似短期记忆的特征化

该研究考察了语言模型在处理文本时是否能够检索先前出现的确切单词，并发现 transformers 模型可以从第一次出现的名词清单中提取词语的身份和排序，而 LSTM 模型则更加侧重于先前单词的语义要点，以及其与列表中其他单词的关系。

Oct, 2022

位置编码学到了什么？一项关于预训练语言模型位置编码的实证研究

本文通过特征级别分析和大量实证研究主流预训练位置嵌入对 Transformer 的影响，从而为特定任务选择适当的位置编码函数提供新的见解。

Oct, 2020

语言的更多空间：探究检索对语言模型的影响

利用 “理想检索” 方法研究检索增强语言模型，评估检索增强对语言模型行为的影响，观察到这些模型在权重保存方面具有更少的世界知识，在理解局部上下文和词间依赖方面表现更好，但在理解全局上下文方面表现更差。

Apr, 2024

图注意力网络实现的对比文档表征学习

本文提出使用图注意力网络在可用的预训练 Transformer 模型之上来学习文档嵌入，并基于该模型设计简单的对比学习策略，在大量无标签语料库上预训练模型。经验证明，我们的方法在文档分类和文档检索任务中是有效的。

Oct, 2021