XC-Cache: 为高效 LLM 推理跨越关注缓存上下文

Apr, 2024

XC-Cache: 为高效 LLM 推理跨越关注缓存上下文

XC-Cache: Cross-Attending to Cached Context for Efficient LLM Inference

João Monteiro, Étienne Marcotte, Pierre-André Noël, Valentina Zantedeschi, David Vázquez...

TL;DR引入了受编码器 - 解码器结构启发的模型，利用交叉注意力将生成模型与参考文本进行条件化。这些模型仅训练少量添加的层，并在问答测试中表现出优异的条件生成能力，超越了上下文学习，并相对于标准 KV 缓存方法极大地减少了空间占用。

Abstract

in-context learning (ICL) approaches typically leverage prompting to condition decoder-only language model generation on reference information. Just-in-time processing of a context is inefficient due to the quadr

in-context learning prompting cross-attention conditional generation question-answering

发现论文，激发创造

迭代前向调整促进语言模型内部学习

本研究提出了一种有效的、高效的两阶段方法来增强大型语言模型中的上下文学习，该方法利用 Transformer 注意力和梯度下降优化之间的双重形式，将上下文学习过程分为 'Thinking' 和推理阶段，通过递归前向优化演示来增强 LLLs 的推理能力，并且将得到的元梯度通过注意力应用于最终的输出预测中，从而有效地、高效地适应下游任务。

May, 2023

用于稀疏检索任务的样本高效上下文学习机制

本文研究了大型语言模型展示的 “上下文学习” 现象，并解释了预训练的 transformer 模型如何在合理的假设下执行上下文学习。我们推出了一种机制，使得 transformer 模型能够正确划分上下文，推断出稀疏线性回归假说，并应用此假说进行预测，在该学习框架中的样本复杂度保证。

May, 2023

上下文语言学习：结构和算法

通过研究在背景语境中的大规模神经语言模型对正则语言的学习，我们展示了 Transformers 相对于递归或卷积模型在 in-context 语言学习任务上的显著优势，并提出硬连接高阶归纳头到递归和卷积模型可改善这个任务和自然语言建模的性能。

Jan, 2024

走向更统一的上下文视觉理解

我们提出了一种新的具有多模态输出功能的视觉理解的上下文学习框架，通过将文本和视觉提示量化和嵌入到统一的表示空间中，并采用仅具有解码器的稀疏 Transformer 架构在其上执行生成建模。实验结果表明，我们的模型在统一的多模态管线中实现了与专门模型和先前上下文学习基准模型相竞争的性能。总体而言，我们的研究在统一多模态上下文学习方面迈出了进一步的一步。

Dec, 2023

通过提示强化上下文学习唤醒大型语言模型以进行知识密集型任务

提出了一种新的学习范式 —— 提示增强的上下文学习（Hint-enhanced In-Context Learning，HICL），通过从示范中提取与查询相关的知识，以更明确的方式提示大型语言模型（LLM），用于开放域问答，从而提高性能。

Nov, 2023

线性注意力下上下文学习的渐近理论

Transformers 在无需显式先前训练的情况下，基于输入示例学习和执行任务的能力，也称为上下文学习（ICL），是其成功的基础。本研究提供了关于所需样本复杂性、预训练任务多样性和上下文长度对成功 ICL 的明确答案，采用线性关注在 ICL 线性回归任务的可解模型中推导出了学习曲线的锐利渐近线。通过实验证明了随着先前训练示例数量增加，学习曲线具有双峰，且模型的行为在低和高任务多样性之间出现相变：在低多样性情况下，模型趋向于记忆训练任务，而在高多样性情况下，它实现了真正的上下文学习并在预训练任务范围之外进行泛化。这些理论洞见通过线性关注和完全非线性 Transformer 架构的实验进行了经验证实。

May, 2024

内上下文格式：大型语言模型的快速压缩上下文

通过使用 In-Context Former 方法，我们成功减少了基于 Transformer 的大型语言模型的压缩成本，并使得实时压缩的场景成为可能。

Jun, 2024

面向上下文学习的何以及如何学习？贝叶斯模型平均、参数化和泛化

本文对 In-Context Learning (ICL) 的学习器类型、性能度量、误差率以及 Transformer 架构和 ICL 的关系进行了全面深入的研究，初步证明 ICL 隐含地实现了贝叶斯模型平均算法并受注意机制参数化，同时建立 ICL 遗憾、近似和泛化误差的界限，从而加深了我们对现代语言模型的关键方面的认识。

May, 2023

训练的 Transformer 学习上下文中的线性模型

研究注意力机制的神经网络 transformer 采用渐变流进行单个线性自注意层的训练，实现在新的预测任务中使用标记示例的测试提示时具有预测误差与测试提示分布上最佳线性预测器相竞争的能力，且在多种分布转换下具有鲁棒性。

Jun, 2023

为什么更大的语言模型在上下文中学习方式不同？

大型语言模型（LLM）通过上下文学习（ICL）的关键能力成为 AI 的强大工具，本研究探讨了不同规模的模型在 ILC 行为上的不同性质，并在两个设定下分析了变压器的注意力机制与 ICL 的关系。

May, 2024