Transformer 中的无限长前缀

Jun, 2024

Toward Infinite-Long Prefix in Transformer

Jiuxiang Gu, Yingyu Liang, Zhenmei Shi, Zhao Song, Chiwun Yang

TL;DR研究了前缀学习的学习能力，通过无限长度前缀在一层注意力网络中的表达和解决问题，证实了无限长度前缀学习在注意力中的过度参数化性质和任意小的损失收敛性保证。提出了 NTK-Attention 方法，可实现任意前缀长度的注意力计算，具有参数效率高、在多种场景中表现优越的潜力。

Abstract

Prompting and contextual-based fine-tuning methods, which we call Prefix Learning, have been proposed to enhance the performance of language models on various downstream tasks that can match full parameter fine-tuning. There remains a limited theoretical understanding of how these meth

prefix learning neural tangent kernel ntk-attention parameter-efficient-fine-tuning method downstream tasks

发现论文，激发创造

面向参数效率语言模型微调的自适应前缀调整

本研究聚焦于前缀调整 fine-tuning 技术，并提出了自适应前缀调整（APT）方法，结合门控机制实现对细粒度和粗粒度级别的前缀优化，实证实现了在 SuperGLUE 和 NER 数据集上的有效性和效率验证。

May, 2023

Prefix-Tuning: 优化连续提示用于生成任务

本文提出字首调整 (prefix-tuning)，来解决专用模型使用全量预训练语言模型的空间问题，自动学习小、定制化的向量。通过应用于自然语言生成和文本总结，仅使用 0.1% 的参数即能达到很好的性能。

Jan, 2021

前缀传播：用于长序列的参数有效调整

本论文探讨了为长序列语言任务实现参数有效学习的方法，提出了一种基于前缀传播的简单且有效的方法，在校准和核注意力方面表现出优越性，并且使用的参数比前缀调整少 50%。

May, 2023

基于核方法的语言模型微调视角

通过对 14 个 NLP 任务的实验验证，我们探究了采用 NTK 对预训练语言模型进行 fine-tuning 的机制和条件，并提出了一个基于 NTK 的解释，解释了参数高效子空间 fine-tuning 方法的成功原因。

Oct, 2022

无限宽神经网络中的特征学习

研究表明，标准和 NTK 参数化的神经网络不能学习特征，这对于预训练和转移学习至关重要。通过修改标准参数化，使用 Tensor Programs 技术，我们计算了神经网络的极限，并发现其表现优于 NTK 基线和有限宽网络。

Nov, 2020

用于高效语言模型微调的 NTK - 逼近 MLP 融合

通过使用神经切向核（NTK）逼近多层感知器模块（MLP）的预训练语言模型（PLM），提出了一种轻量级 PLM 压缩方法，通过重新考虑 MLP 作为子 MLP 集合并将其聚类为给定数量的重心，进而恢复为压缩的 MLP，惊人地显示出良好逼近原始 PLM 的 NTK。

Jul, 2023

Inducer-tuning: 连接 Prefix-tuning 和 Adapter-tuning

本文提出了通过核方法理解 prefix-tuning，并将其发展为 inducer-tuning 来提高其性能，通过自然语言理解和生成任务的综合实验，证明了 inducer-tuning 可以缩小 prefix-tuning 和 fine-tuning 之间的性能差距。

Oct, 2022

高效的无限上下问 Transformer 与无限注意力

该研究介绍了一种有效的方法，用于将基于 Transformer 的大型语言模型扩展到无限长的输入，同时保证有界的内存和计算。我们提出的方法的关键组成部分是一种称为 Infini-attention 的新的注意力技术，它将压缩性记忆融入到传统的注意力机制中，并在单个 Transformer 块中集成了被屏蔽的局部注意力和长期线性注意力机制。我们在长文本语言建模、1M 序列长度密钥上下文块检索和 500K 长度的书籍摘要任务上展示了我们方法的有效性，使用 1B 和 8B 规模的大型语言模型。我们的方法引入了最小化的有界内存参数，并实现了 LLMs 的快速流式推理。

Apr, 2024

预训练变压器可作为通用逼近器

通过 prompt tuning 和 prefix-tuning，本论文探讨了预训练模型能否被任意修改以逼近序列到序列函数，证明了通过加前缀可以使比先前认为的更小的预训练模型成为普遍逼近模型。此外，本论文还给出了逼近函数所需前缀长度的限制。

Feb, 2024

标准参数化神经网络的无限宽度极限

本文提出了一种改进的标准参数化方法，可以正确地在无限宽度的情况下捕捉到有限宽度网络的训练动态，同时保持所有属性，包括神经切线核，实验表明这种参数化方法通常可以达到与 NTK 参数化类似的精度，但更好地对应典型有限宽度网络的参数化。

Jan, 2020