大型语言模型中的功能向量

Oct, 2023

Function Vectors in Large Language Models

Eric Todd, Millicent L. Li, Arnab Sen Sharma, Aaron Mueller, Byron C. Wallace...

TL;DR通过对多样的上下文学习任务的因果中介分析，我们发现一种简单的神经机制，在自回归 Transformer 语言模型中将输入输出函数表示为向量，这种向量被我们称为函数向量（Function Vector）。函数向量（FV）对上下文的变化具有鲁棒性，在与上下文不相似的输入（如零 - shot 和自然文本设置）上触发任务的执行。我们测试了函数向量在多种任务、模型和层次上的效果，并发现在中间层次的不同设置中具有强大的因果效应。我们研究了函数向量的内部结构，并发现虽然它们经常包含编码函数的输出空间的信息，但仅有这些信息并不足以重构一个函数向量。最后，我们测试了函数向量中语义向量的组合，并发现在一定程度上它们可以被相加以创建触发新复杂任务的向量。综上所述，我们的研究结果表明，语言模型中包含了内部的抽象的通用函数，可以在各种不同的上下文中被调用。

Abstract

We report the presence of a simple neural mechanism that represents an input-output function as a vector within autoregressive transformer language models (LMs). Using causal mediation analysis on a diverse range

neural mechanism autoregressive transformer function vector context general-purpose functions

发现论文，激发创造

上下文化学习创建任务向量

使用全面实验证明，In-context learning 通常具有非常简单的结构，即对应于仅有查询 x 和从训练集计算得到的单个 “任务向量” 的 Transformer LLM，可将训练集 S 压缩为单个任务向量 θ(S)，并使用该任务向量来调节 Transformer 以产生输出。

Oct, 2023

上下文向量：通过潜在空间导向使上下文学习更有效和可控

使用 ICV 替代上下文学习以解决其限制，并展示了 ICV 在多个任务上的更好性能。

Nov, 2023

大型语言模型的上下文学习中的分布式规则向量

Large Language Models demonstrate In-Context Learning through an information aggregation mechanism, where task vectors are not present, but rule vectors encode high-level abstractions of rules extracted from multiple demonstrations.

Jun, 2024

语言模型实现简单的 Word2Vec 风格的向量算术

本文研究了语言模型在上下文学习中的机制和解决问题的策略，发现虽然它们规模巨大和复杂，但其实有时候它们会利用简单向量算术的机制编码抽象关系，并且利用前馈网络的简单线性更新算法来完成各种任务，在一定程度上具有可解释性。

May, 2023

可学习的上下文向量用于视觉问答

学习型 ICV（L-ICV）从示范中提取必要的任务信息，改善 LMM 中的 ICL 性能，通过与传统 ICL 和其他不可学习的 ICV 方法相比，实验结果显示 L-ICV 能够显著降低计算成本并提高 VQA 任务的准确性。

Jun, 2024

利用影响函数研究大型语言模型的泛化能力

影响函数为我们研究 LLMs 的泛化特性提供了强大的新工具，通过使用 EK-FAC 逼近和算法技术来扩展影响函数，我们能够高效地获得有关机器学习模型中关键训练示例的见解，并揭示出泛化模式的稀疏性、尺度的增加和关键短语顺序翻转的限制.

Aug, 2023

意义的线性空间：VLM 的组合语言

本文讨论在预先训练的视觉与语言模型中向量数据嵌入的组合结构，提出一种基于理想词向量的新的合成性表达方法，并探讨其与数学表示理论和去耦合表示概念的联系。作者提供理论和经验证据表明，理想词嵌入提供良好的组合近似和比基于标记的分解更有效的组合表示方法。

Feb, 2023

向量基础问题

通过探究内在表征的多种不同地基于生物或人工系统方法（指示性、感觉运动、关系、交流和认识性地基础），梳理分化它们之间的差异，并阐述说明认为指示性地基础是矢量基础问题的关键所在。基于哲学和认知科学中的表征内容理论，本文提出了某些大语言模型（LLMs，尤其是使用人类反馈从 RLHF 进行调整的）具有克服矢量基础问题所必需的特征，并且提出，多模态和体现都不是人工系统指示性基础的必要或充分条件。

Apr, 2023

内外优化的上下文学习状态向量

通过对压缩向量进行细致分析并引入状态向量的概念，我们提出了内部和动量优化方法，并通过模拟状态向量聚合和分割以在多示例情况下进行更好的优化，实验证明这些优化方法有效地提升了状态向量，并在各种任务中取得了最先进的性能。

Apr, 2024

多模态任务向量实现大规模多模态上下文学习

通过利用内插的大型多模态模型中的多模态任务向量，我们的研究工作实现了多模态的多射击上下文学习，并证明这些提取出的多模态任务向量可以随着压缩射击数的增加而提高性能，并且可以推广到类似的领域任务而不需要额外的上下文长度进行推理。

Jun, 2024