大型语言模型的上下文学习中的分布式规则向量

Jun, 2024

大型语言模型的上下文学习中的分布式规则向量

Distributed Rule Vectors is A Key Mechanism in Large Language Models' In-Context Learning

Bowen Zheng, Ming Ma, Zhongqiao Lin, Tianming Yang

TL;DRLarge Language Models demonstrate In-Context Learning through an information aggregation mechanism, where task vectors are not present, but rule vectors encode high-level abstractions of rules extracted from multiple demonstrations.

Abstract

large language models (LLMs) have demonstrated remarkable abilities, one of the most important being in-context learning (ICL). With ICL, LLMs can derive the underlying rule from a few demonstrations and provide

large language models in-context learning task vector rule vector information aggregation mechanism

发现论文，激发创造

上下文化学习创建任务向量

使用全面实验证明，In-context learning 通常具有非常简单的结构，即对应于仅有查询 x 和从训练集计算得到的单个 “任务向量” 的 Transformer LLM，可将训练集 S 压缩为单个任务向量 θ(S)，并使用该任务向量来调节 Transformer 以产生输出。

Oct, 2023

上下文向量：通过潜在空间导向使上下文学习更有效和可控

使用 ICV 替代上下文学习以解决其限制，并展示了 ICV 在多个任务上的更好性能。

Nov, 2023

可学习的上下文向量用于视觉问答

学习型 ICV（L-ICV）从示范中提取必要的任务信息，改善 LMM 中的 ICL 性能，通过与传统 ICL 和其他不可学习的 ICV 方法相比，实验结果显示 L-ICV 能够显著降低计算成本并提高 VQA 任务的准确性。

Jun, 2024

内外优化的上下文学习状态向量

通过对压缩向量进行细致分析并引入状态向量的概念，我们提出了内部和动量优化方法，并通过模拟状态向量聚合和分割以在多示例情况下进行更好的优化，实验证明这些优化方法有效地提升了状态向量，并在各种任务中取得了最先进的性能。

Apr, 2024

多模态任务向量实现大规模多模态上下文学习

通过利用内插的大型多模态模型中的多模态任务向量，我们的研究工作实现了多模态的多射击上下文学习，并证明这些提取出的多模态任务向量可以随着压缩射击数的增加而提高性能，并且可以推广到类似的领域任务而不需要额外的上下文长度进行推理。

Jun, 2024

大型语言模型中的功能向量

通过对多样的上下文学习任务的因果中介分析，我们发现一种简单的神经机制，在自回归 Transformer 语言模型中将输入输出函数表示为向量，这种向量被我们称为函数向量（Function Vector）。函数向量（FV）对上下文的变化具有鲁棒性，在与上下文不相似的输入（如零 - shot 和自然文本设置）上触发任务的执行。我们测试了函数向量在多种任务、模型和层次上的效果，并发现在中间层次的不同设置中具有强大的因果效应。我们研究了函数向量的内部结构，并发现虽然它们经常包含编码函数的输出空间的信息，但仅有这些信息并不足以重构一个函数向量。最后，我们测试了函数向量中语义向量的组合，并发现在一定程度上它们可以被相加以创建触发新复杂任务的向量。综上所述，我们的研究结果表明，语言模型中包含了内部的抽象的通用函数，可以在各种不同的上下文中被调用。

Oct, 2023

隐式上下文学习

在这项研究中，我们介绍了一种名为 Implicit In-context Learning (I2CL) 的创新范式，通过将演示样例吸收到激活空间中，解决了传统 In-context Learning (ICL) 所面临的挑战。经过实证评估，I2CL 在三种模型架构的九个真实世界任务上实现了接近零成本的少样本性能，并且对演示样例的变化表现出鲁棒性。此外，I2CL 促进了一种名为 “task-ids” 的新颖表示，增强了任务相似性检测能力并实现了有效的迁移学习。

May, 2024

让大型语言模型能够从规则中学习

通过从详细的规则中提取知识并显式编码到大型语言模型的参数中，我们提出了一种新的学习范式，即规则蒸馏，并证明这种方法在样本大小和泛化能力方面比基于示例的学习更加高效。

Nov, 2023

上下文语言学习：结构和算法

通过研究在背景语境中的大规模神经语言模型对正则语言的学习，我们展示了 Transformers 相对于递归或卷积模型在 in-context 语言学习任务上的显著优势，并提出硬连接高阶归纳头到递归和卷积模型可改善这个任务和自然语言建模的性能。

Jan, 2024

迭代前向调整促进语言模型内部学习

本研究提出了一种有效的、高效的两阶段方法来增强大型语言模型中的上下文学习，该方法利用 Transformer 注意力和梯度下降优化之间的双重形式，将上下文学习过程分为 'Thinking' 和推理阶段，通过递归前向优化演示来增强 LLLs 的推理能力，并且将得到的元梯度通过注意力应用于最终的输出预测中，从而有效地、高效地适应下游任务。

May, 2023