上下文语言学习：结构和算法

Jan, 2024

In-Context Language Learning: Arhitectures and Algorithms

Ekin Akyürek, Bailin Wang, Yoon Kim, Jacob Andreas

TL;DR通过研究在背景语境中的大规模神经语言模型对正则语言的学习，我们展示了 Transformers 相对于递归或卷积模型在 in-context 语言学习任务上的显著优势，并提出硬连接高阶归纳头到递归和卷积模型可改善这个任务和自然语言建模的性能。

Abstract

Large-scale neural language models exhibit a remarkable capacity for in-context learning (ICL): they can infer novel functions from datasets provided as input. Most of our current understanding of when and how ICL arises comes from LMs trained on extremely simple learning problems like

in-context learning neural sequence models transformers in-context language learning regular languages

发现论文，激发创造

关于现场学习的调查

本文概述了大型语言模型的新范式 —— 上下文学习，并探讨了训练策略和演示设计策略等高级技术，以及上下文学习所面临的挑战和未来方向。

Dec, 2022

为什么更大的语言模型在上下文中学习方式不同？

大型语言模型（LLM）通过上下文学习（ICL）的关键能力成为 AI 的强大工具，本研究探讨了不同规模的模型在 ILC 行为上的不同性质，并在两个设定下分析了变压器的注意力机制与 ICL 的关系。

May, 2024

上下文化学习创建任务向量

使用全面实验证明，In-context learning 通常具有非常简单的结构，即对应于仅有查询 x 和从训练集计算得到的单个 “任务向量” 的 Transformer LLM，可将训练集 S 压缩为单个任务向量 θ(S)，并使用该任务向量来调节 Transformer 以产生输出。

Oct, 2023

Transformer 在上下文中如何学习超越简单函数？学习表示的案例研究

大型语言模型在转换器架构的基础上展现了卓越的上下文学习能力，本研究旨在深入了解更复杂的情境中的上下文学习，并通过研究表示学习来探索其机制和性能。

Oct, 2023

从数据生成的角度探究应境学习的机制

通过数据生成的视角重新解释最近的努力，并展示了流行技术解决方案的潜在更广泛的用途，接近了一个系统的角度。对于概念定义，我们严格采用技能学习和技能识别的术语。我们还对不同解决方案的优点和缺点进行了全面研究，并突显了在数据生成视角下它们之间的统一性，为未来研究结合不同研究线路的优势建立了技术基础。

Feb, 2024

基于核回归的大语言模型上下文学习解析

通过研究大型语言模型，本文提出 Large language models 可以在面对语境示例时模拟核回归算法，并证明了在 Context prompts 上的贝叶斯推理可以被当作大样本上的核回归，并通过实证研究发现，LLMs 中的注意力和隐藏特征与核回归的行为相匹配，这些为 ICL 领域中观察到的多种现象提供了见解。

May, 2023

Transformers 作为统计学家：具有证明的上下文学习和上下文算法选择

本文提供了建立在 transformer 结构上的神经序列模型的全面统计理论，阐述其在上下文数据分布中能够实现一类广泛的标准机器学习算法，基于上下文梯度下降机制的实现，以及不同算法之间的自适应选择。

Jun, 2023

大型语言模型中的上下文学习：基于神经科学的表示分析

大型语言模型通过背景学习在任务导向的例子中取得了显著的性能提升。本文研究了背景学习对语言模型嵌入和注意力表示的影响，以及这些变化如何对行为改进起到中介作用。通过神经科学启发的技术，我们发现在背景学习后，嵌入和注意力表示的变化与行为性能的改善之间存在有意义的相关性，这为对 LLM 行为的潜在表示进行细致理解提供了有价值的工具和见解。

Sep, 2023

走向更统一的上下文视觉理解

我们提出了一种新的具有多模态输出功能的视觉理解的上下文学习框架，通过将文本和视觉提示量化和嵌入到统一的表示空间中，并采用仅具有解码器的稀疏 Transformer 架构在其上执行生成建模。实验结果表明，我们的模型在统一的多模态管线中实现了与专门模型和先前上下文学习基准模型相竞争的性能。总体而言，我们的研究在统一多模态上下文学习方面迈出了进一步的一步。

Dec, 2023

面向视觉与语言模型的多模态上下文学习

通过对一些最先进的 VLM（Visual Language Model）进行分析，我们发现它们在执行 ICL（In-Context Learning）指令时存在一定的不足。为了验证这个猜想，我们提出了一种简单但令人惊讶地有效的策略，通过扩展一个常见的 VLM 对齐框架，实现 ICL 支持、方法和课程设置。我们探讨、分析并提供了对有效数据混合的见解，从而显著提升了 21.03% 的 ICL 表现（平均 11.3%），超过了最强 VLM 基线和多种 ICL 基准，并为 VLM 的 ICL 评估贡献了新的基准，并讨论了它们相对于现有技术的优势。

Mar, 2024