大型语言模型中的上下文学习：基于神经科学的表示分析

Sep, 2023

大型语言模型中的上下文学习：基于神经科学的表示分析

In-Context Learning in Large Language Models: A Neuroscience-inspired Analysis of Representations

Safoora Yousefi, Leo Betthauser, Hosein Hasanbeig, Akanksha Saran, Raphaël Millière...

TL;DR大型语言模型通过背景学习在任务导向的例子中取得了显著的性能提升。本文研究了背景学习对语言模型嵌入和注意力表示的影响，以及这些变化如何对行为改进起到中介作用。通过神经科学启发的技术，我们发现在背景学习后，嵌入和注意力表示的变化与行为性能的改善之间存在有意义的相关性，这为对 LLM 行为的潜在表示进行细致理解提供了有价值的工具和见解。

Abstract

large language models (LLMs) exhibit remarkable performance improvement through in-context learning (ICL) by leveraging task-specific examples in the input. However, the mechanisms behind this improvement remain

large language models in-context learning embeddings attention representations behavioral performance

发现论文，激发创造

探究上下文学习行为：与监督学习的比较

大型语言模型（LLMs）在上下文学习（ICL）方面展示了显着的能力，在没有明确预训练的情况下，仅通过少量的训练示例学习新任务。然而，尽管 LLMs 获得了成功，对于 ICL 如何从给定的提示中学习知识却知之甚少。在本文中，为了对 ICL 的学习行为有所了解，我们通过 ICL 和监督学习 (SL) 分别使用相同的演示示例训练相同的 LLMs，并研究它们在一系列分类任务中在标签扰动（即嘈杂标签和标签不平衡）下的表现。通过广泛的实验证明，我们首先发现黄金标签对下游上下文性能有显著影响，尤其是对于大型语言模型；然而，对于所有模型大小，不平衡标签对 ICL 的影响较小。其次，通过与 SL 进行比较，我们实证表明 ICL 对标签扰动的敏感性较低，并且随着模型大小的增加，ICL 逐渐获得与 SL 相当的性能。

Jul, 2023

大型联想记忆检索中的上下文示例

以关联记忆模型为基础，将语境检索视为上下文检索的语言模型（LLM）的一种新途径，并研究了在上下文例子对 LLM 的性能影响下，更有效的例子选择方法。

Nov, 2023

MT 中 LLM 的上下文学习能力的实证分析

探讨了大型语言模型在上下文学习中的能力，并研究了上下文演示的不同方面对机器翻译任务的影响。观察到不同模型家族对扰动示例呈现不同的行为，表明上下文学习的鲁棒性可能受到多种因素的影响。需要进一步研究来全面了解这些因素。

Jan, 2024

为什么更大的语言模型在上下文中学习方式不同？

大型语言模型（LLM）通过上下文学习（ICL）的关键能力成为 AI 的强大工具，本研究探讨了不同规模的模型在 ILC 行为上的不同性质，并在两个设定下分析了变压器的注意力机制与 ICL 的关系。

May, 2024

基于核回归的大语言模型上下文学习解析

通过研究大型语言模型，本文提出 Large language models 可以在面对语境示例时模拟核回归算法，并证明了在 Context prompts 上的贝叶斯推理可以被当作大样本上的核回归，并通过实证研究发现，LLMs 中的注意力和隐藏特征与核回归的行为相匹配，这些为 ICL 领域中观察到的多种现象提供了见解。

May, 2023

上下文语言学习：结构和算法

通过研究在背景语境中的大规模神经语言模型对正则语言的学习，我们展示了 Transformers 相对于递归或卷积模型在 in-context 语言学习任务上的显著优势，并提出硬连接高阶归纳头到递归和卷积模型可改善这个任务和自然语言建模的性能。

Jan, 2024

语言模型在上下文中学习什么？结构任务假设

本文通过一系列来自常见文本分类任务的实验，实证地探索了解释大型语言模型（LLMs）在上下文中学习的三种假设，证伪了前两种假设，并提供了支持最后一种假设的证据。结果表明，LLMs 能够通过组合在预训练期间学习的任务来上下文中学习一个新任务。

Jun, 2024

大型语言模型中的上下文学习学习标签关系但非传统学习

通过研究源自于上下文的学习能力、预训练和标签关系对大语言模型性能的影响，我们的研究发现 LLMs 通常会整合上下文标签信息，但预训练和上下文标签关系被区别对待。同时，模型并不会同等考虑所有上下文信息，这些发现有助于理解和调整 LLM 的行为。

Jul, 2023

关于上下文学习的内容：“学习” 上下文中的任务识别和任务学习的区别

本研究探讨了大型语言模型利用情境学习来解决只有少量演示的任务的机制，发现情境学习从两个方面发挥作用：任务识别和任务学习，具有不同的性质和特点。

May, 2023

关于现场学习的调查

本文概述了大型语言模型的新范式 —— 上下文学习，并探讨了训练策略和演示设计策略等高级技术，以及上下文学习所面临的挑战和未来方向。

Dec, 2022