多任务训练如何影响 Transformer 的上下文能力？对功能类别的研究调查

ACLApr, 2024

多任务训练如何影响 Transformer 的上下文能力？对功能类别的研究调查

How does Multi-Task Training Affect Transformer In-Context Capabilities? Investigations with Function Classes

Harmon Bhasin, Timothy Ossowski, Yiqiao Zhong, Junjie Hu

TL;DR结合多任务学习和上下文学习，在大型语言模型中提出了有效的课程学习策略，使得模型能够高效地学习任务并对分布外的例子具有稳定的收敛性。

Abstract

large language models (LLM) have recently shown the extraordinary ability to perform unseen tasks based on few-shot examples provided as text, also known as in-context learning (ICL). While recent works have atte

large language models in-context learning multi-task learning curriculum learning strategies data efficiency

发现论文，激发创造

预训练数据混合提高 Transformer 模型选择能力

在这项研究中，我们研究了 Transformer 模型，特别是大型语言模型（LLMs），它们具有在上下文中学习的显著能力，即在未见过的输入 - 输出示例的提示下执行新任务，而无需任何显式的模型训练。我们的实证结果显示变压器在选择无监督模型和在上下文中学习不同任务家族方面表现出近乎最优的能力，但当面对超出预训练数据领域的任务或功能时，我们展示了变压器的各种失败模式和其泛化能力的退化，即使是简单的外推任务也是如此。总的来说，我们的结果强调了高容量序列模型令人印象深刻的上下文学习能力可能与其预训练数据组合的覆盖范围更紧密相关，而不是创造基本泛化能力的归纳偏差。

Nov, 2023

上下文化学习创建任务向量

使用全面实验证明，In-context learning 通常具有非常简单的结构，即对应于仅有查询 x 和从训练集计算得到的单个 “任务向量” 的 Transformer LLM，可将训练集 S 压缩为单个任务向量 θ(S)，并使用该任务向量来调节 Transformer 以产生输出。

Oct, 2023

转换器作为算法：上下文学习中的泛化和稳定性

本文介绍了 in-context learning (ICL) 的概念和算法及其在 multitask learning 领域的应用，提出了使用 transformer model 的方式，详细探讨了 ICL 在 i.i.d. 和动态数据下的泛化界限及其稳定性，以及任务复杂度和 MTL 任务数量对转移学习风险的影响。最后，提出了数值评估，并验证了理论预测。

Jan, 2023

语言模型利用交叉任务上下文学习解决数据稀缺的新任务

该研究论文探讨了大型语言模型 (LLMs) 是否能够根据不同任务示例的上下文信号来解决新任务，并设计了一个跨任务提示设置，并表明 LLMs 在无需上下文提示的情况下能够获得显著的性能提升，同时展示了模型激活相似性与跨任务示例效果之间的强相关性。

May, 2024

多层感知器学习上下文

在这项研究中，我们发现多层感知器（MLPs）和密切相关的 MLP-Mixer 模型可以像 Transformer 模型一样有效地进行上下文学习，并且在一些涉及关系推理的任务中，MLPs 表现更优，这一结果挑战了以往对简单连通模型的一些假设。

May, 2024

为什么更大的语言模型在上下文中学习方式不同？

大型语言模型（LLM）通过上下文学习（ICL）的关键能力成为 AI 的强大工具，本研究探讨了不同规模的模型在 ILC 行为上的不同性质，并在两个设定下分析了变压器的注意力机制与 ICL 的关系。

May, 2024

关于上下文学习的内容：“学习” 上下文中的任务识别和任务学习的区别

本研究探讨了大型语言模型利用情境学习来解决只有少量演示的任务的机制，发现情境学习从两个方面发挥作用：任务识别和任务学习，具有不同的性质和特点。

May, 2023

非线性变压器的高效上下文学习训练：理论学习和泛化分析

通过理论分析，我们首次探讨了具有非线性自注意力和非线性 MLP 的 Transformer 模型的训练动态和 ICL 泛化能力，重点关注一组二分类任务，研究了各种因素对 ICL 泛化性能的影响，探讨了不同组件对 ICL 性能的贡献，并首次理论分析了模型修剪对 ICL 性能的影响，证明合适的基于大小的修剪可以在降低推理成本的同时对 ICL 产生最小影响，并通过数值实验验证了这些理论结果。

Feb, 2024

概念感知训练提高语言模型的上下文学习能力

文中介绍了一种名为 CoAT 的优化方法，利用模拟训练数据来帮助语言模型更好的利用其背景知识。使用 CoAT 训练的 In-context learners 性能表现良好，达到了在多任务训练中更大规模模型的性能水平。

May, 2023

Transformer 在上下文中如何学习超越简单函数？学习表示的案例研究

大型语言模型在转换器架构的基础上展现了卓越的上下文学习能力，本研究旨在深入了解更复杂的情境中的上下文学习，并通过研究表示学习来探索其机制和性能。

Oct, 2023