通过贝叶斯透镜进行上下文学习
该文提出一种新的模型训练方法,称为 in-context learning,可以使 transformer 模型通过给定的输入输出对,学习出新的输入对应的输出,而无需更新参数。研究者们在极小的数据集上训练模型进行线性函数的 in-context learning,发现该模型即使出现了数据分布的改变,也能够对复杂函数进行有效和快速的学习。
Aug, 2022
本文通过三类证据说明了基于 transformers 的 in-context learners 在其激活中编码了较小的模型,并更新这些隐式模型为更加精确的预测器;而且,这些学习器学习算法的特征与最佳实践算法相似,这意味着 in-context learners 可以发现标准的估计算法,如梯度下降,闭式 Ridge 回归和最小二乘回归,实验结果验证了这个假设。
Nov, 2022
本研究探讨了大语言模型中的上下文学习现象,并证明了基于长期相关性的预训练可以促进上下文学习。通过人工合成数据集,实验结果表明了模型规模对上下文学习的影响,以及例子顺序和零样本学习等现象。
Nov, 2021
本文介绍了大型语言模型在上下文学习中的递归学习能力,即元上下文学习。作者以两个理想化的领域为例,展示了元上下文学习是如何适应性地重塑大型语言模型对预期任务的先验知识,并修改其上下文学习策略。最后,作者通过真实世界回归问题的基准测试发现,元上下文学习与传统学习算法相比具有有竞争力的性能。通过元上下文学习而不是传统的 finetuning 来纯粹地适应大型语言模型应用的环境,可以提高大家对上下文学习的理解,为大型语言模型的应用打下基础。
May, 2023
本研究提出了一个基于 PAC 理论的框架来探究上下文学习及其可学性,发现在语言模型的参数保持不变的情况下,通过将下游任务的训练示例包含在其输入中,可以调整模型以执行各种下游自然语言处理任务,预训练分布是潜在任务的混合时,这些任务可以通过上下文学习有效地学习,这种学习更多地是关于识别任务而不是学习任务,并希望这一研究框架为深入理解上下文学习的新学习范式打下基础。
Mar, 2023
为了理解上下文学习现象,最近的研究采用了一个简化的实验框架,并证明了 Transformer 可以学习各种实值函数的基于梯度的学习算法。然而,Transformer 在实现学习算法方面的局限性以及其学习其他形式算法的能力尚不明确,而这些能力在基于注意力模型中是否有限制也不清楚。此外,还需要进一步研究这些简化设置所得出的见解是否可以推广到预训练的大语言模型(LLMs)。在本研究中,我们通过以下方式来一步步回答这些问题:(a)在一个包含各种布尔函数类的测试集上,我们发现 Transformer 在更简单的任务上几乎可以与最佳学习算法相匹配,但在更复杂的任务上性能下降。此外,我们发现某些无注意力模型在一系列任务上与 Transformer 表现(几乎)一致;(b)当提供一个教学序列,即一组通过示例唯一标识一个函数类的示例时,我们发现 Transformer 学习起来更加高效。有趣的是,我们的结果表明,Transformer 可以学习实现两个不同的算法来解决一个任务,并且可以根据上下文示例的顺序自适应地选择更加高效的算法;(c)最后,我们展示了 LLMs(如 LLaMA-2、GPT-4)可以与最近邻基线在保证不在其训练集中的预测任务上竞争。
Oct, 2023
通过在不断变化的数据分布下比较转换器和基于集合的 Multi-Layer 感知机的表现,研究了上下文学习的一些普遍限制,发现转换器模型更准确地模拟了最小二乘法的性能,并且对于轻微的分布移位更具有鲁棒性,但在严重分布移位的情况下,两个模型的上下文学习能力都会减弱。
May, 2023
本文研究了 Transformer 在线性回归任务上的训练,考虑了条件期望和条件方差的双目标预测任务,提供了不确定性量化目标,并揭示了训练 Transformer 接近贝叶斯最优的理论性质,以及在处理任务转移时表现不同于贝叶斯推断的能力。
May, 2024
通过梯度下降训练的具有 softmax 注意力机制的单层 transformer 在学习线性函数类的上下文学习动态方面取得了进展,并对平衡和不平衡特征数据进行了分析,证明了其收敛性和预测误差。
Oct, 2023
Transformer 模型表现出上下文学习:基于输入序列中的示例,准确预测对新查询的响应。研究讨论了训练数据分布和架构方面哪些因素支持上下文学习和传统的查询 - 输出关系学习。研究还提出了在简化数据集上训练的最小关注网络模型,阐明了上下文学习受到诱导头突然出现的驱动。该研究建议,基于注意力的网络的明显转折是由于实现上下文学习所必需的特定多层操作链引起的。
Dec, 2023