探索模型架构与上下文学习能力之间的关系
该文提出一种新的模型训练方法,称为in-context learning,可以使transformer模型通过给定的输入输出对,学习出新的输入对应的输出,而无需更新参数。研究者们在极小的数据集上训练模型进行线性函数的in-context learning,发现该模型即使出现了数据分布的改变,也能够对复杂函数进行有效和快速的学习。
Aug, 2022
本文从六个方面提出了假设,指出“感应头”可能构成了大型变换器模型中大部分“上下文学习”的机制。同时,通过强因果证据和相关性证据,证明了这种感应头可能是任何大小的变压器模型中一般情况下上下文学习的来源。
Sep, 2022
本文通过三类证据说明了基于transformers的in-context learners在其激活中编码了较小的模型,并更新这些隐式模型为更加精确的预测器;而且,这些学习器学习算法的特征与最佳实践算法相似,这意味着in-context learners可以发现标准的估计算法,如梯度下降,闭式Ridge回归和最小二乘回归,实验结果验证了这个假设。
Nov, 2022
该研究探讨了大型语言模型的上下文学习能力及其理论机制,提出了基于自然语言数据中组合操作的信息理论边界,并从语言学角度验证了模型输出中间步骤的成功经验。研究表明,在缩放参数和数据并提示输出中间步骤时,模型能在多项任务中进行有效的上下文学习,这种学习得到的支持与其输入的组成结构有关。
Mar, 2023
本研究探讨了大型语言模型利用情境学习来解决只有少量演示的任务的机制,发现情境学习从两个方面发挥作用:任务识别和任务学习,具有不同的性质和特点。
May, 2023
Transformer的in-context学习能力受到in-weight component和in-context component的影响,其中好的in-weights component有利于in-context component的学习,从representation learning的角度揭示了改进in-context容量的新方法。
Sep, 2023
Transformer模型表现出上下文学习:基于输入序列中的示例,准确预测对新查询的响应。研究讨论了训练数据分布和架构方面哪些因素支持上下文学习和传统的查询-输出关系学习。研究还提出了在简化数据集上训练的最小关注网络模型,阐明了上下文学习受到诱导头突然出现的驱动。该研究建议,基于注意力的网络的明显转折是由于实现上下文学习所必需的特定多层操作链引起的。
Dec, 2023
Transformers在无需显式先前训练的情况下,基于输入示例学习和执行任务的能力,也称为上下文学习(ICL),是其成功的基础。本研究提供了关于所需样本复杂性、预训练任务多样性和上下文长度对成功ICL的明确答案,采用线性关注在ICL线性回归任务的可解模型中推导出了学习曲线的锐利渐近线。通过实验证明了随着先前训练示例数量增加,学习曲线具有双峰,且模型的行为在低和高任务多样性之间出现相变:在低多样性情况下,模型趋向于记忆训练任务,而在高多样性情况下,它实现了真正的上下文学习并在预训练任务范围之外进行泛化。这些理论洞见通过线性关注和完全非线性Transformer架构的实验进行了经验证实。
May, 2024
通过研究注意力头与人类情节记忆之间的关系,我们发现Transformers模型和自注意机制的缺失,并发现在大型语言模型中诱导头的行为、功能和机制与人类情节记忆的上下文维护和检索(CMR)模型有相似之处。我们的研究揭示了LLMs的计算机制与人类记忆之间的并行关系,为这两个研究领域提供了有价值的洞见。
May, 2024
通过探究决策边界对上下文二分类的定性行为,我们发现现有的大型语言模型在简单的二分类任务中学习到的决策边界通常是不规则且非平滑的,本论文研究了影响这些决策边界的因素,并探讨了提高它们泛化能力的方法。通过评估各种方法,包括对大型语言模型的无需训练和微调方法、模型架构的影响以及平滑决策边界的数据高效技术的有效性,我们的研究结果为理解上下文学习动态和改善其鲁棒性和泛化能力提供了更深入的认识和实用改进。
Jun, 2024