应对新的顺序决策任务的泛化学习
本文提供了建立在 transformer 结构上的神经序列模型的全面统计理论,阐述其在上下文数据分布中能够实现一类广泛的标准机器学习算法,基于上下文梯度下降机制的实现,以及不同算法之间的自适应选择。
Jun, 2023
该文提出一种新的模型训练方法,称为 in-context learning,可以使 transformer 模型通过给定的输入输出对,学习出新的输入对应的输出,而无需更新参数。研究者们在极小的数据集上训练模型进行线性函数的 in-context learning,发现该模型即使出现了数据分布的改变,也能够对复杂函数进行有效和快速的学习。
Aug, 2022
通过在不断变化的数据分布下比较转换器和基于集合的 Multi-Layer 感知机的表现,研究了上下文学习的一些普遍限制,发现转换器模型更准确地模拟了最小二乘法的性能,并且对于轻微的分布移位更具有鲁棒性,但在严重分布移位的情况下,两个模型的上下文学习能力都会减弱。
May, 2023
通过示例展示了大规模语言模型通过上下文学习实现各种任务的强大能力,为解决示例选择的不稳定性问题,提出了一种基于强化学习的算法用于识别泛化策略,以选择最佳示例以提高模型性能和泛化能力。
Nov, 2022
提出了一种高层次的基于试错的方法,通过在环境中提供任务提示来实现离线强化学习的上下文学习,可以更高效地解决在线任务,并在长期任务中取得了最先进的结果。
May, 2024
此研究论文证明了 transformers 模型在前向传播中可以实现时间差异学习(TD learning)以及其他许多策略评估算法,通过使用多任务 TD 算法进行训练,并进行了理论分析。
May, 2024
本文考虑了一类顺序决策问题的受监督预训练变压器模型,并且提出了一种解决预训练变压器训练及泛化问题的自然方法,该方法通过在训练过程中包含变压器生成的动作序列来提供更好的性能。同时,文章还分析了预训练变压器作为一种算法的特性,解释了其缺乏探索性和如何自动解决此问题,并在数值上将其与结构化算法相比较。
May, 2024
为了理解上下文学习现象,最近的研究采用了一个简化的实验框架,并证明了 Transformer 可以学习各种实值函数的基于梯度的学习算法。然而,Transformer 在实现学习算法方面的局限性以及其学习其他形式算法的能力尚不明确,而这些能力在基于注意力模型中是否有限制也不清楚。此外,还需要进一步研究这些简化设置所得出的见解是否可以推广到预训练的大语言模型(LLMs)。在本研究中,我们通过以下方式来一步步回答这些问题:(a)在一个包含各种布尔函数类的测试集上,我们发现 Transformer 在更简单的任务上几乎可以与最佳学习算法相匹配,但在更复杂的任务上性能下降。此外,我们发现某些无注意力模型在一系列任务上与 Transformer 表现(几乎)一致;(b)当提供一个教学序列,即一组通过示例唯一标识一个函数类的示例时,我们发现 Transformer 学习起来更加高效。有趣的是,我们的结果表明,Transformer 可以学习实现两个不同的算法来解决一个任务,并且可以根据上下文示例的顺序自适应地选择更加高效的算法;(c)最后,我们展示了 LLMs(如 LLaMA-2、GPT-4)可以与最近邻基线在保证不在其训练集中的预测任务上竞争。
Oct, 2023
本文研究了通过 Meta-learning 或者说 Learning-to-learn 的方式来训练黑盒子模型成为通用的上下文学习算法,同时发现相比于标准模型,黑盒子模型训练时的瓶颈不是参数数量而是可以访问的状态大小。此外,本文提出了一些实际操作手段,如改变训练集分布来改善通用学习算法的 Meta-training 和 Meta-generalization。
Dec, 2022