通过引入 Algorithm Transformer(AlgoFormer)的设计,我们增强了 transformers 的算法表示能力,并且实验证明了 AlgoFormer 在某些具有挑战性的任务上优于标准 transformer 和 vanilla looped transformer。
Feb, 2024
线性 Transformer 能隐式地执行梯度下降算法和找到优化策略。
本文提出了一种使用 transformer 网络作为通用计算机的框架,演示了一种将迭代算法映射为循环可执行程序的方法,并展示了注意力机制的多种用途。
Jan, 2023
Transformers 使用高阶优化方法(如迭代牛顿法)实现了上下文学习(即从示例中学习而无需参数更新),并且与梯度下降相比具有相当的收敛速度,同时在条件良好和条件差的数据上都能成功进行上下文学习。
Oct, 2023
使用预训练 Transformers 并扩展它们与 Adapters,我们开发了一种方法来增量训练模型处理任务序列,成功地避免了灾难性遗忘并且在多个任务上表现良好。
Mar, 2022
通过在两个嵌套循环(即学习问题)中进行学习来重新制定监督学习问题,内循环在最终预测之前对每个个体实例进行自监督学习,而外循环学习内循环使用的自监督任务,以使其最终预测得到改进,当内循环学习器仅为线性模型时,我们的内循环等效于线性注意力,而当其为核估计器时,则等效于自注意力,通过用内循环替换变压器中的线性或自注意力层,我们的外循环相当于训练该架构,当每个内循环学习器都是神经网络时,我们的方法在准确性和浮点数操作(FLOPs)方面远远超过了具有线性注意力的变压器在 ImageNet 上对 224 x 224 原始像素的准确性,而常规变压器无法运行。
我们研究了使用转换器网络在图上模拟算法的能力,并证明了该架构可以模拟 Dijkstra 最短路径算法、广度优先搜索、深度优先搜索和 Kosaraju 强连通分量算法,并展示了在有限精度下模拟的限制问题,最后证明了在额外的注意力头部利用时具有恒定宽度的图灵完备性结果。
利用线性注意力变换器实现逻辑回归的二阶优化算法,并仅需要对数层数量的误差即可实现 epsilon 误差。
Mar, 2024
本文研究了通过 Meta-learning 或者说 Learning-to-learn 的方式来训练黑盒子模型成为通用的上下文学习算法,同时发现相比于标准模型,黑盒子模型训练时的瓶颈不是参数数量而是可以访问的状态大小。此外,本文提出了一些实际操作手段,如改变训练集分布来改善通用学习算法的 Meta-training 和 Meta-generalization。
Dec, 2022
研究了基于 Transformer 模型从示例中学习结构递归的能力,探讨了该模型在性能和语义理解等方面的局限性。
Jan, 2024