循环变压器在学习学习算法方面更好

Nov, 2023

循环变压器在学习学习算法方面更好

Looped Transformers are Better at Learning Learning Algorithms

Liu Yang, Kangwook Lee, Robert Nowak, Dimitris Papailiopoulos

TL;DR提出了一种使用循环变压器架构和相关训练方法的方法，旨在将迭代特性纳入变压器架构中，实现与标准变压器相媲美的性能，在解决各种数据拟合问题时使用少于 10％的参数数量。

Abstract

transformers have demonstrated effectiveness in \emph{in-context solving} data-fitting problems from various (latent) models, as reported

transformers in-context solving iterative algorithms looped transformer architecture data-fitting problems

发现论文，激发创造

关于一种变体 Looped Transformer 的表达能力

通过引入 Algorithm Transformer（AlgoFormer）的设计，我们增强了 transformers 的算法表示能力，并且实验证明了 AlgoFormer 在某些具有挑战性的任务上优于标准 transformer 和 vanilla looped transformer。

Feb, 2024

线性变换器是多功能的上下文学习器

线性 Transformer 能隐式地执行梯度下降算法和找到优化策略。

Feb, 2024

可编程计算机的环形变压器

本文提出了一种使用 transformer 网络作为通用计算机的框架，演示了一种将迭代算法映射为循环可执行程序的方法，并展示了注意力机制的多种用途。

Jan, 2023

基于 Transformer 的线性模型上下文学习中的高阶优化方法研究

Transformers 使用高阶优化方法（如迭代牛顿法）实现了上下文学习（即从示例中学习而无需参数更新），并且与梯度下降相比具有相当的收敛速度，同时在条件良好和条件差的数据上都能成功进行上下文学习。

Oct, 2023

具有 Transformer 的内存高效的持续学习

使用预训练 Transformers 并扩展它们与 Adapters，我们开发了一种方法来增量训练模型处理任务序列，成功地避免了灾难性遗忘并且在多个任务上表现良好。

Mar, 2022

学习在测试时间内学习

通过在两个嵌套循环（即学习问题）中进行学习来重新制定监督学习问题，内循环在最终预测之前对每个个体实例进行自监督学习，而外循环学习内循环使用的自监督任务，以使其最终预测得到改进，当内循环学习器仅为线性模型时，我们的内循环等效于线性注意力，而当其为核估计器时，则等效于自注意力，通过用内循环替换变压器中的线性或自注意力层，我们的外循环相当于训练该架构，当每个内循环学习器都是神经网络时，我们的方法在准确性和浮点数操作（FLOPs）方面远远超过了具有线性注意力的变压器在 ImageNet 上对 224 x 224 原始像素的准确性，而常规变压器无法运行。

Oct, 2023

循环变压器仿真图算法

我们研究了使用转换器网络在图上模拟算法的能力，并证明了该架构可以模拟 Dijkstra 最短路径算法、广度优先搜索、深度优先搜索和 Kosaraju 强连通分量算法，并展示了在有限精度下模拟的限制问题，最后证明了在额外的注意力头部利用时具有恒定宽度的图灵完备性结果。

Feb, 2024

Transformer 对于上下文中的牛顿法能模拟多好？

利用线性注意力变换器实现逻辑回归的二阶优化算法，并仅需要对数层数量的误差即可实现 epsilon 误差。

Mar, 2024

元学习变形金刚进行上下文通用学习

本文研究了通过 Meta-learning 或者说 Learning-to-learn 的方式来训练黑盒子模型成为通用的上下文学习算法，同时发现相比于标准模型，黑盒子模型训练时的瓶颈不是参数数量而是可以访问的状态大小。此外，本文提出了一些实际操作手段，如改变训练集分布来改善通用学习算法的 Meta-training 和 Meta-generalization。

Dec, 2022

基于 Transformer 的模型在学习模拟结构递归方面仍不完美

研究了基于 Transformer 模型从示例中学习结构递归的能力，探讨了该模型在性能和语义理解等方面的局限性。

Jan, 2024