递归 Gemma：超越变压器实现高效的开放式语言模型

Apr, 2024

递归 Gemma：超越变压器实现高效的开放式语言模型

RecurrentGemma: Moving Past Transformers for Efficient Open Language Models

Aleksandar Botev, Soham De, Samuel L Smith, Anushan Fernando, George-Cristian Muraru...

TL;DR我们介绍了一个开放的语言模型，使用了谷歌的全新的 Griffin 架构。Griffin 结合了线性递归和局部注意力，在语言方面有出色的表现。它具有固定大小的状态，可减少内存使用并在长序列上实现高效的推理。我们提供了一个已经预训练的模型，其中包含 2B 个非嵌入参数，还有经过调整的指令变种。尽管这两个模型的训练标记较少，但它们都实现了与 Gemma-2B 相当的性能。

Abstract

We introduce recurrentgemma, an open language model which uses Google's novel griffin architecture. Griffin combines →

recurrentgemma griffin architecture language model linear recurrences local attention

发现论文，激发创造

预训练图循环网络用于语言表示

本研究提出了一种基于图循环网络的语言模型预训练方法，其在性能、效率和生成多样性方面优于基于注意力机制的 Transformer，用于自监督学习的时候有较高的潜力。

Sep, 2022

块循环变压器

本文提出 Block-Recurrent Transformer 模型，运用 transformer layer 实现序列的循环，以及利用 LSTM-style gates 实现参数可扩展性，改进了常规 transformer layer 对语言模型的瓶颈问题，效果优于 Transformer XL，模型已开源。

Mar, 2022

缓存变形器：利用可微记忆缓存改进变形器

引入一种名为 Cached Transformer 的新型 Transformer 模型，采用门控循环缓存（GRC）注意力扩展了自注意机制，实现可微分的令牌记忆缓存。GRC 注意力使得可以关注过去和当前的令牌，增大了注意力的感受野，可用于探索长距离的依赖关系。通过使用循环门控单元持续更新缓存，我们的模型在六种语言和视觉任务中实现了显著的进展，包括语言建模、机器翻译、ListOPs、图像分类、物体检测和实例分割。此外，我们的方法超越了先前基于记忆的技术在语言建模等任务中的性能，并展示了适用于更广泛场景的能力。

Dec, 2023

N-Grammer: 使用潜在 n-gram 扩充 Transformer

本研究提出了一种新的改进 Transformer 模型的方法，使用了文本序列中的离散潜在表示构造 n-gram，并应用于语言建模和文本分类中，经实验证明性能优于传统的 Transformer 模型和 Primer，该模型已在 Jax 中开源以便复现。

Jul, 2022

Transformer 循环建模

研究表明，Transformer 模型虽然仅基于注意力机制，但缺乏循环机制限制了其翻译能力的提高，本文提出使用一个额外的循环编码器来直接建模循环，并引入一种新的注意力循环网络来结合注意力和循环网络的优点，在 WMT14 英汉和 WMT17 中英机器翻译任务中取得了良好的表现，研究同时发现通过一个单循环层将源序列和目标序列相连可以显著提高模型性能。

Apr, 2019

简单递归改善遮蔽语言模型

本文研究在 Transformer 架构中引入循环模块是否可以提高性能，实验结果表明，引入循环模块可以提高 Transformer 模型的稳定性和性能，而不需要使用低层次的性能优化方法，并且参数数量保持不变。

May, 2022

关于循环模型在长序列中的复兴：变形器时代的调研和研究机会

深度学习中基于 Transformer 和循环神经网络的顺序处理对于处理长序列数据和无限长度序列数据具有重要意义。

Feb, 2024

回归语言循环模型

使用稍微优化的递归单元、架构、目标和优化算法结合，可以在小数据集和 enwik8 动态评估上建立新的语言建模现有技术水平。

Nov, 2022

TimelyGPT: 长时序表示的循环卷积变换器

该研究通过重新审视时间序列变压器并确定先前研究的不足，引入了一种名为 Timely Generative Pre-trained Transformer 的创新架构。该架构通过整合递归注意力和时间卷积模块来有效地捕获长序列中的全局 - 局部时间依赖关系，并利用相对位置嵌入和时间衰减处理趋势和周期模式。实验结果表明，该模型在建模连续监测生物信号以及纵向电子健康记录中经常出现的非规则采样时间序列数据方面表现出色，这一突破意味着时间序列深度学习研究的优先级转向了大规模预训练而非从头开始的小规模建模。

Nov, 2023

图形转换器用于图形到序列学习

本文提出了一种名为 “图变压器” 的模型，使用显式关系编码并允许两个远程节点之间的直接通信。与局部邻域信息交换的图神经网络不同，它提供了一种更有效的全局图结构建模方式，并在抽象意义表示文本生成和基于句法的神经机器翻译应用中表现出优异的性能。

Nov, 2019