基于神经 ODE 的高性价比 FPGA 实现的微型 Transformer 模型

Jan, 2024

基于神经 ODE 的高性价比 FPGA 实现的微型 Transformer 模型

A Cost-Efficient FPGA Implementation of Tiny Transformer Model using Neural ODE

Ikumi Okubo, Keisuke Sugiura, Hiroki Matsutani

TL;DR使用神经 ODE 作为骨干架构，我们显著减少了混合模型的参数大小，并将提出的 FPGA 实现部署在资源有限的 FPGA 设备上，从而实现了 12.8 倍的加速和 9.21 倍的能量效率。

Abstract

transformer is an emerging neural network model with attention mechanism. It has been adopted to various tasks and achieved a favorable ac

transformer neural network model attention mechanism hybrid model fpga implementation

发现论文，激发创造

ODE Transformer: 序列生成的普通微分方程启发模型

本文研究残差网络与解常微分方程的欧拉离散化之间的关系，并将欧拉离散化方法运用于 Transformer 中，提出一种新的 ODE Transformer 架构，实现简单高效，在机器翻译、摘要生成和语法错误修正等任务上具有较高的泛化能力和性能提升。

Mar, 2022

Transformer 层的神经 ODE 解释

本文提出了一种修改 Transformer 层内部结构的方法，将多头注意力子层和 MLP 子层并行布置，并且结合使用神经 ODE 求解器的高级积分方案，提高了 Transformer 网络在多个任务中的性能。

Dec, 2022

用 Transformer 预测常微分方程

我们使用基于 Transformer 的序列到序列模型，从单个解轨迹的不规则采样和嘈杂观测数据中恢复标量常微分方程（ODE）的符号形式。通过广泛的实证评估，我们证明我们的模型在各种环境下表现出更好或与现有方法相当的精确恢复能力。此外，我们的方法具有高效的可扩展性：在一次对大量 ODE 进行预先训练后，我们可以在模型的几次正向传递中推断出新观测解的控制规律。

Jul, 2023

在低功耗 MCU 上优化微型 Transformer 的部署

本研究提出了一种在商业微控制器上对 Transformer 模型进行端到端部署的优化框架，通过优化库和新的推理调度方案，在多个 MCU 平台上实现了更低的延迟和能量消耗。

Apr, 2024

用于连续高效时间序列建模的粗糙变换器

在医学背景下，基于时间序列的数据通常具有长程依赖并且在非均匀时间间隔下进行观察。为了解决这个问题，研究者们用基于神经 ODE 的模型取代了传统的基于序列的循环模型，来对不规则采样的数据进行建模，并使用基于 Transformer 的架构解决长程依赖的问题。尽管这两种方法都取得了成功，但是对于中等长度的输入序列而言，它们都需要非常高的计算代价。为了缓解这个问题，我们引入了 Rough Transformer，这是 Transformer 模型的一种变体，它能够对连续时间表示的输入序列进行操作，并且具有显著减少的计算代价，这对于处理医疗背景下的长程依赖是至关重要的。具体而言，我们提出了多视角签名注意力，它利用路径签名来增强原始注意力，并在输入数据中捕捉局部和全局依赖关系，同时对序列长度和采样频率的变化保持稳健性。我们发现，Rough Transformers 在合成和真实的时间序列任务中，始终优于其原始注意力对照组，并且只需要部分计算时间和存储资源，就能够获得基于神经 ODE 模型的好处。

Mar, 2024

使用 Transformer 进行偏微分方程的多尺度时间步进

使用 Transformer 神经网络结构学习物理系统的动力学，混合了卷积自编码器学习的空间模式。模型在预测 Navier-Stokes 方程的时间演化方面取得了与 Fourier Neural Operator（FNO）和 OFormer、Galerkin Transformer 两种基于 Transformer 的神经算子相当或更好的结果。

Nov, 2023

在 FPGA 上高效实现多层梯度免费在线可训练的脉冲神经网络

本论文提出了一种高效的硬件实现方式，可以有效地实现最近提出的经过优化的深度事件驱动尖峰神经网络体系结构（ODESA），该结构是第一个具有端到端多层在线本地监督训练而不使用梯度的网络，并具有有效的分层结构的权重和阈值的组合自适应性。通过使用简单的局部自适应选择阈值，WTA 约束以及对硬件更加友好的改进的权重更新规则，在不使用反向传播的情况下，该所有层具有在线自学习功能。通过事件驱动的二进制脉冲交互，并减少硬件要求，硬件优化的实现保持了多个时空分类问题上的原始算法的性能。

May, 2023

基于神经常微分方程的循环神经网络模型

该研究论文介绍了一种使用 ODE 的时间序列数据分析方法，提出基于 ODE 的 RNN 模型，可在较短的训练时间内学习具有不规则采样率的连续时间序列，并且计算效率更高、精度更高、设计更简单。

May, 2020

利用 Transformer 作为具有有限规律性的微分方程求解的神经算子

神经算子学习模型被证实为部分微分方程在各种应用中的高效代理方法，本文通过建立理论基础将变压器作为算子学习模型实现通用逼近性，并应用于预测具有不同初始条件和强迫项的有限正则性动力学系统的解。

May, 2024

基于 FPGA 的粒子物理实验的超快速变压器

本文介绍了在可编程门阵列 (FPGA) 上使用 hls4ml 工具实现变压器架构的高效实现。通过使用变压器模型在解决各种问题方面的有效性的证明，其在粒子物理实验触发器中的应用成为了一个引人关注的课题。在这项工作中，我们实现了变压器模型的关键组成部分，如多头注意力和 softmax 层。为了评估我们的实现的有效性，我们专注于一个粒子物理学喷注风味标记问题，并使用了一个公共数据集。我们在 Xilinx UltraScale+ FPGA 上记录了低于 2 微秒的延迟，该延迟符合 CERN 大型强子对撞机实验的硬件触发器要求。

Feb, 2024