PEFSL:用于 FPGA SoC 的嵌入式少样本学习部署管线
本研究通过使用神经网络架构、外部数据预训练和很少有标签的数据进行微调的三阶段流水线,探索了少样本学习的问题。研究发现,使用 transformer 的简单流水线在 Mini-ImageNet,CIFAR-FS,CDFSL 和 Meta-Dataset 等数据集上获取了惊人的表现。
Apr, 2022
本文介绍了用于解决 SLAC 数据实验的高速探测器的存储问题的解决方案 —— 用机器学习技术在边缘计算设备上实现实时数据处理的 SLAC 神经网络库框架,该框架采用基于 FPGA 的加速器来实现 ML 解决方案,并且支持所有权重的 RTL 重训练和恢复。
May, 2023
在嵌入式 FPGA 中,通过混合量化方案加速极低比特宽度神经网络(ELB-NN),提出了一种设计流程,既涵盖了网络的训练,也包含了基于 FPGA 的网络部署,从而方便设计者探索设计空间,简化网络精度和计算效率之间的权衡,巧妙地在资源和功耗限制条件下提供边缘设备中的网络加速器,实现高达 10.3 TOPS 的高性能,每瓦分类达到 325.3 张图像。在文献中,我们比较了 GPU 或其他 FPGA 实现,结果显示出目前最省能的解决方案。
Jul, 2018
使用嵌入式可编程门阵列(eFPGA)技术在应用特定集成电路(ASIC)的设计中实现可重构逻辑,将 ASIC 的低功耗和高效性与 FPGA 的易配置性相结合,尤其适用于下一代对撞机实验数据流中的机器学习用例。通过开源框架 “FABulous”,设计了使用 130 纳米和 28 纳米 CMOS 技术节点的 eFPGA,并经过测试进行了验证。通过模拟高能粒子经过硅像素传感器和基于机器学习的分类器的测试,验证了 eFPGA 作为前端读出芯片的能力。通过在 eFPGA 上成功合成和配置传感器数据的降维算法,以完美准确度复现了预期算法结果。讨论了对 eFPGA 技术的进一步发展以及其在对撞机探测器读出中的应用。
Apr, 2024
介绍了基于 FPGA 进行神经网络推理的案例研究,其使用高级综合技术(HLS)构建机器学习模型,旨在为粒子物理学的高速实时事件处理提供支持,适用于很多场合,如寻找新的暗扇区粒子和测量希格斯玻色子等。
Apr, 2018
本研究介绍了一种在线少样本增量学习(O-FSCIL)方法,该方法通过使用预训练和元学习的特征提取器以及存储类别原型的可扩展显式内存,使机器学习系统能够仅使用少量标记示例来扩展其推理能力,同时不会忘记先前学习的类别。O-FSCIL 在 FSCIL CIFAR100 基准测试中获得了 68.62%的平均准确率,实现了最先进的结果。针对超低功耗平台,我们将 O-FSCIL 实现在 60 mW 的 GAP9 微控制器上,仅使用 12 mJ 的能量来展示在线学习能力。
Mar, 2024
本文介绍一种基于 Tensorflow 的开源工具流,可以将数值计算模型映射到可合成硬件,从而生成深度神经网络。这种工具流使用户可以用很少的 Python 代码生成计算深度神经网络。
Jul, 2018
本研究提出了动态流式传输模型参数和基于库的方法来实现传统 CNN 架构的可扩展和动态分布式 CNN 推断,利用部分重构技术提高了资源受限的边缘设备的性能,并在 Xilinx PYNQ-Z2 板上实现了 LeNet-5 CNN 模型,具有 92%,86%和 94%的分类准确率。
Feb, 2022
本文介绍了一种修改版 CNN 框架 Caffe,该框架支持 FPGA 实现,并使用 Xilinx SDAccel 环境实现了基于 FPGA 的 Winograd 卷积引擎,能够与其他运行在主机处理器上的层一起运行几个流行的 CNN 模型,取得了 50 GFLOPS 的成果。
Sep, 2016
本文提出了一个使用 Synchronous Dataflow(SDF)模型的端到端框架 fpgaConvNet,该框架可用于将卷积神经网络 (ConvNets) 映射到 FPGAs 上,实现了对性能度量的有效优化,并在嵌入式环境中将性能提高了最高 6.65x。
Nov, 2017