高效非线性计算器
本文提出了一种基因 LUT 逼近算法,用于优化 Transformers 中的非线性函数的手段,该算法通过量化意识自动确定参数,并在常规和线性 Transformer 模型上实现可忽略的性能下降,同时实现了 81.3~81.7% 的面积节省和 79.3~80.2% 的功耗降低。
Mar, 2024
为了能够实现高效能的人工智能系统,电阻网络作为传统基于 GPU 的神经网络的替代方法备受关注。这些网络利用电路的物理性质进行推理,并可以通过平衡传播等本地训练技术进行优化。尽管电阻网络在功耗方面具有潜在优势,但高效模拟这些网络的挑战一直是评估其可扩展性的重要瓶颈。我们提出了一种基于理想电路元件的非线性电阻网络模拟方法,将其构建为带有线性不等式约束的二次规划问题,并使用快速、准确的坐标下降算法进行求解。我们的模拟方法在性能上远远超过现有基于 SPICE 的模拟方法,使得可以进行规模更大、速度更快的网络训练,网络尺寸与时代持续时间的比值提高了 50,000 倍。我们的方法可适用于其他电气元件,有望在非线性电路网络模拟方面推动更快的进展。
Feb, 2024
通过引入具有偶次立方非线性的简单实现的激活函数,可以提高神经网络的准确性,而不需要大量的计算资源。这部分是通过收敛性和准确性之间的显著折衷来实现的。该激活函数通过引入可优化参数来增加标准 RELU 函数的自由度,从而调整非线性程度。通过与标准技术的比较,利用 MNIST 数字数据集量化了相关的准确性提升。
Mar, 2024
通过替换传统的循环门中的乘法和 Sigmoid 函数为加法和 ReLU 激活函数,该研究提出了一种可以在更低计算成本下维持长期记忆用于序列处理的机制,从而在受限制硬件上实现更高效的执行或更大模型。此机制能够在保持较高的计算效率的同时,捕捉到序列数据的长期依赖关系,并且在 CPU 上减少了一半的执行时间,在加密环境下减少了三分之一的执行时间,实验结果表明该机制与传统的 GRU 和 LSTM 基准模型相比,能够实现可比较的准确性。同时,该机制还能避免加密变量的乘法操作,从而支持具有保护隐私的同态加密人工智能应用,并能在(非加密)明文应用中支持量化操作,潜在地带来显著的性能提升。
Aug, 2023
基于随机计算的多元非线性函数生成的硬件简化的多元通用基数有限状态机 (SMURF) 及其架构、采样门系数的分析推导以及与 Taylor 级数逼近和查找表方案相比的优越性实验证明。
May, 2024
该研究论文提出了一种将非线性引入量子机器学习中的方法,使用特征映射将经典数据导入到量子状态中,并基于混合量子计算机进行实现,提出了可实现著名的多项式回归和高斯核岭回归的编码方案,其处理信息效率具有指数级加速并且适用于大规模数据集。
Aug, 2018
提出一种基于非整数函数迭代数学概念的可参数化转移函数,允许神经元执行的操作在加法和乘法之间平滑和可微地调整,从而将决策集成到标准的反向传播训练过程中,避免了计算资源的低效分配或训练过程计算复杂度的显著增加。
Mar, 2015
本文系统地探索了双向长短期记忆神经网络(BiLSTM)的精度设计空间,包括硬件感知的训练流、FPGA 的资源成本、功耗和吞吐量可扩展性等,提供了第一个用于 LSTM 图层参数化硬件体系结构的开源 HLS 库扩展,并基于该库设计了一个针对光学字符识别的 BiLSTM 神经网络 FPGA 加速器。
Jul, 2018
介绍了一种基于非整数函数迭代数学概念的可参数化传递函数,能够使神经元执行的运算在加和乘法之间平滑、可微地调整,从而将加和乘法的决策集成到标准的反向传播训练程序中。
Apr, 2016