在数据约束下,利用平方 Sigmoid TanH(SST)激活增强顺序模型性能
本文介绍了一种名为 Truncated and Signed Square Root (TSSR) 的新型激活函数,具有奇、非线性、单调和可微分的特点,其梯度是连续且始终为正。多个实验证实,所提出的 TSSR 比其他最先进的激活函数具有更好的性能。该函数对于神经网络模型的发展具有重要意义,并可应用于计算机视觉、自然语言处理和语音识别等领域的广泛应用。
Aug, 2023
本文在深度神经网络中研究常用的饱和函数:logistic sigmoid 和双曲正切 (tanh),发现使用 logistic sigmoid 函数训练困难的原因不仅在于其非零中心属性,还在于其在原点附近的斜率过大。通过适当的重新调整,logistic sigmoid 和 tanh 函数的性能相当。接着,通过在负部分加罚项可以改进 tanh 函数,形成了 “带惩罚的 tanh” 函数,其性能甚至优于 ReLu 和 Leaky ReLU 等饱和函数。本文的结果与之前的研究结论产生冲突,表明有必要进一步研究深度架构中的激活函数。
Feb, 2016
本研究探讨了利用组合电路高效实现非线性激活函数(如 SELU 和 tanh)的方法,在 MNIST、CIFAR-10 和 IMAGENET 基准测试中表现出很高的效率和精度,相比于 LUT / 存储器实现可以节省 3.13-7.69 和 4.45-8:45 的面积,能够分别在 5.14GHz 和 4.52GHz 的时钟频率下运行。
Sep, 2018
本文介绍了一种新的符号截断对数函数作为激活函数,它具有明显更好的数学性质,如奇函数、单调性、可微性、具有无界值范围以及连续非零梯度,因此成为激活函数的卓越选择。通过与其他知名激活函数在几个著名神经网络上的比较,结果证实该函数为最先进的。该建议的激活函数可应用于激活函数必要的大范围神经网络。
Jul, 2023
本研究提出了一种名为 Sqish 的新型激活函数,作为现有激活函数的替代品,我们展示了它在分类、目标检测、分割任务和对抗性鲁棒性实验中的优越性,在 CIFAR100 数据集上,使用 ShuffleNet V2 模型在 FGSM 对抗攻击中,相较于 ReLU 取得了 8.21% 的改进,并且在 CIFAR100 数据集上,使用 ShuffleNet V2 模型进行图像分类,相较于 ReLU 取得了 5.87% 的改进。
Oct, 2023
本文提出了一种简化的 Gated Recurrent Units 架构,用于语音识别。通过去除重置门和引入 ReLU 激活函数,我们的实现在训练时间上提高了 30%以上,并在不同任务、输入特征和噪声条件下获得了相对于标准 GRU 持续改善的识别性能。
Sep, 2017
本文研究使用一种名为 TaLU 的激活函数来提高深度学习模型的分类准确度,该激活函数是 Tanh 和 ReLU 的组合,能够缓解 ReLU 的梯度消失问题,并在 MNIST 和 CIFAR-10 数据集上实现了 0%至 6%不等的准确度提高。
May, 2023
提出使用 tempered sigmoids 激活函数进行隐私保护训练,取得了 MNIST,FashionMNIST 和 CIFAR10 数据集上新的最优准确率,同时不需要修改学习过程的基本原理或差分隐私分析。
Jul, 2020
本文提出了一种基于深度条件生成模型(DCGM)的通用框架,能够同时学习多个序列之间的时序依赖关系,并通过引入三维权重张量来捕捉附加信息和序列之间的乘法交互作用。当没有侧信息时,该模型可用于半监督学习,实现鲁棒的序列分类。实验结果表明该方法在序列数据的预测和分类性能方面取得了最先进的成果,并且具有控制风格转换和融合的能力。
May, 2016
通过替换传统的循环门中的乘法和 Sigmoid 函数为加法和 ReLU 激活函数,该研究提出了一种可以在更低计算成本下维持长期记忆用于序列处理的机制,从而在受限制硬件上实现更高效的执行或更大模型。此机制能够在保持较高的计算效率的同时,捕捉到序列数据的长期依赖关系,并且在 CPU 上减少了一半的执行时间,在加密环境下减少了三分之一的执行时间,实验结果表明该机制与传统的 GRU 和 LSTM 基准模型相比,能够实现可比较的准确性。同时,该机制还能避免加密变量的乘法操作,从而支持具有保护隐私的同态加密人工智能应用,并能在(非加密)明文应用中支持量化操作,潜在地带来显著的性能提升。
Aug, 2023