- 使用深度内核整形快速训练深度神经网络,无需跳跃连接或标准化层
通过神经切线核理论和 Deep Kernel Shaping 方法,我们成功控制了深度神经网络的初始化时间内核函数的 “形状”,实现了无归一化层的残差网络的快速 SGD 训练,并同时提高了一些传统上性能非常差的激活函数的结果。
- 深度学习中的激活函数:综述和基准比较
本论文综述了深度学习神经网络中激活函数的综合评估与调查,并对不同类型的激活函数进行了分类和性能比较。
- MM使用循环神经网络实现英文至孟加拉语机器翻译
本文描述了一种利用循环神经网络实现英语到孟加拉语机器翻译的系统架构,采用了基于知识的上下文向量来映射英语和孟加拉语单词,并且通过使用不同的激活函数,分别在编码器层利用线性激活函数,在解码器层采用了 tanh 激活函数。其中,GRU 比 LS - 随机特征和神经切向法中记忆和鲁棒性之间的基本折衷
本文研究了两层神经网络在各种高维线性化模式下的(非)鲁棒性,并确立了模型复现和鲁棒性之间的基本权衡。
- 深度神经网络的可证明修复
本文提出了可证明修复问题,即在发现不安全行为后修复神经网络 (DNN) 的问题,并介绍了可用于有限点和凸多面体等安全规范的 Provable Point 和 Provable Polytope 修复算法,以及 Decoupled DNN 结 - 使用分段线性单元学习专业的激活函数
提出了一种新的激活函数 Piecewise Linear Unit,它可以学习专门的激活函数,并在大规模数据集上获得 SOTA 性能,比 Swish 在 ImageNet 分类数据集上分别提高了 0.9%/0.53%/1.0%/1.7%/1 - PRIMA: 通过可扩展的凸包逼近实现通用和精确的神经网络认证
本文介绍了一个名为 PRIMA 的新验证框架,它可以处理任何非线性激活函数,通过利用来自计算几何的新型凸包逼近算法计算多个神经元的精确凸性抽象,能够比现有技术更精确地验证 ReLU、Sigmoid 和 Tanh 网络,并且有助于实现对自动驾 - 高斯过程对神经网络的非渐进逼近
本文研究了随机初始化的宽神经网络能否通过高斯过程来近似。我们在一个无限维函数空间中建立明确的收敛速率,说明了两种不同的情况:同时激活函数的次数和函数的平滑度会决定高斯过程的收敛速度。
- AAAI使用近似梯度下降学习图神经网络
该论文提供了第一个针对具有一个隐层节点信息卷积的图神经网络(GNN)的可证明有效的学习算法,并开发了一种综合性框架来设计和分析 GNN 训练算法的收敛性。提出的算法适用于各种激活函数,包括 ReLU,Leaky ReLU,Sigmoid,S - AAAI将神经网络参数初始化转化为 SMT 问题
本文研究神经网络参数初始化的问题,利用 SMT 求解器降低初始化的难度,试图寻找更好的初始化方案,实验证实该方法在深层网络上比随机初始化的方法效果更好,针对不同的激活函数也取得了显著的优势。
- 深度学习中的固定激活函数用于不确定性校准
介绍了一种新的基于 Matern 家族核函数的非线性神经网络激活函数,具有一定的局部平稳性和多样的可微性,表现出良好的表现和不确定性校准能力,并在分类和回归基准测试和雷达发射机分类任务中得到了证明。
- 揭示对范数受限对抗样本的对抗训练极限
探索对抗训练的极限,发现了通过结合更大的模型、Swish/SiLU 激活函数和模型权重平均化可以训练出强健模型,同时在 CIFAR-10 和 CIFAR-100 数据集上有了大幅度的提升。
- MMAMITE: 一种用于分析神经网络非线性的新型多项式扩展
本文提出了一种新颖的基于积分变换的扩展方法(AMITE),可以更准确地分析神经网络非线性,包括多项式扩展、范围约束等等,和现有的 Chebyshev 和 Taylor 方法相比,AMITE 是第一种同时提供所有所需文化方法的方法,展示了它的 - 深度多项式神经网络
本文提出了一种基于多项式扩展的新型函数逼近器 ——π- 网,它是多项式神经网络,通过具有共享因子的张量集合分解来估计自然表示的未知参数,可用于许多任务和信号的表达建模,并在激活函数的辅助下在图像生成、人脸验证和 3D 网格表示学习等任务中实 - SPLASH: 可学习的激活函数用于提高准确性和对抗鲁棒性
本文介绍了 SPLASH unit 这一种可学习的激活函数,该函数不仅能提高深度神经网络的准确性,还能提高其对抗攻击的鲁棒性。相较于其他九种常见的学习型和固定型激活函数,SPLASH units 表现更优,能够适应各种非线性函数,可以使包括 - 通过信息瓶颈理解二元神经网络的学习动态
本文从信息瓶颈原理的角度分析了二值神经网络的训练动态,发现其不同于深度神经网络,同时发现二值神经网络会在表示压缩和损失拟合之间同时进行,从而发现其训练动态与激活函数无关
- 现代可训练激活函数调查
本文系统总结了神经网络领域可训练激活函数的不同模型,提出了这类函数的分类法,并探讨了其优缺点,进一步表明这些方法很多等价于添加使用固定(不可训练)激活函数和一些简单的局部规则来约束相应的权重层的神经元层,从而促进了神经网络的性能。
- CVPRLSQ+: 通过可学习 offset 和更优的初始化改进低比特量化
通过引入可训练的缩放和偏移参数的通用不对称量化方案,以学习如何适应负激活,LSQ + 提出了一种自然的 LSQ 扩展。结果显示,LSQ + 对于 EfficientNet 和 MixNet 表现出最先进的结果,并且在低位量化神经网络时(如: - 演化归一化激活层
提出一种基于自动化方法设计规范化层和激活函数的新方法来克服规范化 - 激活函数共用空间大的挑战。将它们统一为单个张量到张量计算图,并从基本数学函数开始演化其结构,最终发现了一组新的 norm-activation 层 EvoNorms,这些 - 通过神经网络梯度下降无超参数化地记忆高斯函数
本文证明了从正交初始化开始,使用 gradient descent 算法,对于深度网络中的一个步骤,使用 q 个 hidden neurons 可以在 Rd 上学习记忆 Ω(dq/log^4 (d)) 个独立的、随机标记的高斯函数,结论适用