线性约束权重：减少激活漂移以加快神经网络的训练

Mar, 2024

线性约束权重：减少激活漂移以加快神经网络的训练

Linearly Constrained Weights: Reducing Activation Shift for Faster Training of Neural Networks

Takuro Kutsuna

TL;DR在本文中，我们首先识别到神经网络中的激活偏移现象，通过线性约束权重（LCW）来减小激活偏移，研究了减小激活偏移对神经网络中变量方差的影响，并讨论其与梯度消失问题的关系。实验结果表明，LCW 能够通过解决梯度消失问题有效地训练具有 sigmoid 激活函数的深度前馈网络，并结合批标准化能够改善前馈和卷积网络的泛化性能。

Abstract

In this paper, we first identify activation shift, a simple but remarkable phenomenon in a neural network in which the preactivation value of a neuron has non-zero mean that depends on the angle between the weight vector of the neuron and the mean of the activation vector in the previo

activation shift linearly constrained weights variance vanishing gradient problem generalization performance

发现论文，激发创造

训练不变量和低秩现象：超越线性网络

本论文研究神经网络训练中的隐性偏差，探究梯度流和梯度下降的极限情况下，使用对数或指数损失函数对线性可分数据进行训练的深度线性网络的权重收敛于秩 1 矩阵的现象是否会发生于全连接层和跳跃连接层的 ReLU 激活前馈网络中，提出了一些训练不变性，并以特定参数方向收敛的 ReLU 网络的常数权重和多线性函数作为论据进行证明。

Jan, 2022

神经网络激活的齐次线性不等式约束

本文提出了一种方法来在神经网络激活中施加均匀的线性不等式约束，以结合数据驱动的训练方法和先前任务的先验知识。该算法可在测试时间内显著加速推理速度，并避免了在每个训练步骤中求解优化问题或手动调整超参数。该方法通过约束变分自编码器进行实验演示。

Feb, 2019

通过权重尺度不变正则化提高神经网络的泛化性能和鲁棒性

该研究论文介绍了一种改进神经网络正则化器的方法，该正则化器不仅能对权重衰减，还能考虑权重尺度偏移对正则化的影响，有效地限制神经网络的内在范数，并优化了对抗强度以提高泛化性能。

Aug, 2020

可训练激活函数和可控 Lipschitz 常数的深度神经网络

本研究提出了一种变分框架来学习深度神经网络的激活函数，旨在增加网络的容量并控制输入输出关系的 Lipschitz 常数的上界，其中引入了线性 Lipschitz 常数的全局界限和一个基于级联线性激活函数的无穷维度变分问题，通过在激活参数上实施 l1 约束来减少了问题的维度，从而获得了稀疏的非线性激活函数，并在标准 ReLU 网络及其变化 PReLU 和 LeakyReLU 上进行了实验验证。

Jan, 2020

联合神经元解决深度学习中的内部协变量转移问题

本文提出一种用链接神经元解决内部协变量转移和死亡神经元问题的方法，通过将多个神经元链接在一起，在保持相同操作点和至少一个非零梯度的情况下，有效避免神经元死亡，从而减少训练时间和去除归一化需求。

Dec, 2017

抬升神经网络

本文提出一种新型的神经网络构架，利用基于惩罚项的训练问题来编码激活函数，这种框架可以被应用于 block-coordinate descent 算法中，该算法可以在每次迭代中通过并行化数据点和 / 或层数来解决简单（没有隐藏层）的监督学习问题，实验结果表明该方法为标准神经网络提供了极佳的初始权重估计，并且对于使用参数优化激活函数、对抗噪声数据的拓展也提供了思路。

May, 2018

使用重量约束随机动力学进行更好的训练

本研究介绍了一种通过引入定制化约束条件来减少神经网络权重梯度消失或爆发问题、提高分类边界的平滑性以及稳定深度神经网络，从而增强训练算法的稳健性和神经网络的泛化能力的方法。同时，还通过平衡重要性的 SG-MCMC 方法将这些约束条件有效地整合到一个随机梯度 Langevin 模型中，进一步探索损失函数的空间。值得注意的是，这些优化方式不需要适应神经网络体系结构设计选择或修改目标函数的正则化项，并且在分类任务中显示出较好的性能表现。

Jun, 2021

线性变换器秘密是快速权重编程器

本研究发现线性化自注意力机制与 90 年代早期的快速权重控制器存在正式等价，提出了一种基于增量规则编程指令的快速权重编程器，用以克服近期线性化 softmax 注意力变体的存储容量限制，以及提高动态学习率的计算效率，在合成检索问题以及标准机器翻译和语言模型任务上均获得明显优势。

Feb, 2021

1-Lipschitz 神经网络基于 N - 激活的表达更加丰富

通过研究激活函数的角色，论文揭示了常用的激活函数以及两段式分段线性函数在表达函数时的局限性，并介绍了一种新的 N - 激活函数，证明其比目前流行的激活函数更具表达能力。

Nov, 2023

神经网络的等效标准化

通过引入一种快速的迭代方法，可以最小化权重的 L2 范数，同时提高了测试准确率，从而为小批量数据提供了一种替代 CIFAR-10 和 ImageNet 的 ResNet-18 中的批量和分组规范化方法

Feb, 2019