仅调整规范层的表达能力
本文提出了一种仅利用 0.03% 参数的 LN-tuning 方法,通过调整 Layer Normalization 模块的增益和偏置项,实现对 PLMs 的参数高效调整,同时研究了将 LN-tuning 与其他先前方法相结合的统一框架,在 MHA 和 LayerNorm 同时调整的情况下可以获得性能提升,但在 FFN 和 LayerNorm 同时调整的情况下将导致性能下降,该方法实现了 SOTA 的性能表现。
Nov, 2022
本文揭示 BatchNorm 的固有特性,即通过学习仿射变换参数达到卓越的性能,结果表明这种方式可以实现神经网络中的显著表现。
Feb, 2020
本文探究了深度学习在医学图像上的转移学习技术,着重研究了 Batch Normalisation 层的可训练权重在 fine-tune 过程中的表现并发现只对其可训练权重 fine-tune 可以提高模型性能和收敛速度。
Feb, 2021
改进和优化 BERT 预训练模型以实现参数高效微调,通过分析不同组件,发现经过微调后,输出层规范化(LayerNorm)发生的变化最为显著。通过仅微调 LayerNorm,可以达到与完全微调和其他参数高效微调方法相当甚至更好的性能,并用 Fisher 信息确定了 LayerNorm 的关键子集,在 GLUE 基准测试中解决了许多 NLP 任务。
Mar, 2024
通过回顾和扩展简单的迁移学习思想:学习任务特定的归一化层,我们在维持竞争性性能的同时降低了计算成本,在 ImageNet-R 和 CIFAR-100 实验中,我们的方法在计算上更加经济且结果要么优于现有技术水平,要么与其相媲美。
Aug, 2023
本文提出了一种新的神经网络表达性问题的方法,其中基于轨迹长度的一维路径上的输出是一种新颖的表达形式。实验得出:(1)计算的函数复杂度随深度指数增长;(2)所有权重不同,加上轨迹正则化是批标准化的一个更简单的选择,但表现相同。
Jun, 2016
本文研究了引入规范化层对神经网络的全局收敛速度和优化效果的影响,证明了在引入 Weight Normalization 后,具有 ReLU 激活函数的两层神经网络可以加速收敛。
Jun, 2020
本文研究神经网络的宽度对其表达能力的影响,证明了 width-$(n+4)$ ReLU 神经网络是一种通用逼近器,同时存在一些无法用宽度为 $n$ 的神经网络进行逼近的函数,表现出相变现象,结果展示了深度对 ReLU 网络的表达能力比宽度更为有效。
Sep, 2017
探讨神经网络的近似能力和表达能力,对 ReLU-networks 的 $L^p$-norms 进行了最优逼近,并提出了两个表达能力的框架,对于其他规范如 Sobolev norm $W^{1,1}$ 和不同的激活函数,提出了更多问题和探讨.
May, 2023
将大型语言模型(LLMs)转换为多模式大型语言模型(MLLMs)的有效策略,通过调整 LayerNorm 来实现性能提升和模型表现力改善。该策略相较于其他调整方法具有高效性,同时进一步使用对话数据进行选择性调整能够提高效率。
Dec, 2023