无参数层学习特征

ICLRFeb, 2022

Learning Features with Parameter-Free Layers

Dongyoon Han, YoungJoon Yoo, Beomyoung Kim, Byeongho Heo

TL;DR该论文探讨采用内置无参操作替换空间操作的网络架构的有效性，实验结果表明，这种架构可以在不牺牲模型精度的情况下进一步提高网络速度和效率，尤其适用于 ImageNet 数据集。

Abstract

trainable layers such as convolutional building blocks are the standard network design choices by learning parameters to capture the global context through successive spatial operations. When designing an efficie

trainable layers convolutional building blocks parameter-free operations network efficiency imagenet dataset

发现论文，激发创造

Max-Pooling 网络的优化和泛化分析

在深度学习中，池化操作是卷积网络的核心组成部分，可以自然地处理模式检测问题，但是我们没有从理论上理解何时可以进行全局优化，过参数化对泛化的影响是什么。本论文在一个受 “判别式” 和 “虚假” 的模式检测问题启发的数据生成分布下，对卷积最大池化架构进行理论分析，证明可以进行全局优化，即使是高度过参数化的模型，也可以很好地泛化，并通过实验证实，CNN 在此设置中明显优于全连接网络。

Feb, 2020

快速稀疏卷积神经网络

本文介绍了一种使用稀疏性来代替密集操作的高效神经网络建模方法，通过实现一系列高效的稀疏基本操作，并将其用于 MobileNet v1，MobileNet v2 和 EfficientNet 等体系结构中进行了测试，表明稀疏模型不仅效率更高，而且精度比基准模型更高。

Nov, 2019

可分离层使结构化有效线性替换成为可能

本文表明，使用结构化线性分解替换点积卷积中的线性元素不仅更高效，而且还提供了在效率 / 准确性方面的达成帕累托最优的成果。

Jun, 2019

Shift: 一种零 FLOP，零参数的替代空间卷积方法

本文提出一种基于 shift 的操作，用于代替 spatial convolutions 提高神经网络的效率，并在分类、人脸识别、风格迁移等各类领域中取得了不错的表现。

Nov, 2017

深度可分离卷积在神经机器翻译中的应用

本研究探讨如何将深度可分离卷积应用于神经机器翻译任务。我们提出了一种新的基于 Xception 和 ByteNet 的架构 SliceNet，并发现深度可分离卷积能够在减少参数数量和计算量的同时获得与 ByteNet 相似的性能，同时展示了深度可分离卷积对于神经机器翻译任务的性能表现以及其带来的架构变化。

Jun, 2017

深度神经网络是否高效利用权重空间？

通过利用权重矩阵的列空间和行空间的创新概念，我们引入了一种新的方法，可以在不降低性能的情况下大幅减少模型参数，从而解决了资源受限环境下深度学习模型的参数密集性问题。该方法适用于瓶颈层和注意力层，有效地减少了一半的参数，只造成轻微性能降级。通过对 ImageNet 数据集上使用 ViT 和 ResNet50 进行的大量实验，验证了我们的方法的有效性，并表明与传统模型相比具有竞争性能。这种方法不仅满足了对参数高效的深度学习解决方案的紧迫需求，还在实际场景中具有极大的应用前景。

Jan, 2024

网络解耦：从常规到深度可分离卷积

该论文提出了一种称为网络解耦（ND）的训练方法，可以将已有的卷积神经网络模型转换到 MobileNet 等深度可分离卷积结构中，进而加速 CNN，减少严重的准确度下降。通过实验，作者证明了 ND 与其他训练 - free 方法正交，可以更大程度的加速 CNN。

Aug, 2018

重新思考 1x1 卷积：我们能否使用冻结的随机滤波器训练 CNNs？

本文研究表明，即使只初始化和不更新空间滤波器，某些 CNN 体系结构也可以通过重新解释逐点（1×1）卷积的概念来训练超越标准训练的模型，使其胜任 CIFAR 和 ImageNet 高测试精度，并具有模型鲁棒性，泛化性，稀疏性以及所需权重总数方面的良好特性。此外，我们提出了一种新的权重共享机制，可以在所有空间卷积层之间共享单个权重张量，从而大大减少权重的数量。

Jan, 2023

网络剪枝空间

本研究提出网络剪枝空间的概念，探讨子网络结构在不同剪枝范围内的最小精度损失并证明了在某个剪枝范围内存在最佳的 FLOPs-to-parameter-bucket 比率，通过实验结果表明，我们找到的子网络在合理的 FLOPs 下优于现有最先进的剪枝方法。

Apr, 2023

深度炸神经网络

本文介绍了使用单个 Fastfood 层代替卷积神经网络中的所有全连接层，并将其与卷积层结合成新的架构，名为深度炸炸卷积网络，从而大幅减少 MNIST 和 ImageNet 训练的卷积网络的内存占用并保持预测性能不变。

Dec, 2014