- ICLR卷积神经网络、局部感受野网络和完全连接网络在图像任务中的地域性和权重共享作用:一种样本复杂度分离
传统卷积神经网络在视觉任务中通过局部性和权重共享的归纳偏差来获得出色的性能。本研究通过引入动态信号分布分类任务,证明了在平移不变任务中,卷积神经网络相比于局部连接卷积神经网络和全连接神经网络具有统计优势,并展示了在本地任务中,局部连接卷积神 - 大型语言模型的头部共享注意力
本文提出了一个关于大型语言模型的关注头权重共享的方法,并提出了两种内存高效的共享参数的方法,即 DirectShare 和 PostShare。实验结果表明,我们的关注头共享模型仍然保持了令人满意的性能,证明了将细粒度的权重共享应用于大型语 - 动态层绑定用于参数高效的 Transformer
通过强化学习在训练期间动态选择层并将它们绑定在一起,我们可以减少深度转换网络中可训练参数的数量。实验评估表明,相对于基准转换模型,我们的模型在困惑度方面略有改善,并且大大减少了可训练参数的数量。特别地,在训练期间的内存消耗比传统训练方法低一 - 权重纠缠与基于梯度的神经架构搜索
本文旨在通过提出一种新的方案,将基于梯度的方法适应于权重相互关联的空间,从而弥合这两个子社区之间的差距,并深入比较评估梯度优化方法在权重相互关联的搜索空间中的性能,结果发现这种权重相互关联和基于梯度的 NAS 的整合带来了增强性能、改善超网 - 探究共享权重决策对连续学习中的知识迁移的影响
通过研究不同的权重共享决策对任务间的转移学习的影响,本文揭示了任务的复杂性和相似性对最佳权重共享决策的影响,并通过实验验证了在符合研究结果支持的权重共享决策下,相较于其他决策,可以提高任务准确性。
- 在位置 - 方向空间中通过权重共享实现快速高效的 SE$(n)$ 等变网络
基于均匀空间理论,我们得出了在灵活的消息传递框架中使用的几何最优边属性,将卷积网络中的权重共享定义为在应该等同处理的点对上共享消息函数的共享点对的等价类,并导出能够唯一标识这些等价类的属性。我们通过在处理 3D 点云时开发了一种高效的等变群 - 深度卷积网络中归纳偏见的理论分析
本文研究卷积神经网络中的归纳偏差,证明了一定深度下 CNN 可以进行连续函数的逼近以及 CNN 具有吸收长距离稀疏相关性的能力,并通过对称性分析证明权重共享与局部性对学习的重要性。
- 重新思考 1x1 卷积:我们能否使用冻结的随机滤波器训练 CNNs?
本文研究表明,即使只初始化和不更新空间滤波器,某些 CNN 体系结构也可以通过重新解释逐点(1×1)卷积的概念来训练超越标准训练的模型,使其胜任 CIFAR 和 ImageNet 高测试精度,并具有模型鲁棒性,泛化性,稀疏性以及所需权重总数 - ECCV面向不同计算平台的无回归神经网络
这篇研究论文介绍了 REG-NAS (基于回归约束的神经架构搜索),通过增加网络中的权重共享,将 Neural Architecture Search 中出现的样本级预测不确定性偏差降至最低,通过 Top-1 准确性和负翻转这一构架搜索度量 - ECCV一个关于等向网络参数共享的实证评估
本研究旨在对等向网络 (SPIN) 进行经验性评价,提出了一种权值共享策略,并对权值共享的行为进行了定性研究。实验结果表明,该策略可以比传统缩放方法更有效地提高模型效率,例如在 ImageNet 数据集上将 ConvMixer 压缩 1.9 - ICML神经结构搜索中的干扰分析与缓解
本文探讨神经体系结构搜索中的权重共享问题并提出了 MAGIC-T 和 MAGIC-A 两种方法来缓解共享运算符之间的干扰。实验证明,我们的方法能够提高超级神经网络的排序相关性,并在各种任务中验证了其有效性和普适性。
- 尺度不变的尺度通道网络:泛化到以前未见的尺度的深度网络
本文研究多尺度卷积神经网络的设计,主要探讨协方差和不变性的问题,并从设计角度提出了新的凹陷视野尺度通道网络结构,其能够有效地实现不同尺寸的图像分类任务。
- CVPR地标正则化:在神经架构搜索中使用排名引导超级网络训练
本研究提出一种正则化项,通过一小组标志性架构来最大化共享权重网络和独立体系结构性能排名之间的相关性,在三种不同的 NAS 算法中应用并证明其能够提高算法的性能。
- ICLR局部自由重参数共享用于网络宽度搜索
本文提出了一种自由权重共享的策略 CafeNet 和一种减小搜索空间的方法来更好地评估每个网络宽度,该方法可以在 ImageNet、CIFAR-10、CelebA 和 MS COCO 数据集上进行验证,并被证明优于其他最先进的基线模型,特别 - ICLRSupernet 如何帮助神经架构搜索?
该研究分析了五个搜索空间,研究发现权重共享在某些搜索空间中效果良好但在其他搜索空间中效果不佳,进一步揭示了这种现象的偏见因素和权重共享的能力。
- ICLR双模 ASR: 统一与改进全上下文流式 ASR 模型
该研究提出了一种统一框架的双模 ASR(自动语音识别),通过权重共享和全场景 ASR 的联合训练,特别是在训练期间进行知识蒸馏,使流式 ASR 的延迟和准确性得到明显改善。该框架适用于最新的卷积和变压器 ASR 网络,并在 LibriSpe - CVPR权重共享能否优于随机架构搜索?一项基于 TuNAS 的研究
本文比较了基于权重共享的高效神经结构搜索算法和随机搜索方法在不同问题领域下的性能表现;同时,该文提出并评估了一些技术手段可用于改进搜索到的结构的质量,进一步降低人工超参数调参的需求。
- 如何训练超网络:基于权重共享的 NAS 训练启发式分析
通过系统评估常用的超网络训练启发式方法和超参数,发现其中一些启发式方法会对超网络和独立性能之间的相关性产生负面影响,并证明了某些超参数和体系结构选择的强烈影响。
- ICCVHM-NAS: 基于分层掩膜的高效神经架构搜索
本文介绍了一种称为 HM-NAS 的高效神经结构搜索方法,它通过引入多级结构编码方案和自动学习的层次掩码方案来实现更加灵活、优化的高级神经网络结构搜索,相比现有的基于权重共享的方法,HM-NAS 在体系结构搜索性能和模型评估准确性方面都有了 - 理解神经结构搜索技术
研究自动化方法来生成最新的神经网络架构而无需人类专家,并探究解释可解性和记忆缓冲作为有效方法的影响。