- SING: 一种即插即用的深度神经网络学习技术
通过对 Adam (W) 进行标准化处理和梯度的标准化,提出了一种插拔式的技术 SING(稳定和标准化梯度),以实现优化器的稳定性和普适性。理论分析和实际实验都支持了该方法的有效性和实用性。
- 黑盒机器翻译系统的对抗攻击
本文提出一种基于黑盒无梯度的张量优化器的方法,来愚弄俄语和英语的机器翻译系统,其中包含了对神经网络在自然语言处理中的应用、对机器翻译中存在的漏洞的研究以及如何优化这些工具的探讨。
- ICLROTOV2:自动化、通用型、用户友好型
本研究提出了一种自动压缩深度神经网络的方法 (OTOv2),它通过将可训练变量分配到零不变组合中,并使用新颖的 DHSPG 优化器来自动构建高性能的压缩模型,同时将其应用于各种模型结构的图像分类任务,并在大多数数据集上表现优秀,是一种通用且 - CVPR稳健的无监督 StyleGAN 图像修复
本文提出了一种基于 GAN 的图像去噪、增强方法,引入了 3 个阶段渐进式潜空间扩展和保守优化器,使该方法对于多种不同水平的退化具有鲁棒性,效果比其他基于 StyleGAN 和扩散方法的方法更好。
- 应用于航天器的变尺寸设计空间最优布局问题的隐变量遗传算法
该论文提出了一种变量规模设计空间问题的扩展公式作为复杂系统(如航空航天器)的最佳布局,以考虑到大量的架构选项和元件分配,并通过遗传算法加上调整的隐藏变量机制来解决 NP 难问题。
- ICLRBort: 具有有界正交约束的可解释神经网络
本研究介绍了一种名为 Bort 的优化器,它通过对模型参数设置有限制条件来提高深度学习模型的可解释性并进行反演。实验表明,在 Bort 的优化下,模型的可解释性得到了显著提高,并且能够在不使用附加参数和训练的情况下合成出可解释的对抗样本。更 - CVPR基于 Transformer 的学习优化
本文提出了一种新的学习优化方法,其中采用神经网络表示优化器更新步骤的计算,优化器的参数通过训练一组优化任务来学习,以实现高效的最小化。创新之处在于,它是一种新型的神经网络架构,“Optimus”,对学习到的优化器进行了改进,启发自经典的 B - 如何使用 SGD 微调视觉模型
比较了在视觉 Transformer 和 ConvNeXt 模型微调时,SGD 和 AdamW 两种最常用的优化器的表现,发现当微调梯度在第一个 embedding 层中远大于其余模型时,使用 AdamW 可以比 SGD 取得更好的表现,但 - ICLR学习优化拟牛顿方法
本文提出了一种新的机器学习优化器 LODO,它将学习优化 (L2O) 技术与拟牛顿方法相结合,用于学习对称矩阵向量积的神经表示,从而适应于在测试任务中遍历的损失景观的局部特征。与其他 L2O 方法不同的是,我们的方法不需要在训练任务分布上进 - SS-SAM:随机计划锐度感知最小化在高效训练深度神经网络中的应用
本文提出了一种名为 Stochastic Scheduled SAM(SS-SAM)的新型高效训练方案来降低 Sharpness-aware Minimization(SAM)方法的计算复杂度,并探究了不同的调度函数对模型性能的影响。实验结 - 通过黎曼收缩在监督学习中的泛化能力
本文证明了监督学习中的黎曼收缩会导致泛化,对于凸性和非凸性的损失表面,在确定性和随机优化中,如果优化器在某种黎曼度量模下的缩小速率为 λ>0,则它的均匀算法稳定性速率为 O (1/λn)(其中 n 是训练集中的有标签示例数),相关的泛化界在 - ICLR优化器融合:更优秀的局部性和并行性的高效训练
本文提出将优化器与前向或后向计算融合,重新排序前向计算、梯度计算和参数更新,旨在更好地利用局部性和并行性,从而提高迭代优化器的效率。实验结果显示,这种方法可以在不改变优化器算法的情况下,实现多种配置的 20% 训练时间缩短。
- CVPRNetAdaptV2: 带快速超级网络训练和架构优化的高效神经网络架构搜索
本文提出 NetAdaptV2,通过三项创新工作平衡各个步骤的时间并支持非可微分搜索指标,进而加速神经结构搜索并提高神经网络性能。
- 深度学习优化器基准测试 - 穿越拥挤的山谷
本文通过对 15 种深度学习优化器的广泛基准测试,得出以下结论:(i) 优化器的性能因任务而异。(ii) 使用默认参数评估多个优化器大致与调整单个优化器的超参数一样好。(iii) Adam 仍然是一个强有力的竞争者,其它新的方法未能显著并持 - ICMLFISAR:基于深度神经网络优化的前不变安全强化学习
本文提出了一种基于深度神经网络优化器的约束优化求解方法,将约束作为 Lyapunov 函数并在策略参数更新动态上施加新的线性约束以达到约束满足的效果,并改进了现有方法在优化策略时的瓶颈,其在数值优化和避障导航等场景中体现了出色的性能。
- 使用避免等待的群组平均法在并行随机优化中突破(全球)界限
本文提出了 Wait-Avoiding Group Model Averaging (WAGMA) SGD 算法,采用子集权重交换的方式减少全局通信,优化分布式深度学习中的性能问题,相较于其他分布式 SGD 算法具有更快的训练速度和更高的得 - 自适应方法的领域无关主导性
通过对自适应方法的简要分析,我们提出了 AvaGrad - 一种优化器,当其适应性调整得当时,其性能优于视觉任务中的 SGD。我们观察到我们方法的效果部分是由学习率和适应性的解耦实现,从而简化了超参数搜索。实践证明 AvaGrad 匹配了现 - 深度学习优化器的实证比较
本文证明了优化器比较对超参数调整协议的敏感性,提出探究搜索空间是解释当前文献中最新动态排名的最重要因素之一,并展示实验结果证明了目前广泛使用的自适应梯度方法永远不会劣于动量或梯度下降。
- diffGrad: 卷积神经网络的一种优化方法
本文提出了一种新的优化器 diffGrad,它基于当前和上一梯度之间的差异,并根据参数的梯度变化速度动态调整步长。作者通过实验证明了 diffGrad 在图像分类等任务上的优越性能,特别是与其他优化器相比,diffGrad 对于使用不同激活 - KDD自适应子矩阵定位的多尺度扫描统计量
本文研究了在不知道子矩阵大小的情况下,如何在数据矩阵中定位具有较大条目值的子矩阵。我们建立了一个基于多尺度扫描统计量的优化框架,并开发了算法来逼近优化器。我们还展示了我们的估计器只需要与最小极大估计器具有相同阶数的信号强度,就可以在高概率下