- 神经核条件均值嵌入
本论文介绍了一种将深度学习与核条件均值嵌入相结合的新方法,解决了核条件均值嵌入在可扩展性和表达能力方面的挑战,并在条件密度估计和强化学习中达到了竞争性能。
- 复杂性的重要性:在伪相关存在的情况下的特征学习动态
我们提出了一个理论框架和相关的合成数据集,以布尔函数分析为基础,允许对虚假特征相对复杂性和与标签相关性的相对强度进行细粒度控制,以研究虚假相关下特征学习的动态。我们的设置揭示了几个有趣的现象:(1)更强的虚假相关或更简单的虚假特征会减缓核心 - ICML神经网络中的函数空间正规化:概率视角
神经网络优化中的参数空间正则化是提高泛化能力的基本工具,但是标准的参数空间正则化方法使得将对期望预测函数的显式偏好编码到神经网络训练中变得具有挑战性。本文从概率的角度来看待神经网络的正则化,并展示了通过将参数空间正则化视为对模型参数的经验先 - 具有梯度采样优化的残差神经网络的鲁棒剪枝
本研究探讨了一种创新的神经网络优化方法,专注于在修剪过程中应用与 StochGradAdam 类似的梯度采样技术。我们的主要目标是在修剪模型时保持高精度水平,这是资源受限场景中的一个重要挑战。我们广泛的实验证明,使用梯度采样技术优化的模型在 - 通过熵最小化的强化学习修剪卷积滤波器
利用结构剪枝和信息论奖励机制,我们能够在保持准确性的同时降低神经网络架构的浮点运算数,并在减少 5-10 倍的 FLOPS 的同时最小化性能损失。
- 异常数据对神经网络优化的影响
我们揭示了神经网络优化中的新现象,其由深度和自然数据中特定重尾结构的相互作用产生。通过实验证明,在训练数据中具有相反信号的成对异常值对网络输出具有显著影响,并描述了如何识别和研究其对网络优化和行为的影响。我们的发现为训练行为提供了新的定性预 - 人口下降:基于自然选择的超参数调优框架
我们提出了 Population Descent,这是一个专注于超参数优化的模因算法。通过自适应的 m 优秀个体选择方法和基于标准化适应度的随机化方案,我们展示了这种算法在常见的基准任务上比复杂的现有算法提高了最多 13% 的性能。
- 通过前向传播错误学习表示
基于正向传播方法和代数几何中的双重数概念,提出了一种在 CPU 上与 GPU 上的 CUDA 加速相比都快速的轻量级学习算法
- 基于时代的随机梯度下降中的相关噪声:对权重方差的影响
本文研究了离散时间下具有动量的 SGD 的时域白噪声的自相关,并研究了 epoch-based 噪声相关性对于 SGD 的影响,结果表明对于大于超参数相关值的曲率方向,可以恢复无关噪声的结果,但对于相对平坦的方向,权重方差显著降低。
- 通过激活函数发现和自动权重初始化优化神经网络
该论文介绍了发现更强大的激活函数和建立更稳健的神经网络权重初始化的技术,改进了 AutoML 的性能,提供了神经网络优化的新视角,使自动机器学习有了更进一步的发展。
- 深度学习训练不稳定性的损失曲率视角
本论文探究了损失海森矩阵在多项分类任务中的演化,以了解损失曲率对训练动态的影响。结果表明,成功的模型和超参数选择能够使早期的优化轨迹避免或穿越高曲率区域并进入扁平区域,提高学习率稳定性,类似于各种训练不稳定性缓解策略最终解决神经网络优化的相 - 机器学习中离散随机性的 Gumbel-max 技巧及其扩展综述
本文介绍了使用 Gumbel-max trick 从分类分布中抽样的方法,并概述了该方法的扩展,包括从结构化领域中抽样、多重抽样、通过渐变估计神经网络优化中的误差反向传播等,并提供了以 Gumbel 为基础算法的机器学习文献综述、常见设计选 - ICML神经网络优化中的不确定性和不稳定性
本文实验性地研究了神经网络优化的不确定性,证明了所有不确定性来源都对模型多样性具有类似的影响,这是因为模型训练的不稳定性是决定性的因素,并提出了两种减少波动性的方法。
- 学习神经网络子空间
本文通过一次性的方法在神经网络中学习高准确度的线、曲线、和单纯形来寻找各种应对方法,达到了独立训练网络套索并在训练成本上类似的计算成本,增加了分类器的鲁棒性和准确性。
- CVPR使用偏差来对抗量化偏差
本文探讨了移动设备上深度神经网络低精度表示的问题,提出了一个简单的方法通过在通道的参数中添加一个常数来解决量化引起的移位问题,从而实现了对 MobileNet 架构的优化。
- ExpandNets:利用线性过参数化训练紧凑卷积网络
本文介绍了一种利用过参数化的方法来训练紧凑型神经网络的方法,通过将紧凑型神经网络的线性层扩展成多个连续的线性层,而不添加非线性化,形成扩展网络 ExpandNet,可在推理时代数地缩小回紧凑型神经网络。我们提出了两种卷积扩展策略,并在图像分 - 贝叶斯过滤统一自适应和非自适应神经网络优化方法
通过贝叶斯滤波的方法,我们提出了一种新的神经网络优化器 AdaBayes,能够自适应地在 SGD 和 Adam 之间切换,并且能够恢复出 AdamW 的效果,同时具有和 SGD 相当的泛化性能。
- 深度学习中的经验风险景观 II
这项研究以理论和实验相结合的方式,对超参数化的 DCNN 的经验风险进行了表征,并提出了一个关于 DCNN 经验损失面的直观模型。