- 针对花生的模型:在无训练访问的情况下劫持机器学习模型是可行的
我们提出了一种在推断时间进行模型劫持的简单方法 SnatchML,通过在受害模型的潜在空间中使用距离度量来将未知输入样本分类为与劫持任务类别相关的先前已知样本。同时,我们还探讨了不同的方法来缓解这种风险,其中包括一种名为 meta-unle - 自扩展卷积神经网络
本文介绍了一种动态扩展卷积神经网络的新方法,通过使用自适应扩展评分作为扩展标准,解决了深度卷积神经网络中参数过多的常见问题,从而确保模型的复杂性与任务需求相匹配。该方法的一个显著优势是环保性质,因为它省去了训练多个不同大小模型的必要性。通过 - 关于可靠机器学习的基准模型多样性的实证研究:图像分类案例研究
通过对可信度的多维度模型设计和其对一系列可靠度指标的影响进行一站式的经验基准测试,我们的研究暴露了深度学习模型的过参数化现象导致的模型多样性,这需要在模型选择过程中增加额外的规范以避免意外的失败,并为这种多样性提供影响和趋势的可行性建议。
- 具有结构强胜算头奖券的 N 次多项式超参数化卷积神经网络
给定一个研究论文,识别并提取五个准确代表其主题和研究领域的关键词。然后,通过一句简洁的中文句子总结该论文。输出结果为 JSON,包含关键词和摘要字段,无需解释。
- 初始化对过参数化神经网络的隐私 - 效用分析
过度参数化和随机化机器学习算法对其训练数据的信息泄露有何影响,通过解析分析我们得出了模型分布间的 KL 散度的隐私界限,并研究其对全连接神经网络的初始化、宽度和深度的依赖性。我们发现,这个 KL 隐私界限很大程度上由训练过程中的模型参数相对 - 矩阵感知中过参数化如何降低梯度下降速度:对称性和初始化的困扰
研究论文通过严格的证明展示了过参数化如何改变矩阵感知问题中梯度下降的收敛行为,论文涉及过参数化与称对称参数化以及非对称参数化,提出了线性收敛结果并给出了关键关键字。
- 基于骨架的动作识别的高性能推断图卷积网络
介绍了通过重参数化和超参数化技术,分别提出了两种新的高性能推理图卷积网络 HPI-GCN-RP 和 HPI-GCN-OP,其中 HPI-GCN-OP 在维持相同准确率的情况下,比 HD-GCN 快 4.5 倍,同时在两个基于骨架的动作识别数 - 多层神经网络梯度下降的泛化保证
对梯度下降训练的神经网络的稳定性和泛化性进行研究,探讨不同网络缩放参数的影响,发现在稳定性和超参数化方面的一些新的规律,并证明了过度参数化的神经网络可以达到所需的风险水平。
- ACL多头注意力的支柱寻找
本文提出了使用最小冗余特征选择的思想,通过聚焦于最具代表性和独特性的特征,采用自监督群组约束进行训练的 Grouped Head Attention 模型,以及通过投票去除冗余头部来实现更有效和高效的多头自注意力模型。实验结果表明,该方法在 - 优秀的记忆力:使用自回归语言模型进行加密
本文提出了第一个具有自回归语言模型的对称加密算法(SELM),证明了自回归模型可以通过随机子空间优化和贪婪解码将任意数据编码为紧凑的实数向量(即加密),然后无损地解码向量以获取原始信息(即解密)。同时,本文通过一种新的经验方法研究了 SEL - 具有 ε- 扰动的强彩票假设
本研究通过在预训练步骤中对权重的波动进行波动,拓展了强彩票符号假设的理论保证,从而回答了两个开放性问题:(1)通过在强编码符号假设中允许随机初始权重的 ε- 比例扰动,是否可以减少候选网络的超参数化要求?(2)SGD 的权重变化是否与这些扰 - IJCAI集成多关系图神经网络
本研究提出了一种新的集合多关系图神经网络通过设计集合多关系(EMR)优化目标来同时解决以前多关系 GNN 中扩充和过度参数化的问题,并截取了一个多关系 GNN,以缓解过度平滑和过度参数化问题,并在四个基准数据集上进行的广泛实验表明了所提出的 - ICML音频分类中的过度参数化和泛化
本研究旨在探讨声场分类模型过度参数化与其泛化能力之间的关系。研究结果表明,增加卷积神经网络的宽度可以提高其对未知设备的泛化能力,即使参数数量没有增加。
- 毫无畏惧:插值视角下深度学习的卓越数学现象
本文阐述了深度学习和机器学习等领域中,数学理论在实践中的不足和理论难题。作者尝试从揭示深度学习基础的角度探究插值和超参数化的作用,以期近一步走向深度学习和机器学习的普适理论。
- 轻度超参数化双层神经网络的局部收敛理论
本文研究了过度参数化对于神经网络构建优化的成功至关重要的原因,并发现过度参数化下的神经网络具有非常稳定的收敛性质,其学生节点不断向教师节点收敛,并有一个漂亮的收敛速率定理,该速率与学生节点的数量无关。
- 深度矩阵分解的梯度下降算法:动力学和从低秩隐含的偏差
本文研究用于解决深度学习的隐含偏差问题的梯度下降算法动态收敛性,在线性网络和估计问题上,分析梯度下降中的 “有效秩” 动态变化,提出了矩阵低秩投影的有效秩,为理解深度学习奠定了基础。
- EMNLP神经机器翻译模型的稀疏性
本研究探讨神经机器翻译模型的超参数化问题,并通过实验证明删除的参数可以被再利用来提高基准模型的性能,其提高的翻译结果可以达到 0.8 个 BLEU 值,再利用的参数被用于增强底层的语义建模能力。
- 多头注意力:合作而非串联
该论文提出了一种协作式多头注意力层,该方法通过共享 key/query 投影来降低注意力层中参数的数量,可以用于任何变压器体系结构,并对语言理解、机器翻译和计算机视觉方面进行了验证和实验,并可将预训练的多头注意力层重新参数化为协同注意力层, - DO-Conv:深度可超参数化卷积层
本文提出了一种称为 DO-Conv 的深度可分离卷积层,可以用于代替传统的卷积层,并在图像分类等经典视觉任务中提高卷积神经网络的性能,同时在推理阶段将深度卷积折叠成传统卷积,不会增加计算复杂度。
- 通过 SubsetSum 实现最优彩票:对数超参数化足够
本文证明了强 “lottery ticket hypothesis” 并非多项式过度参数化要求,反而是对数过度参数化的,通过概述了和证明了剪枝随机 ReLU 网络与随机 SubsetSum 问题的关系,并对实验数据进行了验证。