- 噪声不是 SGD 和 Adam 在变形金刚上差距的主要因素,但是符号下降可能是
Adam 优化器在许多架构上的成功使其成为随机梯度下降表现不佳的默认选择,最近的研究表明,Adam 和其他启发式算法在语言任务上胜过 SGD,因为采样引起的误差分布具有重尾,我们通过对批处理大小进行进一步研究发现,Adam 在大批量设置中的 - ICLRMini-batch k-means 在 O (d/ε) 次迭代内终止
本文考虑小批量 $k$-means 聚类算法的可行性及效果,证明了在合适的批量大小情况下,算法会在有限的时间内收敛,而且 $k$-means++ 算法能够取得和全量数据一样的近似比例。此外,还将结果应用到了 Python 的 Scikit- - 语言图像预训练的 Sigmoid Loss
本文提出了针对图像 - 文本预训练的简单对数损失函数,其中使用 sigmoid 函数,从而可以放大批量大小,并实现更好的性能表现。
- DeepCAR 方法:预测具有变化点的时间序列数据
该论文基于深度学习提出了 DeepAR 框架,用于时间序列预测。针对 DeepAR 模型在时间序列中的拐点会降低其预测性能的缺点,本文提出了一种检测拐点并将其纳入模型的方法。实验证明,该方法在无拐点情况下与标准 DeepAR 表现相同,在有 - 神经转换器训练:样本级计算减少内存消耗
研究了神经转录器的训练过程中内存需求高的问题,提出了一种基于样本的方法来减少内存使用和提高训练效率。在一系列基准测试中表明,比默认批处理计算更具有竞争力,可以在 1024 批处理计算下,仅使用 6GB 的内存来计算 40 秒音频的转录器损失 - 基于动量的策略梯度算法与二阶信息
提出一种名为 SHARP 的基于二阶信息和具有时间变化的学习率的动量随机梯度下降方法,实现一阶可压缩的稳定点,无需重要性采样,具有 O(1 /t ^ {2/3})的误差估计方差下降速率。实验结果表明该算法在控制任务上比现有算法效果更好。
- 小批量大小提高低资源神经机器翻译训练
本研究证明在低资源训练中,相比于 GPU 内存允许的大批量训练,小批量训练在较短时间内可以得到更高的分数,并说这是由于在训练过程中梯度更好的正则化所导致的。
- ICML全局对比学习中可证明的随机优化:小批量不会影响性能
本文从优化的角度研究对比学习,提出了一种内存效率高的随机优化算法 ——SogCLR,可解决现有对比学习方法依赖大批量数据或特征向量词典的问题,并在自监督学习任务中取得了与 SimCLR 相似的性能。
- AAAI响应性网络压缩中蒸馏质量的控制
本文探讨了如何提高知识压缩的效果,发现教师神经网络的反应质量和相似性信息密切相关,而采用适当的批量和历元数训练教师可以提高知识压缩的效果。
- 零 - shot 转移学习的综合缩放
研究使用 BASIC 方法将对比学习框架在三个方面进行扩展:数据规模、模型规模和批次大小,并取得了对比学习模型的极高准确性和健壮性。
- CAFE: 垂直联邦学习中的灾难性数据泄露
本论文提出一种名为 CAFE 的先进数据泄露攻击方法,可有效地从共享聚合梯度中恢复批量数据,并指出标准 FL 中的隐私数据,尤其是竖直情况下,有很高的泄露风险。
- ECCV解耦对比学习
本文提出了解决自监督对比学习中的批处理大小等参数问题的一种简单有效的基准方法(DCL),并对其进行了在多种基准测试中的复现和实时检验,最终实现了较少受亚优化超参数影响且性能不错的对比学习方法。
- COLING平滑对比学习用于无监督句子嵌入
该论文提出了一种简单有效的平滑策略 (Gaussian Smoothing InfoNCE),以解决在使用较大 batch size 时信息噪声过多导致性能下降的问题,在标准语义文本相似度任务 (STS) 上表现超过了目前最先进的无监督学习 - CVPR使用大批次和相似度混合的 Top-k 替代损失
通过发掘新的损失函数、批大小和新的正则化方法之间的相互作用来学习用于检索的深度视觉表示模型。提出了一种可微的代理损失作为召回的替代,使用一个实现操作在成对标量相似度上的有效的混合正则化方法,以训练具有极高批大小的模型。该方法在多个图像检索基 - 大规模差分隐私 BERT
本文探究了使用差分隐私 SGD(DP-SGD)进行 BERT-Large 的大规模预训练。通过仔细的实现和批量大小增加,我们提高了 DP-SGD 步骤的实用性,并使用增加的批量大小计划提高了其效率。
- ICLR大批次训练的并发对抗学习
本研究提出使用对抗学习 (adversarial learning) 技术来增加大批量训练 (large-batch training) 的批量大小,以克服随着批量大小的增加而降低的数据增强表现的问题,并通过 Concurrent Adve - 对抗性动量对比预训练
为了在更小的批次和更少的 epochs 中帮助神经网络学习更强大的特征表示,本文提出了一种新的对抗动量对比学习方法,并引入了对应于干净样本和对抗样本的两个存储器。与以前的对抗性预训练模型相比,该方法在更小的批量和更少的训练 epochs 下 - ICMLSGD 超参数在自然训练中如何影响对抗鲁棒性?
通过实验观察 SGD 算法中学习率、batch size 和 momentum 三个重要超参数对神经网络训练精度及对抗鲁棒性的影响,并发现固定学习率和 batch size 比例的训练方式可以获得更好的泛化能力与保持较为稳定的抗干扰性能。
- 深度学习大批量训练中的外推
本文提出使用计算有效的外推方法来稳定优化轨迹,同时通过平滑避免锐减的局部最小值,从而解决了大批量训练数据下的模型精度退化问题并且在 ResNet、LSTM 和 Transformer 等模型下得到证明。
- ACL将 Transformer 应用于字符级转换
这项研究比较了循环神经网络和 transformer 在字符级转换任务方面的表现,发现 batch size 在 transformer 的性能上扮演了关键的角色,在足够大的 batch size 下,transformer 的表现强于循环