- MM线性注意力或许是你所需的全部(理解 Transformer 优化的)
通过对线性化浅层 transformer 模型的研究,我们对 transformer 训练的复杂性有了更深入的了解,并观察到线性化模型能够重现 transformer 训练动态的几个重要方面,因此,本文的结果表明简单的线性化 transfo - 图增强结构感知推荐嵌入进化优化器
我们提出了一种新颖的嵌入更新机制 SEvo,用于推荐系统中,以鼓励相关节点在每一步演进时相似,理论分析了 SEvo 及其变体的收敛性,并展示了其能够在现有优化器中无缝集成,提供了有效利用图形结构信息的技术途径。
- 随机平均梯度:简单实证研究
我们比较了随机平均梯度 (SAG) 与一些经典机器学习优化算法,并提出了将 SAG 与动量算法和 Adam 相结合的方法,这些组合在优化函数时表现出更高的速度和更好的性能。
- 神经网络训练算法基准测试
本文提出了一个新的竞争性算法基准测试,AlgoPerf:训练算法基准测试,在多个工作负载上运行固定的硬件,解决了评估训练算法改进的三个基本挑战,包括如何确定训练何时结束和精确测量训练时间,如何处理测量对确切工作负载细节的敏感性,以及如何公平 - 误差反馈能够准确压缩预处理器
本文通过压缩梯度信息并将压缩误差反馈到未来迭代,提出了一种有效且易于实现的误差反馈技术,以在不影响收敛的情况下压缩预处理器,从而压缩全矩阵预处理器达两个数量级,实验结果表明,该方法在不影响准确度的情况下,可以有效地消除完全矩阵预处理的内存开 - 旋转优化器:简单而稳健的深度神经网络训练
本文研究深度神经网络的训练动态,提出旋转变量优化器,通过移除传递相应收敛期可达到与原始变量优化器类似的性能,降低了对学习率热身的需求,并改善了对网络归一化不足的优化。
- 基于 Node2vec 的深度学习模型用于链接预测
本文提出了一种深度学习模型 NODDLE,它结合了 node2vec 和神经网络,使用 Adam、Adamax、Adadelta 和 Adagrad 优化器,用于解决在动态网络中连接预测的问题,并在多个社交网络数据集上表现比传统方法更好。
- 用户级私有凸优化
该研究介绍了一种新的具有用户级差分隐私保证的随机凸优化机制,收敛速度类似于 Levy 等人(2021);Narayanan 等人(2022)的先前工作,但有两个重要改进。该机制不需要对损失进行任何平滑性假设,同时也是第一个其用户级隐私所需最 - SSL 交互作用:扩充、归纳偏差,与泛化
本文对自我监督学习的理论与实践中被忽视的问题进行了分析,阐述了数据增强、网络结构和训练算法对于预训练和下游任务泛化性能的影响,并为自我监督学习的从业者指出了一些有价值的见解。
- Mnemosyne: 使用 Transformers 训练 Transformers
该研究提出了 Mnemosyne 优化器,使用 Performers 隐式低秩关注 Transformers 学习对整个神经网络架构进行优化,能够广义地训练视觉 Transformers 以及在机器人应用中初始化优化器以实现更快的收敛速度, - 深度强化学习中策略梯度估计偏差的重新审视
本文从深度强化学习的角度重新审视了折扣式情节马尔科夫决策过程(MDP)中政策梯度的估计偏差,重点讨论了状态分布漂移引起的偏差,提出了 3 种减少偏差的方法(小学习率;基于自适应学习率的优化器,KL 正则化),并在连续控制任务上展示了实验结果 - 消失的决策边界复杂度与强第一组件
通过研究神经网络的决策边界,发现深度学习模型的边界相对简单,但通过先前模型的决策边界可以研究最终模型的泛化能力,此外还探讨了深度模型的第一主成分的强度、优化器的奇异性以及 ResNet 中跳跃连接的影响。
- VeLO:通过扩展规模训练多功能学习优化器
通过与深度学习相同的扩展方法,我们训练一种自适应的深度学习优化器。这个优化器是一个小型神经网络,可摄取梯度并输出参数更新,经过数千个 TPU 月的计算,不需要超参数调整,可以自适应问题进行优化。
- 基于经验的优化器选择策略研究:面向非分布式环境下的广义泛化问题
研究不同类型的分布偏移下用于图像和文本分类的常用优化器的性能,发现自适应优化器表现较差,并且在分布偏移对分类准确性的影响方面呈现三种类别的行为,可以帮助实践者选择正确的优化器。
- ICLR重参数化优化器而非架构
本研究通过梯度重新参数化的方法设计了 RepOptimizers 优化器,将模型特定的先验知识融入最优化器中。在 VGG 风格的平面模型上的实验表明,使用 RepOptimizers 的简单模型性能不逊于复杂的设计模型,并且具有更快的推理速 - ICML高效沟通的自适应联邦学习
本文介绍了一种新的通信高效的自适应联邦学习方法 FedCAMS,该方法具有理论收敛保证并在各种基准测试上进行了广泛实验验证。
- ICLR面向领域的对抗性训练:博弈视角
本文从博弈论的角度解释了域自适应训练中学习不变表示的支配性思路,并将梯度下降的优化器替换成高阶 ODE 求解器,为此得出渐近收敛保证。实验结果表明,与标准优化器相比,使用我们的优化器能够在半数训练迭代次数内,与最先进的域自适应方法相结合实现 - 指数梯度更新的步长自适应
通过将指定的优化器与自适应调整方法相结合,基于指定的全局步长缩放和每个坐标的增益因子来调整全局步长,进而提高在大规模应用中优化器的性能,并用指数化梯度更新方法来更新步长范围和增益变量,可在训练期间快速适应数据分布差异。
- Ranger21:一种协同深度学习优化器
介绍了一种新的优化器,Ranger21,它结合了 AdamW 和八个组件,能够提供显著的验证准确性和训练速度的提高,并且能够顺利地训练 ResNet50。
- AdaBelief 优化器:通过观察梯度的信念来调整步长
提出了一种名为 AdaBelief 的优化器,通过根据当前梯度方向的 “信任度” 调整步长,同时达到了收敛速度快、泛化性能好和训练稳定的三个目标,并在图像分类和语言建模等领域的实验中证明了其优越性。