- Adam-mini: 更少的学习率,取得更多的收益
Adam-mini 是一个优化器,通过减少内存占用量(相较于 AdamW 减少了 45%至 50%)来实现与之相当或更好的性能。Adam-mini 通过减少 Adam 中的学习率数量来降低内存使用,使用预定义参数块中 $v$ 的平均值作为该 - 初始化对 LoRA 微调动态的影响
该篇论文研究了初始化在低秩适应(LoRA)中的作用,结果显示将 B 初始化为零且将 A 初始化为随机可以比其他方案获得更好的性能。
- ICML优化计算效率:用结构矩阵代替稠密层
稠密线性层、结构化矩阵、初始化尺度、学习速率和计算高效模型是这篇论文的关键。
- 向量值谱正则化学习算法的最优速率
我们研究具有向量值输出的一类正则化算法的理论性质,包括核岭回归、核主成分回归、梯度下降的各种实现等。我们的贡献有两个方面:首先,通过推导出一种新的学习速率下限,我们严格确认了具有向量值输出的岭回归的所谓饱和效应;当回归函数的平滑度超过一定水 - FLARE:面向资源受限无线网络的新型联邦学习框架,可调节学习速率
无线联邦学习中,通过 FLARE 框架可以调整学习速率和本地训练迭代次数以适应参与设备的瞬时计算能力,从而减轻异构性的影响,进一步通过优化调度来利用信道的不均匀性。
- 大规模 $μ$ 转让的探索
大型神经网络模型的初始化和学习速率通常基于启发式方法,本研究通过对普遍存在的 Transformer 架构进行实证研究,探究 µP(µ-Parameterization)是否在实践中能够提供最佳的学习速率,并发现在大多数重要情况下 µ-Tr - 有原则的考虑架构的超参数缩放
通过对神经网络架构的深入研究,在初始化和学习率方面提出了新的原则,并验证了其对网络性能的改进,从而为当前架构设计的基准测试提供了新的方法。
- 自适应参数选择的核岭回归
基于核岭回归的参数选择问题,通过细致的参数区间划分和早停策略运用 Lepskii 原则,实现了学习率的优化和对不同规范的适应,为核方法的参数选择提供了新的突破记录。
- 大学习率提高泛化性能:我们所讨论的是多大的学习率?
基于最近的研究建议使用较大的学习率(LRs)来进行神经网络训练以获得最佳泛化效果,我们详细研究了这一假设,并明确了提供后续小学习率或权重平均训练的最佳结果的初始 LR 范围,发现这些范围实际上比通常假设的范围显著窄,我们在一个简化的设置中进 - 广义谱方法的随机特征逼近
随机特征逼近是加速大规模算法中核方法的最流行技术之一,并提供了对深度神经网络分析的理论方法。我们分析了与随机特征相结合的一大类谱正则化方法的泛化性质,包括梯度下降等具有隐式正则化的核方法或 Tikhonov 正则化等明确方法。对于我们的估计 - 我们并不需要亚当,我们只需要夏娃:关于双学习速率的差异和更多内容
通过应用不同的学习速率到梯度的不同组成部分,具有增强速度估计 (EVE) 的新颖方法创新性地优化了深度神经网络,在解决传统单一学习速率方法所面临的挑战上实现了更精细的控制和更快的收敛。此方法利用适应学习环境的动量项,更高效地导航复杂的损失表 - 有效学习率的扩展:早期训练中批量归一化的风险
本文研究了深度规范化 ReLU 网络的早期训练阶段,并通过研究有效学习率(LR)来解释梯度流的影响,发现使用大 LR 类似于对非线性 ODE 应用显式求解器,在第一步后导致底层出现过振荡和梯度消失,因此在深度,LR 和动量(可选)上需要进行 - 不含泪的高斯 - 伯努利受限玻尔兹曼机
我们提出了一种新颖的 Gibbs-Langewin 采样算法和改进的对比散度算法,可用于训练 Gaussian-Bernoulli restricted Boltzmann machines (GRBMs)。实验结果表明,我们的方法可以有效 - 利用相关性在低秩偏好强盗中实现更快的学习速度
介绍了带有随机选择模型(RUM)的相关偏好赌博问题,研究了具有简单相关结构的模型是否可以实现更快的学习率,提出了一类新的基于块排序的 RUM 模型,证明了利用子集查询相比于成对查询有更大的优势,后者不能很好地利用相关性。
- 标签噪声 SGD 可证明偏爱扁平化全局最小值
研究过参数化模型,标签噪音等对随机梯度下降中的正则化作用及其影响。
- 强化学习中纯探索的快速主动学习
研究表明,对于纯探索目标的奖励免费探索,按比例缩放的奖励可以带来更快的学习率,从而提高了对于时限的依赖性的已知上限。此外,在最佳策略识别设置中,改进的停止时间分析可以将样本复杂度提高一倍。
- 通过 Infimum Loss 实现部分标注的结构化预测
本文提出了一种基于结构化预测和概念的下确界损失的统一框架,以处理一系列学习问题和损失函数中的部分标注,其中监督以包含实际标签的标签集的形式呈现,并且明确的算法可以轻松实现,并且证明了统计一致性和学习速率。实验证实所提出的方法优于常用的基准方 - 贝叶斯元先学习:基于经验贝叶斯的方法
本文提出了一种层次经验贝叶斯方法,以解决实际问题中面临的挑战,即缺乏信息先验和无法控制参数学习速率的问题。该方法从数据本身学习经验元先验,并将它们用于解耦 GLM 中的一阶和二阶特征的学习速率。作者将其应用于标准监督学习优化问题以及在线组合 - ICLR具有动态学习率上界的自适应梯度方法
本文提出了 AdaBound 和 AMSBound 两种新型变体算法,通过采用动态的学习率边界来实现自适应方法与 SGD 方法之间的平稳过渡,证明了它们的收敛性,并在各种任务和模型上进行了充分的实验,结果表明这两种方法可以消除自适应方法与 - ICML点对点 ROC 曲线优化的监督相似性学习概率理论
该论文从交叉匹配角度分析了相似性学习,提出了一种基于 ROC 优化的点级优化标准,通过一种概率框架对此进行了深入研究,给出了基于 U - 统计的约束优化表达式,推导出相应的普适性学习速率以及在数据分布噪声假设下更快速的学习速率,同时考虑了采