- 半自适应协同双向广义逆学习系统
本文提出了一种半自适应协同双向伪逆学习系统,其每个子系统包含前向学习、反向学习和特征级联模块,并使用非梯度下降学习算法进行训练,简化了超参数调整,提高了训练效率。子系统的架构采用数据驱动方法设计,实现了子系统深度的自动确定。与基准的非梯度下 - 上下文学习是一种基于梯度的学习吗?来自结构引导中反向频率效应的证据
大型语言模型(LLMs)已显示出上下文学习(ICL)的新兴能力。研究对 ICL 的解释之一是将其功能性视为梯度下降。本文介绍了一种诊断 ICL 是否与基于梯度的学习具有功能等价性的新方法。我们的方法基于反向频率效应(IFE)- 一种错误驱动 - 开放问题:梯度下降的逐步收敛速度
通过改变步长序列,可以加速原始的梯度下降方法,并导致不断增大的误差,因此我们提出了一个问题:是否存在可以在任意停止时间下加速经典的 $\mathcal {O}(1/T)$ 收敛速度的梯度下降步长安排?
- 非齐次双层网络的大步长梯度下降法:边界改善与快速优化
神经网络的大步梯度下降(GD)训练通常包括两个不同的阶段,第一阶段中经验风险震荡,而第二阶段中经验风险单调下降。我们研究了满足近准同质条件的两层网络中的这一现象。我们展示第二阶段开始于经验风险低于特定阈值(依赖于步长)的时刻。此外,我们展示 - 高维空间中学习稀疏特征的最优修剪
通过在高维度中训练剪枝神经网络并与梯度下降算法结合,我们研究了剪枝网络对广泛类统计模型学习的影响,发现剪枝神经网络在样本复杂度上相比未剪枝网络有提升,并引入了相关统计查询下界来支持这一观点。
- 关于概率神经符号学习的难度
纯神经学习的局限性引发了对概率神经符号模型的兴趣,这些模型将神经网络与概率逻辑推理相结合。我们研究了不同 iating to withging 行概率推理的复杂性。我们证明了尽管在一般情况下近似这些梯度是棘手的,但在训练过程中变得可行。此外 - 关于最小二乘回归的早停规则
线性回归问题中,我们分析了离散全批量梯度下降的参数轨迹和期望过度风险,证明了使用学习率调度和有限时间内的早停解与广义岭正则化问题的最小范数解等价,并表明早停对于具有任意频谱和多种学习率调度的一般数据都是有益的。我们给出了最佳停止时间的估计并 - 模拟、快慢学习:学习黑箱优化的策略
通过学习主动学习策略和使用代理模型的梯度从而使用梯度下降法优化模拟参数,本文引入了一种新的方法来解决类似黑盒优化问题的一类问题。经过训练后,相对于局部代理模型方法、数值优化和贝叶斯方法,基于黑盒模拟器的问题的下游优化仅需要约 90%较少的昂 - DeepRacer 在实体赛道上的参数探索与性能评价
本文关注 AWS DeepRacer 的物理环境能力。通过两个实验,研究了超参数和物体避让对物理环境的影响,发现在模拟环境中,较高的梯度下降批次大小和 Huber 损失类型的模型表现较好,在物理环境中,梯度下降批次大小为 128 时效果最佳 - 梯度下降如何学习特征 - 正则化双层神经网络的局部分析
通过本地收敛分析,该论文展示了梯度下降通过精心正则化的目标函数在损失降至一定阈值以下后能够捕捉到真实方向,从而证明了特征学习不仅发生在初始梯度步骤,也可能发生在训练结束时。
- 量子平衡传播:量子系统的梯度下降训练
平衡传播(EP)是一种基于能量的系统的训练框架,它利用系统的物理性质来提取权重梯度,以实现成本函数的梯度下降,是发展能效处理器应用于机器学习的候选方法之一。本文将 EP 扩展到量子系统,并研究了经典物理系统和量子系统的例子。
- 稳定性边界训练的原因 —— 分层雅可比对齐
用指数欧拉求解器训练神经网络,以准确近似真实的梯度下降动态系统,证明了 Hessian 矩阵的锐度增加是由于网络的逐层 Jacobian 矩阵对齐导致的,而对齐程度与数据集大小呈幂律关系,相关性系数在 0.74 到 0.98 之间。
- Grokfast:通过增强慢梯度加速洞察力的理解
对于机器学习中的一个令人困惑的伪现象,即迟滞推广现象,我们通过将参数的一系列梯度作为随时间变化的时间随机信号进行频谱分解,加速了该现象,并提出了少量代码来放大梯度的缓慢变化部分,其中实验表明我们的算法适用于涉及图像、语言和图形的各种任务,使 - VeLoRA:使用排序 - 1 子标记投影的内存高效训练
通过梯度下降,我们确认了大型语言模型的有效模型收敛所需的重要组件,并提出了一种廉价且内存高效的算法来进行微调和预训练大型语言模型。
- 从可能世界到可能模型:学习不确定数据
我们介绍了一种从不确定数据中学习线性模型的高效方法,其中不确定性被表示为数据中可能的变化集合,导致预测的多样性。我们的方法利用抽象解释和 zonotopes(一种凸多面体类型)来紧凑地表示这些数据集的变化,从而能够同时对所有可能的世界进行符 - 一种用于替代梯度学习的广义神经切向核
研究了神经网络训练方法中激活函数导数不可用时的问题,提出了代理梯度学习(SGL)的理论基础,并利用神经切向核(NTK)的推广 —— 代理梯度 NTK 分析了 SGL,通过数值实验验证了 SGL 在具有有限宽度和符号激活函数的网络中的有效性。
- 最小化 UCB:局部贝叶斯优化中更好的局部搜索策略
本研究中,我们提出了一种新的局部贝叶斯优化算法 MinUCB,通过在 GIBO 中将梯度下降步骤替换为最小化 UCB 的策略来改进了梯度下降方法,证明了在应用高斯过程作为替代物时,后者可以比直接梯度下降更好。此外,我们还通过前瞻策略改进了 - Polyak 遇上无参数 Clipped 梯度下降
本研究探讨了参数自由方法在修剪的梯度下降中的应用,提出了非精确 Polyak 步长方法,其收敛速度与拥有良好调整的超参数的修剪梯度下降方法在 L 平滑和(L0,L1)平滑假设下,收敛到最优解的速度渐近独立。在合成函数和 LSTM、Nano- - 热力学自然梯度下降
我们展示了在大规模训练中,与一阶方法相比,具有更好收敛性质的二阶训练方法很少被使用,可能是由于计算开销过大。然而,我们通过使用适当的硬件设备,证明了某些参数区间内,自然梯度下降(NGD)这种二阶方法在每次迭代中可以具备与一阶方法类似的计算复 - 梯度下降学习的超参数化卷积神经网络图像分类器收敛速率分析
基于过参数化卷积神经网络的图像分类,采用全局平均池化层进行考虑。通过梯度下降学习网络的权重,推导出新引入的卷积神经网络估计的错误分类风险与最小可能值之间收敛速度的界限。