通过梯度下降实现高维度鲁棒均值估计
本文提出了一种半自适应协同双向伪逆学习系统,其每个子系统包含前向学习、反向学习和特征级联模块,并使用非梯度下降学习算法进行训练,简化了超参数调整,提高了训练效率。子系统的架构采用数据驱动方法设计,实现了子系统深度的自动确定。与基准的非梯度下降方法进行了比较,结果表明了本文方法的有效性。
Jun, 2024
大型语言模型(LLMs)已显示出上下文学习(ICL)的新兴能力。研究对 ICL 的解释之一是将其功能性视为梯度下降。本文介绍了一种诊断 ICL 是否与基于梯度的学习具有功能等价性的新方法。我们的方法基于反向频率效应(IFE)- 一种错误驱动的学习者在训练罕见示例而不是常见示例时预计会显示更大更新的现象。我们的实验证明,在 ICL 中模拟结构启动效应后,LLMs 显示 IFE,且在更大模型中效应更强。我们得出结论,ICL 确实是一种基于梯度的学习,支持正向传递过程中隐式计算梯度的假设。我们的结果表明,人类和 LLMs 都利用基于梯度和错误驱动的处理机制。
Jun, 2024
通过改变步长序列,可以加速原始的梯度下降方法,并导致不断增大的误差,因此我们提出了一个问题:是否存在可以在任意停止时间下加速经典的 $\mathcal {O}(1/T)$ 收敛速度的梯度下降步长安排?
Jun, 2024
神经网络的大步梯度下降(GD)训练通常包括两个不同的阶段,第一阶段中经验风险震荡,而第二阶段中经验风险单调下降。我们研究了满足近准同质条件的两层网络中的这一现象。我们展示第二阶段开始于经验风险低于特定阈值(依赖于步长)的时刻。此外,我们展示了归一化边界在第二阶段几乎单调增长,证明了 GD 在训练非同质预测器时的内在偏差。如果数据集线性可分且激活函数的导数不为零,我们证明平均经验风险下降,暗示第一阶段必须在有限步骤中停止。最后,我们展示选择合适大步长的 GD 在经历这种阶段过渡时比单调降低风险的 GD 更高效。我们的分析适用于任意宽度的网络,超出了众所周知的神经切线核和平均场范围。
Jun, 2024
通过在高维度中训练剪枝神经网络并与梯度下降算法结合,我们研究了剪枝网络对广泛类统计模型学习的影响,发现剪枝神经网络在样本复杂度上相比未剪枝网络有提升,并引入了相关统计查询下界来支持这一观点。
Jun, 2024
通过统一的框架和标准化的黑盒函数,针对化学和生物学的实际应用领域,该论文研究了贝叶斯优化的高维优化方法和技术难点,并提供了易于拓展的软件库,以方便实践者更好地应用于离散优化问题。
Jun, 2024
纯神经学习的局限性引发了对概率神经符号模型的兴趣,这些模型将神经网络与概率逻辑推理相结合。我们研究了不同 iating to withging 行概率推理的复杂性。我们证明了尽管在一般情况下近似这些梯度是棘手的,但在训练过程中变得可行。此外,我们介绍了基于模型采样的无偏梯度估计器 WeightME。在温和的假设下,WeightME 用对数数量的 SAT 求解器调用来近似梯度并提供概率保证。最后,我们评估了梯度中这些保证的必要性。我们的实验表明,即使在仍然可行的情况下,现有的偏倚近似确实很难优化。
Jun, 2024
线性回归问题中,我们分析了离散全批量梯度下降的参数轨迹和期望过度风险,证明了使用学习率调度和有限时间内的早停解与广义岭正则化问题的最小范数解等价,并表明早停对于具有任意频谱和多种学习率调度的一般数据都是有益的。我们给出了最佳停止时间的估计并通过实验证明了估计的准确性。
Jun, 2024
通过学习主动学习策略和使用代理模型的梯度从而使用梯度下降法优化模拟参数,本文引入了一种新的方法来解决类似黑盒优化问题的一类问题。经过训练后,相对于局部代理模型方法、数值优化和贝叶斯方法,基于黑盒模拟器的问题的下游优化仅需要约 90%较少的昂贵模拟调用。
Jun, 2024
本文关注 AWS DeepRacer 的物理环境能力。通过两个实验,研究了超参数和物体避让对物理环境的影响,发现在模拟环境中,较高的梯度下降批次大小和 Huber 损失类型的模型表现较好,在物理环境中,梯度下降批次大小为 128 时效果最佳。同时发现物体避让在模拟环境中有效,但在物理环境中仍面临挑战。
Jun, 2024